抖音2024年10月13日发布:探索腾讯混元-DiT：国产文生图开源模型的无限可能

Hunyuan-DiT 是潜在空间中的扩散模型，如下图所示。根据潜在扩散模型，我们使用预训练的变分自动编码器 (VAE) 将图像压缩到低维潜在空间，并训练扩散模型以使用扩散模型学习数据分布。我们的diffusion扩散模型使用转换器transformer进行参数化。为了对文本提示进行编码，我们利用预训练的双语（英语和中文）CLIP 和多语言 T5 编码器的组合。

多轮 Text2Image 生成

理解自然语言指令并与用户进行多轮交互对于文本转图像系统非常重要。它可以帮助构建一个动态且可迭代的创作过程，逐步将用户的想法变为现实。研发团队训练 MLLM（多模态LLM）来理解多轮用户对话并输出新的文本提示，用于图像生成，用来支撑混元-DiT模型进行多轮对话和图像生成的能力。

如果你对腾讯混元-DiT 感兴趣，那么你可以按照以下步骤进行 win10 本地部署体验：

01.准备工作：

你需要一台 win10 系统的电脑，并且安装了 Python 3.10 及以上版本，以及 TensorFlow 2.13 及以上版本。你还需要下载腾讯混元-DiT 的开源代码和模型权重，你可以在官网地址或GitHub 项目地址上找到它们。

https://github.com/tencent/HunyuanDiT

02. 安装依赖：你需要在命令行中运行以下命令，安装腾讯混元-DiT 的依赖库：

git clone https://github.com/tencent/HunyuanDiT

d ./HunyuanDiT python -m pip install -q -r requirements.tx

03. 安装flash-attention适合win依赖

https://github.com/bdashore3/flash-attention/releases

pip install

flash_attn-2.5.8+cu122torch2.3.0cxx11abiFALSE-cp310-cp310-win_amd64.whl

这里注意，需要安装PyTorch2.1.x和cuda 12.x。具体选择哪个下载，需要先运行pip debug --verbose，根据输出里面的Compatible tags来选择兼容的wheel文件。

04. 模型下载

python -m pip install -q "huggingface_hub[cli]" mkdir ckpts huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts

05. 代码修改

这里app/hydit_app.py需要修改代码，默认使用443端口可能会被占用。同时，如果有请gradio依赖版本报错，请根据提示版本pip安装。

if __name__ == "__main__": interface = ui() interface.launch(server_name="0.0.0.0", server_port=7875, share=True) interface.launch(server_name="127.0.0.1", server_port=7875, share=False, inbrowser=True)

06. WebUI推理

针对低显存建议使用参数 --no-enhance，否则出图速度很慢（24G显存一张图需要超过12分钟）

# Using Flash Attention for acceleration. --infer-mode fa

# Start with English UI python app/hydit_app.py --no-enhance --lang en --infer-mode fa # By default, we start a Chinese UI.sh #python app/hydit_app.py --no-enhance --lang zh --infer-mode fa

07. 部署过程报错问题解决

1、DLL load failed while importing awq_inference_engine报错如下

File "C:\Users\Administrator\pinokio\bin\miniconda\lib\site-packages\awq\modules\linear.py", line 4, in <module> import awq_inference_engine # with CUDA kernelsImportError: DLL load failed while importing awq_inference_engine: 找不到指定的模块。

解决方法：

https://github.com/oobabooga/text-generation-webui/issues/4253git clone https://github.com/casper-hansen/AutoAWQ -c http.proxy="http://127.0.0.1:2081"cd AutoAWQpip install -e .

2、修改默认迭代步数，同时请不要开启文本增强否则会报错如下