腾讯开源混元AI绘画大模型详解

AI前沿1年前 (2024)发布 wanglu852

12,201 0 0

混元AI绘画大模型是什么？

腾讯开源的混元AI绘画大模型，是一款具有中文原生和多轮对话特点的AI绘画工具。它能够直接理解中文，无需转译，尤其在古文直接生成图方面表现出色。此外，它支持多轮对话，允许用户在一次生成图片后继续添加元素，通过对话引导至最终想要的图片。

混元AI绘画大模型的性能如何？

混元大模型在性能测试中表现优异，超越了MJ v6和SDXL，与SD3基本打平，虽然距离微软的DALL-E3有一点差距，但作为一款开源产品，它具有被其他创作者魔改和深度训练的潜力，未来有望超越其他AI绘画大模型。

混元AI绘画大模型的硬件要求是什么？

混元大模型的硬件门槛较高，目前必须是NVIDIA显卡，最低配置是11G显存，推荐32G显存。这使得它对于大多数玩家来说配置要求较高。

如何安装和使用混元AI绘画大模型？

安装依赖和环境设置

克隆存储库：

git clone https://github.com/tencent/HunyuanDiT
cd HunyuanDiT

设置Conda环境：

conda env create -f environment.yml
conda activate HunyuanDiT

安装pip依赖：

python -m pip install -r requirements.txt

可选：安装flash attention v2以加速（需要CUDA 11.6或以上）：

python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.1.2.post3

下载预训练模型

安装huggingface-cli：

python -m pip install "huggingface_hub[cli]"

下载模型：

mkdir ckpts
huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts

推理

使用Gradio

# 默认启动中文UI
python app/hydit_app.py
# 使用Flash Attention加速
python app/hydit_app.py --infer-mode fa
# 禁用增强模型（如果GPU内存不足）
python app/hydit_app.py --no-enhance
# 启动英文UI
python app/hydit_app.py --lang en

使用命令行

# 使用Torch模式进行文本到图像的增强
python sample_t2i.py --prompt "渔舟唱晚"
# 仅文本到图像（无增强）
python sample_t2i.py --prompt "渔舟唱晚" --no-enhance
# 仅文本到图像（Flash Attention模式）
python sample_t2i.py --infer-mode fa --prompt "渔舟唱晚"
# 生成不同尺寸的图像
python sample_t2i.py --prompt "渔舟唱晚" --image-size 1280 768