腾讯开源混元AI绘画大模型详解

AI前沿2个月前发布 wanglu852
1,851 0 0
广告也精彩

混元AI绘画大模型是什么?

腾讯开源的混元AI绘画大模型,是一款具有中文原生和多轮对话特点的AI绘画工具。它能够直接理解中文,无需转译,尤其在古文直接生成图方面表现出色。此外,它支持多轮对话,允许用户在一次生成图片后继续添加元素,通过对话引导至最终想要的图片。

混元AI绘画大模型的性能如何?

混元大模型在性能测试中表现优异,超越了MJ v6和SDXL,与SD3基本打平,虽然距离微软的DALL-E3有一点差距,但作为一款开源产品,它具有被其他创作者魔改和深度训练的潜力,未来有望超越其他AI绘画大模型。

混元AI绘画大模型的硬件要求是什么?

混元大模型的硬件门槛较高,目前必须是NVIDIA显卡,最低配置是11G显存,推荐32G显存。这使得它对于大多数玩家来说配置要求较高。

如何安装和使用混元AI绘画大模型?

安装依赖和环境设置

  1. 克隆存储库:
    git clone https://github.com/tencent/HunyuanDiT
    cd HunyuanDiT
    
  2. 设置Conda环境:
    conda env create -f environment.yml
    conda activate HunyuanDiT
    
  3. 安装pip依赖:
    python -m pip install -r requirements.txt
    
  4. 可选:安装flash attention v2以加速(需要CUDA 11.6或以上):
    python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.1.2.post3
    

下载预训练模型

  1. 安装huggingface-cli:
    python -m pip install "huggingface_hub[cli]"
    
  2. 下载模型:
    mkdir ckpts
    huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts
    

推理

使用Gradio

# 默认启动中文UI
python app/hydit_app.py
# 使用Flash Attention加速
python app/hydit_app.py --infer-mode fa
# 禁用增强模型(如果GPU内存不足)
python app/hydit_app.py --no-enhance
# 启动英文UI
python app/hydit_app.py --lang en

使用命令行

# 使用Torch模式进行文本到图像的增强
python sample_t2i.py --prompt "渔舟唱晚"
# 仅文本到图像(无增强)
python sample_t2i.py --prompt "渔舟唱晚" --no-enhance
# 仅文本到图像(Flash Attention模式)
python sample_t2i.py --infer-mode fa --prompt "渔舟唱晚"
# 生成不同尺寸的图像
python sample_t2i.py --prompt "渔舟唱晚" --image-size 1280 768

我的感悟

我认为:腾讯开源混元AI绘画大模型的推出,不仅展示了腾讯在AI领域的技术实力,也为中文用户提供了一个强大的创作工具。其开源的特性将吸引更多创作者参与调优,有望推动AI绘画技术的发展。然而,高硬件门槛可能会限制一部分用户的参与,期待未来能够降低硬件要求,让更多人享受到AI绘画的乐趣。

https://www.bmanhua.com/manhua/46/

© 版权声明
chatgpt4.0

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...
error: Content is protected !!