Generative Models by <a href="https://www.yizz.cn/sites/3422.html" class="internal-link"><strong>Stability AI</strong></a>

Generative Models by Stability AI 教程笔记

概述

新闻更新

2023年11月21日 – 稳定视频扩散模型发布

SVD: 生成14帧，分辨率576×1024。
SVD-XT: 生成25帧的改进版本。

Stable Video Diffusion

2023年7月26日 – 发布新的开放模型

SDXL-base-1.0 和 SDXL-refiner-1.0: 对之前版本的改进。

2023年7月4日 – SDXL技术报告

发布SDXL-base-0.9 和 SDXL-refiner-0.9。

代码库与哲学

主要哲学：模块化至上。
采用配置驱动的方法组合子模块。

更新日志

使用PyTorch Lightning进行训练。
简化Diffusion模型类。

安装步骤

克隆仓库

git clone git@github.com:Stability-AI/generative-models.git
cd generative-models

设置虚拟环境

需Python3.10。

安装PyTorch 2.0。

python3 -m venv .pt2
source .pt2/bin/activate
pip3 install -r requirements/pt2.txt

安装sgm
```
pip3 install .
            
```

安装sdata用于训练

pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

包装

使用Hatch进行PEP 517兼容打包。

模型推理

提供脚本进行文本到图像和图像到图像的采样。

权重获取

SDXL-1.0 和 SDXL-0.9 的权重可以通过链接获取。

无形水印检测

使用invisible-watermark库。

训练

提供配置示例。
支持PyTorch 1.13和PyTorch 2。

构建新的扩散模型

条件器（Conditioner）: 通过conditioner_config配置。
网络（Network）: 通过network_config配置。
损失（Loss）: 通过loss_config配置。
采样器配置（Sampler Config）: 独立于模型。

数据集处理

推荐使用数据管道项目。

关键细节和步骤

安装

克隆代码库

git clone git@github.com:Stability-AI/generative-models.git
cd generative-models

设置虚拟环境

python3 -m venv .pt2
source .pt2/bin/activate
pip3 install -r requirements/pt2.txt

安装sgm
```
pip3 install .
            
```

安装sdata

pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

模型权重获取

通过Hugging Face获取SDXL-1.0和SDXL-0.9的权重。

无形水印检测

使用invisible-watermark库进行检测。

训练

使用提供的配置文件进行训练。
支持PyTorch 1.13和PyTorch 2。

构建新模型

通过配置文件设置条件器、网络、损失和采样器。
处理数据集时推荐使用数据管道项目。

注意事项

代码库和模型的更新可能会导致安装和使用步骤有所变化。
确保Python版本和依赖包版本匹配以避免冲突。
训练和推理前需要对硬件环境进行适当的配置，特别是当处理大型模型时。确保GPU资源足够，且安装了正确的CUDA版本。
在使用模型进行生成时，应注意遵守版权和道德准则。尤其是在生成图像和视频内容时，应避免侵犯版权或产生不适内容。
使用无形水印检测功能时，要理解其原理和局限性，以确保正确的应用。
模型的训练和使用需要消耗大量的计算资源，因此应合理规划资源使用，避免不必要的浪费。
在开发和部署过程中，应定期检查Stability AI的代码库和文档更新，以获得最新的功能和改进信息。
与社区保持互动，共享经验和解决方案，可以帮助快速解决遇到的问题。
在开发和应用过程中，应注意数据安全和用户隐私，尤其是在处理敏感数据时。
对于新手用户，建议从简单的实验和小型模型开始，逐步深入理解并掌握更复杂的技术和模型。
最后，由于模型和技术发展迅速，建议持续学习和关注最新的研究和行业动态，以保持技术竞争力。

以上就是关于Stability AI的Generative Models教程的关键细节、步骤和注意事项。希望这些信息能帮助你更好地理解和应用这些先进的技术。

数据统计

相关导航

阿里巴巴M6

阿里巴巴达摩院推出的超大规模中文训练模型（M6），提供大数据和AI场景下的最佳实践案例，一站式引导体验帮您快速了解DataWorks、MaxCompute、机器学习PAI、Hologres、Flink等产品能力和解决方案，降低企业上云成本。

SenseChat

商汤科技推出的类ChatGPT的人工智能大语言模型

LCM

一篇关于Latent Consistency Models (LCMs)的论文的摘要和相关信息。这篇论文介绍了LCMs作为在Latent Diffusion Models (LDMs)之后的新一代生成模型，旨在克服LDM的慢速迭代采样过程，在任何预训练的LDMs（例如Stable Diffusion）上进行快速推断。

Command R+

Cohere发布Command R+：支持中文，1040亿参数，性能媲美GPT-4

MOSS

复旦大学团队开发的对话式大型语言模型

DeepSeek-V2

DeepSeek-V2不只是一款模型，它是通往更智能世界的钥匙。它以更低的成本，更高的性能，开启了 AI 应用的新篇章。DeepSeek-V2 的开源，是对这一信念的最好证明，它将激发更多人的创新精神，共同推动人类智能的未来。