OpenAI 开源模型 GPT-OSS:技术解析与生态支持
OpenAI 开源了哪些模型?它们性能如何?
OpenAI 近期开源了两个大型语言模型(LLM):gpt-oss-120b 和 gpt-oss-20b。
- gpt-oss-120b:性能大致相当于 OpenAI 的 o4-mini 模型。
- gpt-oss-20b:性能大致相当于 OpenAI 的 o3-mini 模型。
这意味着开发者现在可以在本地运行与 OpenAI 早期模型性能相当的大型语言模型,极大地降低了使用门槛。
运行这些模型需要多大的显存?
- gpt-oss-120b:需要 80GB 显存进行推理。
- gpt-oss-20b:需要 16GB 显存设备。
相较于其他动辄需要数百 GB 显存的模型,这两个模型的硬件要求相对亲民,让更多开发者能够在本地进行实验和部署。
GPT-OSS 模型的架构与技术细节是怎样的?
这两个模型都基于 Transformer 架构,并采用了 专家混合(MoE) 技术来提高推理效率。下面我们详细看一下它们的参数配置:
- gpt-oss-120b
- 层数:36层
- 总参数量:1170亿
- 每个 token 激活参数:51亿
- 专家数量:128个
- 每 token 激活专家数量:4个
- gpt-oss-20b
- 层数:24层
- 总参数量:210亿
- 每个 token 激活参数:36亿
- 专家数量:32个
- 每 token 激活专家数量:4个
此外,这两个模型还支持 分组多查询注意力(grouped multi-query attention) 和 RoPE 位置编码,并且原生支持超长上下文。这意味着它们可以处理更长的文本序列,并在推理过程中更有效地利用上下文信息。
GPT-OSS 模型的训练数据是怎样的?
训练数据主要以高质量英文纯文本为主,重点覆盖 STEM、编程 和 通用知识 等领域。这意味着模型在这些领域具有较强的知识储备和推理能力。
GPT-OSS 模型是如何进行训练和后训练的?
模型采用了与 o4-mini 类似的后训练流程,包括 监督微调 和 强化学习 阶段。这种训练方式可以提升模型在特定任务上的性能,并使其更好地理解和执行指令。
此外,模型还支持三档推理强度(低、中、高),可以通过系统消息灵活设置,兼顾延迟和性能。这意味着开发者可以根据实际需求,在推理速度和模型性能之间进行权衡。
模型还具备强大的 指令执行、工具调用(如网页搜索、Python 代码执行)和 推理能力。举个例子,你可以让模型帮你搜索最新的研究论文,或者让它帮你编写并执行一段 Python 代码。
如何在本地部署和使用 GPT-OSS 模型?
- 下载模型权重:权重已经在 Hugging Face 免费开放下载,支持 MXFP4 量化格式,便于本地和多平台部署。
- 安装依赖:确保你的环境安装了 PyTorch 或 Metal 等必要的依赖库。
- 选择推理框架:你可以使用 PyTorch 或 Metal 等框架进行推理。OpenAI 提供了相应的参考实现和示例工具。
- 编写推理代码:使用 Python 或 Rust 编写推理代码,并加载模型权重。
- 运行推理:运行推理代码,并根据需要调整推理强度。
例如,使用 Ollama 部署 GPT-OSS 模型:
- 安装 Ollama:请参考 Ollama 官方文档进行安装,确保安装成功。
- 下载模型:在命令行中运行
ollama pull gpt-oss-20b
或ollama pull gpt-oss-120b
下载对应的模型。 - 运行模型:下载完成后,运行
ollama run gpt-oss-20b
或ollama run gpt-oss-120b
即可启动模型进行对话。
GPT-OSS 模型的生态支持如何?
OpenAI 与 Hugging Face、Azure、Ollama、AWS、Cloudflare 等主流平台合作,优化多硬件支持。这意味着你可以在各种不同的平台上部署和使用这些模型。
Windows 设备有专门的 GPU 优化版本,支持本地推理和开发。这意味着 Windows 用户也可以在本地体验到高性能的推理效果。
更多详情请参考:openai.com/zh-Hans-CN/index/introducing-gpt-oss/
我认为:OpenAI 这次开源 GPT-OSS 模型,无疑是给 AI 社区注入了一剂强心针。它不仅降低了大型语言模型的使用门槛,也为研究者和开发者提供了更多的可能性。然而,开源也意味着风险,如何平衡开源与安全,是 OpenAI 需要思考的问题。期待未来能看到更多优秀的开源模型涌现,共同推动 AI 技术的发展。
, , , ,