Google官方博客刚刚发布了Gemma 4——这次真的把开源大模型做到了边缘设备上。从最小的Effective 2B到最大的31B,全系列覆盖,最小版本能直接跑在树莓派这类嵌入式开发板上。
四个尺寸,覆盖全场景
| 型号 | 有效参数 | 适合部署 | 上下文窗口 |
|---|---|---|---|
| E2B (Effective 2B) | 2B | 树莓派、手机、嵌入式开发板 | 128K |
| E4B (Effective 4B) | 4B | 单板计算机、入门GPU | 128K |
| 26B MoE | 26B(激活仅3.8B) | 消费级GPU、本地工作站 | 256K |
| 31B Dense | 31B | 单卡H100就能跑 | 256K |
E2B重点特性
- 专为边缘设备设计:推理时只激活20亿参数
- 体积小巧:量化后体积控制在几百MB
- 硬件支持:能跑在Raspberry Pi、NVIDIA Jetson Orin Nano上
- 多模态原生支持:图像识别、语音输入直接用
对嵌入式开发者的意义
以前你想在嵌入式设备上跑大语言模型:
- 要么自己剪模型,剪完精度掉得没法用
- 要么找不到合适尺寸,官方不支持边缘部署
- 协议还不开放,商业使用不敢碰
现在Google直接给你做好了:
- ✅ 官方优化:E2B/E4B从根上就是为边缘设计的
- ✅ 全开源:Apache 2.0协议,商业项目随便用
- ✅ 多模态原生支持:图像识别、语音输入直接用
- ✅ 生态齐全:Hugging Face、Ollama、llama.cpp第一天就支持
下载地址
项目已经开源,直接去Hugging Face下载:
👉 https://huggingface.co/collections/google/gemma-4-67ed607457a7b13847c406ed
从E2B到31B全有,官方已经打好了各种量化版本,拿来就能部署到你的开发板上。
总结
当大模型厂商真的开始认真做”全尺寸覆盖”,从云端到边缘每一个节点都有官方模型可用,端侧AI普及才真正加速。
以前你想做个嵌入式多模态产品,模型这块要折腾半年。现在好了,官方直接给你一个几百MB就能跑的现成模型,拿来就能用在产品里。
这才是开源真正的价值——让中小开发者也能用上前线模型。
相关阅读:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
