标题:苹果与EPFL联合开源4M-21多模态视觉模型,引领跨模态数据处理新纪元

AI前沿4个月前发布 wanglu852
3,503 0 0
广告也精彩

苹果公司与瑞士洛桑联邦理工学院(EPFL)近期宣布联合开源了一款名为4M-21的多模态视觉模型。这一模型以其庞大的30亿参数和先进的技术特性引起了业界的广泛关注。4M-21模型不仅能够执行图像分类、目标检测、语义分割等多种视觉任务,还引入了创新的“离散 tokens”转换技术,这一技术实现了对不同模态数据进行统一格式处理的能力。

“离散 tokens”转换技术的核心在于将不同类型的数据(如图像、文本等)转换为一种通用的数据表示形式,从而使得模型能够更高效地处理和理解这些数据。这种技术的应用,不仅提高了模型在多模态任务中的表现,还为跨模态数据分析和处理提供了新的可能性。

通过开源4M-21模型,苹果和EPFL旨在推动多模态学习和人工智能领域的发展,为研究人员和开发者提供了一个强大的工具,以探索和实现更多创新的应用。这一合作不仅展示了学术界与产业界合作的潜力,也为未来的技术进步和应用拓展奠定了坚实的基础。

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!