会议背景
- 参与者:AIGCLINK发起人占冰强、FastGPT作者余金隆、Agently创始人莫欣、BiSheng作者覃睿、General-Agent创始人李辰
- 目的:探讨多模态技术在AI框架中的应用及未来发展规划
多模态技术讨论
占冰强的观点
- 多模态索引支持:利用视觉模型预处理图片,生成文本进行存储
- 工作流中的多模态输入:通过插件解析图片、视频、文件、音频等
- 实时向量化:复杂度高,未来讨论
- 多模态的意义:弥补语言表达的不清晰,通过图片输入输出辅助文本理解
余金隆的观点
- 多模态模型在C端应用:图像输入,相关问题提问
- 企业应用场景:大湾区企业尝试使用多模态解决业务问题
- 能力边界探索:图像识别的颗粒度,如坐标标记等
- 框架层面的引入:逐步理解多模态模型的能力边界,选择合适的场景引入
莫欣的观点
- 企业场景的多模态应用:目前没有特别明确的场景
- 投入产出比:企业更看重实际业务价值
- 多模态的发展:等待C端场景的能力加强,再考虑企业场景的落地
覃睿的观点
- 多模态特性应用:图片和视频理解,视频制作
- OCR与多模态结合:提高非结构化数据的结构化处理效果
- 未来投入点:如何将多模态与框架更好地融合
AI大模型落地难点
李辰的挑战
- 人力问题:需求多,但接不过来
- 技术进步:技术不断进步,积累沉淀
覃睿的挑战
- 模型完美度:模型在企业内C化部署的问题
- 场景探索:对话机器人、客服辅助等场景的成熟度
- 技术进步:期待模型技术的进步
- 认知转变:从2000个场景中探索,接受失败的可能性
莫欣的挑战
- 企业主的AI认知建立:理解AI在业务中的应用和程度
- 开发框架的目的:降低开发难度,降低人才门槛
- 人才供应:解决人才供应问题,降低单个人才的年成本
余金隆的挑战
- 企业预期与现实差距:预期高,但现实未达预期
- 模型算力问题:工作流的简化,通过自然语言解决问题
创业建议
占冰强的建议
- 现金流管理:尽快实现盈亏平衡,不依赖融资
莫欣的建议
- 资金管理:确保口袋里有足够的资金
- 低成本测试:先通过对话界面测试想法
- 理解AI能力边界:深度使用AI,理解模型与对话界面的差别
覃睿的建议
- 小切口进入:找一个小切口先进去,逐步探索
李辰的建议
- 技术与商业结合:结合AI资源和信息化系统,避免纯AI生意
- 谨慎选择方向:方向选择非常重要,避免短期热点
总结建议
- 资本市场现状:AI创业者需自筹现金流,避免依赖融资
- 国内外市场差异:国内以to b为主,海外融资环境对华人不利
- 退出路径:目前资本市场退出路径有限,建议将AI创业作为生意来经营
会议总结
- 多模态技术在AI框架中的应用前景广阔,但需解决技术、人力和资金等多方面挑战
- 创业者应关注现金流管理,选择合适的切入点,结合技术和商业,谨慎选择发展方向
© 版权声明
文章版权归作者所有,未经允许请勿转载。