LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。
ChatGPT问世以来,大语言模型(LLM)实现了跳跃式发展,基于自然语言进行人机交互的AI范式得到广泛运用。然而,人类与世界的交互中不仅有文本,其他诸如图片、深度等模态也同样重要。然而,目前的多模态大语言模型(MLLM)研究大多数闭源,对高校和大多数研究机构的同学们并不友好。而且,大语言模型受限于训练知识,往往缺乏时事认知、复杂推理能力,这就如同只能快速问答,没有“深度思考”能力。AI Agent(人工智能代理)则是解决这一问题的关键,它赋予LLM深度思考、复杂决策的能力,使LLM向自主性、反应性、积极性和社交能力特征的智能实体发展。我们相信,AI Agent领域将会诞生更多改变生活工作方式的成果,是大语言模型及多模态大模型的重要进化方向。
来自北航、复旦大学、悉尼大学、香港中文大学(深圳)等高校与上海人工智能实验室的学者共同推出多模态语言模型最早的开源社区之一 ——LAMM(Language-Assisted Multi-modal Model)。我们旨在将 LAMM 建设成一个不断发展的社区生态,支持 MLLM 训练和评测、MLLM 驱动的 Agent 等方向的研究。作为多模态大语言模型领域最早的开源项目之一,LAMM 的目标是建立一个开放的研究社区生态,让每个研究和开发人员都可以基于此开展研究,共同建设开源社区。
在这里,你可以 :
以最小的计算资源成本训练和评估 MLLM,仅需 3090 或 V100,轻松开始 MLLM 的训练和评测。构建基于 MLLM 的具身智能 Agent,能够使用机器人或游戏模拟器定义任务并生成数据。在几乎任何专业领域扩展 MLLM 应用。开源框架
LAMM 代码库实现了统一的数据集格式、组件式模型设计、一键式分布式训练,方便用户启动和实现自己专属的多模态语言模型。
更多详情请参考项目主页。
多模态大语言模型训练与评测
近期大量工作展现了多模态大模型 (MLLM) 在视觉内容理解和交互上的能力,并且体现出了解决更为复杂的下游任务应用的能力。除了常见的图片输入,LAMM 目前还支持点云等视觉模态输入,用户也可以根据自己的需求加入新的编码器。同时,LAMM 支持 PEFT 包进行高效微调,也引入了 flash attention、xformer 等工具进一步优化模型计算成本,使得用户能够用尽可能低的成本训练 MLLM。面对复杂的多任务学习,LAMM 也支持 MoE 等策略统一多组微调参数,进一步提高模型多任务能力,实现更全能的 MLLM。
然而,由于缺乏一个标准化的全面评估框架,这些模型的能力和局限性尚未被全面探索,我们仍然无法确认这些模型的能力究竟如何,他们究竟能做什么事情。现有的基准测试工作主要集中于为多模态大模型构建多模态评估数据集,或仅评估了一部分的视觉能力维度,或尝试建立了一个评测框架但缺乏可扩展性和全面性,对各个模型的全面评估和不同模型间进行公平可靠的对比仍然具有挑战性。LAMM 实现了一种具有高度可扩展性和灵活性的评测框架,旨在为多模态大模型提供一种可靠的、全面的评估。
详情可参考 https://openlamm.github.io/paper_list/ChEF
一键式组合式多模态语言模型评测框架
基于 LAMM 框架的多模态模型能力部分展示如下:
基于 2D 图像内容的问答:
基于 3D 点云的视觉问答:
多模态大语言模型驱动的具身 Agent
近期大量工作借助大语言模型 (LLM) 的强大推理规划能力来构建 Agent,例如 Minecraft 中的 Voyager 和 GITM 都借助 LLM 和文本记忆来规划智能体的行动,但是这些工作都假定智能体可以在规划决策的时候获取所有正确的环境感知信息,直接跳过感知阶段,忽视了实时的第一人称视角图片对具身智能体规划自身行动的影响,这在现实生活中也是不可能存在的。
为了让具身智能体在开放世界复杂环境中更好地感知环境,我们提出了以MLLM驱动的具身智能体MP5,其特点在于具备视觉感知和主动感知能力。视觉感知模块(模型主要架构为LAMM)允许MP5解决以前从未见过的任务,主动感知可以主动获取环境信息,以执行合适动作。最终 MP5 具有开放感知能力,并能根据不同的目的提供量身定制的感知结果,可以完成长时序及复杂环境信息任务。
总结
基于 MLLM 的强大能力和广阔应用前景,多模态学习来到了一个全新的阶段。LAMM 旨在建设一个助力多模态大模型研究的开源社区,并向社区开源了包括数据准备、模型训练、性能评测所有相关数据。
作为最早一批投入多模态语言模型研究的团队,我们希望不断发展 LAMM 工具箱,为 LAMM 开源生态提供轻量易用的多模态研究框架,和开源力量合作,助力更多有意义的研究。
以上内容均会在 LAMM 主页持续开源,请大家关注我们的主页和项目,也欢迎为 LAMM 代码库多多提交反馈和 PR。
最新发现
相关资讯
多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了
LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。ChatGPT问世以来,大语言模型(LLM)实现了跳跃式
2025-06-24 13:41:25
2024年中国大学生文化创意设计大赛,24/5/29投稿截止
大赛背景2024年中国大学生文化创意设计大赛——两岸高校艺术设计展,面向中国大陆及中国台湾,两地进行赛事征稿。旨在通过赛事活动提高两地大学之间的艺术和设计互动,通过交流以提升设计、美术创作的整体水平,以
2025-06-24 13:17:25
【5.29-5.31深圳】第五届深圳国际人工智能展正式启动,聚焦AI热点新赛道!
【大河财立方记者王宁宁】1月18日,大河财立方记者来自深圳人工智能行业协会了解到,第五届深圳国际定于5月29日至31日在深圳会展中心(福田)举行的人工智能展近日正式启动。深圳国际人工智能展(以下简称展会)是深
2025-06-24 12:53:25
AIGC概念拉升,科大讯飞涨停,机构:短期调整不影响行业长期投资机会
1月23日午后,AIGC概念持续拉升,科大讯飞尾盘涨停,截至发稿,成交额超38亿元;昆仑万维涨逾13%,成交额超42亿元;易点天下涨超9%。昨日召开的国务院常务会议强调,要统筹高质量发展和高水平安全,以人工智能和
2025-06-24 12:29:25
人民日报海外版:2024AIGC应用十大趋势发布——智能化应用将出现爆发式增长
日前,钉钉联合国际知名咨询机构IDC发布《2024 AIGC应用层十大趋势白皮书》(下称《白皮书》)。2023年是AI大模型的元年,2024年将会是AI产品的爆发年,越来越多的创新将会涌现。AI走向普惠,不仅推动着产业的转型
2025-06-24 12:05:25
美图靠AIGC翻身?去年净利暴涨约2倍,至少一半利润和炒币相关
图源:pixabay褪去明星光环的美图公司(01357 HK)正在靠AIGC重获市场关注度。2023年,大模型成为互联网行业的顶流,其释放的影响力波及一批AIGC概念股,美图就是受益者之一,其业绩表现情况也跟随AIGC高歌猛进。
2025-06-24 11:41:25
今日热榜
科大讯飞“牵手”中国华能集团,打造人工智能赋能能源电力行业典型示范
2024-12-27 15:57:44人工智能赋能新质生产力发展,政协委员献策未来发展
2025-05-02 07:51:09人工智能驱动的服务模型加速故障排除
2025-05-02 08:51:19大模型的人才黑洞效应,还在持续,ResNet作者张祥雨,投身AI大模型
2025-05-02 09:51:29T3出行领行阡陌大模型国家备案与数字化智能化发展
2025-05-02 11:11:43T3出行领行阡陌大模型国家网信办算法备案通过
2025-05-02 11:31:45超威财报后暴跌,“AI服务器”真不赚钱?
2025-05-02 12:32:05AI学习机售价破万元引争议,物超所值还是智商税?
2025-05-02 13:32:18人工智能威胁之谜:或毁灭人类,概率仅为5%
2025-06-04 12:00:10AI学会欺骗,探索人工智能新边界
2025-06-04 13:12:10热门推荐