智源连甩近20项王炸研究进展！措辞、多模态、具身等_模子_研讨院

文章目录 [+]

作者 | 程茜编辑 | 漠影

智东西6月14日宣布，本日，在汇聚了200余位AI顶尖学者和家当专家的2024北京智源大会上，智源研究院推出大模型百口桶及全栈开源技能基座全新版图，公布了在大措辞模型、多模态、具身、生物打算大模型领域的重磅进展。

智源连甩近20项王炸研究进展！措辞、多模态、具身等_模子_研讨院通讯

个中的几大重磅进展如下：

1、大措辞模型：环球首个低碳单体稠密万亿措辞模型Tele-FLM-1T，仅花费业界普通演习方案9%的算力资源；

2、多模态大模型：原生多模态天下模型Emu3，采取自回归技能路线，统一笔墨图像视频；

3、具身大模型：环球领先真机实验成功率打破95%的泛化抓取技能ASGrasp；

4、生物打算大模型：全原子生物分子模型OpenComplex 2在国际威信的CAMEO蛋白质构造预测竞赛中连续26个月稳居第一；

5、开源技能基座：面向异构芯片、支持多种框架的大模型全栈开源技能基座FlagOpen 2.0，开源模型环球总下载量超4755万次；支持异构算力集群的大模型“操作系统”FlagOS，已支持超过50个团队大模型研发。

此外，智源研究院的全系列重磅成果都始终坚持全面开源开放。

智源大会已经成为北京乃至全国AI家当发展的学术名片，除重磅研究进展，还搜集了环球AI界顶尖大佬，包括图灵奖得主姚期智，OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等国际明星机构与技能团队代表，以及百度、零一万物、百川智能、智谱AI、面壁智能等海内主流大模型公司CEO与CTO，环绕人工智能关键技能路径和运用处景展开精彩演议和尖峰对话。

作为海内大模型家当发展的先锋代表，智源研究院成立于2018年11月，并率先预见了大模型时期的发展机遇。

早在2020年，智源研究院就成立百人技能攻关团队，开始进行悟道系列大模型研发。
月之暗面CEO杨植麟谈道，智源研究院从2020年开始研发，是亚洲地区最早投入且真正在做大模型的机构，这非常难得。

进入2023年，大模型从研究机构的科研成果向家当界逐步发展，智源研究院在个中扮演的角色发生变革。
百川智能CEO王小川提到，智源研究院既位于技能高地，同时扮演着智库角色，可以在生态中帮助企业快速康健发展。

从这次智源研究院的大模型百口桶以及全栈开源技能基座新版图来看，智谱AI CEO张鹏谈道，智源研究院已经在全体AI浪潮中进行了宏远布局。

当下，智源研究院正在面向对企业而言具有寻衅的关键、共性问题发起冲锋，面壁智能联合创始人、CEO李大海也提到，专注商业化的公司短缺动力或资源去做的事情，正在智源研究院的带领下，共同搭建平台面对这些须要办理的问题。

智源大会两天议程紧密环绕着当前AI领域的学术问题、家当落地寻衅展开深入谈论，助力环球AI家当的发达发展。

一、措辞、多模态、具身、生物打算，连发十余项大模型研究进展

在研究领域，智源研究院重点公布了在大措辞模型、多模态大模型、具身大模型、生物打算大模型领域的进展。

1、大措辞模型：112台A800演习4个月，Tele-FLM-Chat（52B）性能靠近GPT-4

智源研究院院长王仲远谈道，智源研究院的重点是不做企业已经在做或者能做的事情，而是去办理家当界的共性难点。

首先，为理解决算力缺少难题，智源研究院联合中国电信人工智能研究院（TeleAI）联合研发了基于模型成长和丢失预测技能演习的环球首个低碳单体稠密万亿措辞模型Tele-FLM，该模型与百亿级的52B版本，千亿级的102B版本共同构成Tele-FLM系列模型。
王仲远称，他们仅利用了业界普通演习方案9%的算力、用4个月完成3个模型总计2.3T tokens的演习，成功演习出万亿稠密模型Tele-FLM-1T。

同时，在演习过程中，基于智源研究院的超参预测技能实现了演习全程的零调度、零重试。

目前，Tele-FLM模型仍旧在演习中，王仲远透露，他们针对该模型演习中间版本的评估结果显示，在英文方面，BPB评测显示Tele-FLM（52B）表现靠近Llama 3-70B，中文方面优于Llama 3-70B。

目前，TeleFLM系列模型已经全面开源了52B版本，核心技能（成长技能、最优超参预测）、演习细节（loss曲线、最优超参、数据配比和Grad Norm等）均开源，Tele-FLM-1T版本即将开源。
这一万亿参数规模的模型完成开源后，将为开源社区演习万亿参数的稠密模型供应更佳的初始参数，帮助其他研发职员应对万亿模型难以收敛等寻衅。

此外，智源研究院评测了基于这一基座模型演习出的对话模型Tele-FLM-Chat（52B），AlignBench评测显示，个中文措辞能力已经达到GPT-4中文措辞能力的96%，总体上达到GPT-4的80%。
TeleEval评测显示模型中文对话能力达到了GPT-4的93%。

要把稳的是，这一评测结果的条件是Tele-FLM演习花费的算力远低于其他大模型。

Tele-FLM-52B版本开源地址 https://huggingface.co/CofeAI/Tele-FLM

Tele-FLM-Chat试用（纯模型单轮对话版）地址https://modelscope.cn/studios/FLM/ChatFLM

除了算力，另一个大模型在家当界落地的共性寻衅便是幻觉问题。

通用语义向量模型BGE系列下载总量位列国产AI模型首位。
BGE模型基于检索增强RAG技能，可以实现数据之间精准的语义匹配，支持大模型调用外部知识的调用。

目前Hugging Face、Langchain、Llama Index等国际主流AI开拓框架以及腾讯、华为、阿里、字节、微软、亚马逊等紧张云做事供应商都已经集成BGE模型，并对外供应商用。

2、多模态大模型：统一笔墨图像视频，瞄准最具寻衅技能路线

行业现有的多模态大模型多为针对不同任务而演习的专用模型，大多为文生视频、图生文等单一能力的组合。
基于对技能路线的发展判断，智源研究院武断要走统一、原生、端到真个多模态技能路线，这也是行业中最难、最具寻衅的技能路线。

智源研究院正在演习的Emu3统一了笔墨、图像、视频，并基于自回归技能路线同时实现图像、视频、笔墨的天生和理解。

王仲远透露，Emu3模型的研发目标“原生”便是指——一开始就将多种模态进行领悟，将天生主体进行领悟且可扩展，自回归技能路线还可以支持多模态大模型进行持续可控交互。

Emu3可以同时实现图像、视频天生，图像、视频理解：

▲Emu3视频天生能力演示

▲Emu3视频理解能力演示

Emu3模型在经由安全评估之后将会逐步开源。

此外，智源研究院还推出了在端侧运用的轻量级图文多模态模型系列Bunny-3B/4B/8B，多个榜单的综合结果表明，Bunny-8B的多模态能力可达到GPT-4o性能的 87%。

目前，Bunny模型参数、演习代码、演习数据已全部开源。

3、具身大模型：抓取成功率打破95%，还打造了“专模专用”分级大模型系统

过去一年，智源研究院具身智能创新中央在机器人泛化动作实行和智能大小脑决策掌握方面有一系列打破性成果。

机器人的抓取是最基本、最主要的操作，智源研究院在仿真系统中基于千万级场景、超过10亿的抓取数据，构建了通用物体抓取技能ASGrasp，针对跨任意形状和材质的泛化难题，智源率先打破95%的真机实验成功率，这在环球处于领先水平。

除了抓取，还有机器人的思考能力。
智源研究院打造了两个“专模专用、各司其职”的分级大模型系统。

个中之一是能反思、可随机应变的铰接物体操作大模型系统SAGE，该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识，让机器人拥有反思能力，使其任务失落败后可以重新方案操作流程。

另一个是环球首个开放指令六自由度拿取放置大模型系统Open6DOR。
这办理的是让机器人能够在抓取时考虑物体的位置、形态等，真正让其被运用起来。

同时，为了让机器人真正行走起来，智源研究院研发了环球首个端到端基于视频的多模态具身导航大模型NaVid，此前机器人须要提前构建舆图导航，Navid可以让机器人无需建图，只利用合成导航数据进行演习就可以实现在真实天下室内场景乃至是室外场景的zero-shot真机泛化。

▲多模态具身导航大模型NaVid演示

智源研究院的研究成果基于银河通用的机器人本体实现了落地，机器人可以基于视觉方案看到面前的东西，并根据用户的开放指令进行思考、交互，如让其拿取橘子，机器人可以准确从浩瀚物品中识别到橘子进行抓取：

同时，具身大模型的研究成果在医疗领域已经实现落地。
智源研究院联合领视智远研发了环球首个智能心脏超声机器人，并在真人上实现了自主心脏超声扫查。
与年夜夫扫描过程比拟创造，机器人的扫查高效性、准确性与年夜夫持平，稳定性、舒适性显著高于年夜夫。

为实现通用打算机掌握，智源研究院提出了通用打算机掌握框架Cradle，让智能体像人一样看屏幕，通过鼠标、键盘完成打算机上的所有任务。
Cradle由信息网络、自我反思、任务推断、技能管理、行动操持以及影象模块等6个模块组成。

4、生物打算大模型：打通根本生物分子壁垒，威信竞赛中26个月霸榜

药物研发过程中，重新药的研发到上市常日要耗费10年以上、10亿美元的投入，个中百分之三、四十旁边会投入到药物设计和产品的部分，这也是AI发挥浸染的关键之处。
此外AI在医疗领域的运用还可能包括大分子构造的建模预测、新药设计等。

基于此，智源研究院研发了全原子生物分子模型OpenComplex 2，以此来打通蛋白质、RNA、DNA、小分子根本生物分子之间的壁垒，同时还能研究生物分子之间的相互浸染关系。

OpenComplex 2在国际威信的CAMEO蛋白质构造预测竞赛中连续26个月稳居第一，从精度和宏不雅观构造方面来看，该模型与Alpha 2的预测构造相似。

这生平物打算大模型还支持其他稠浊物预测，如DNA、RNA、蛋白质，预测结果与Anton的预测结果相似，且噪音更少。

同时，智源研究院还面向虚拟心脏科学研究打造了环球首个实时孪生心脏打算模型，通过GPU加速将心脏的生物秒和打算秒打破到了0.9。
目前，其正在与北大医院、安贞医院、长征医院、朝阳医院互助将这一技能真正运用起来。

这便是目前智源研究院环绕大模型技能发展路线所做的研究，今年下半年，更多的研究成果将会陆续发布。

二、FlagOS：全栈开源的算力集群“操作系统”，稳定运行50+团队大模型演习

智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技能基座FlagOpen 2.0。
比较1.0，其技能框架更为完善，涵盖了面向不同芯片的算法库、面向异构AI的打算框架、数据处理工具、算法以及模型，这样开源的系统框架能够真正成为开拓者的一站式大模型开拓和研究工具。

智源研究院推出了面向大模型、支持异构打算的算力集群“操作系统”FlagOS。
FlagOS已支持了超过50个团队的大模型研发，支持8种芯片，管理超过4600个AI加速卡，稳定运行20个月，SLA超过99.5%。

此外，在AI芯片统一生态构建方面，智源研究院发布面向大模型的开源Triton算子库。
据智源研究院统计，目前其已经覆盖了主流措辞和多模态模型所需127个算子中的48%，估量2024年底实现全覆盖，同时支持6大厂商的多种AI芯片，还支持6种大模型专用算子，覆盖了高频利用的主流Attention类算子。

此外，支持多元AI异构算力的并行演习框架FlagScale实现首次打破，包括业界首次实现不同厂商跨界点DRMA直连和多种并行策略的高效稠浊演习、以及首个在多元异构芯片上同时支持Scale up+Scale out两阶段增长模式的演习框架。

在高性能数据集方面，目前全体大模型社区中缺少高质量的SFT数据集，智源研究院发布首个千万级高质量指令微调数据集InfinityInstruct，这一数据集能让很多开源社区的基座模型达到或靠近GPT-4的水平。

另一个开源数据集是环球最大的开源中英文多行业数据集IndustryCorpus，涉及18个行业总计3.4TB数据，包括中文1TB、英文2.4TB。

FlagEval大模型评估体系也全面升级，上个月，智源研究院公布了榜单和测评结果。
从2023年发布以来，该评估体系已从紧张面向措辞模型扩展到视频、语音、多模态模型，实现多领域全覆盖，

此外，FlagOpen系列开源的模型框架工具，在过去一年环球总下载量已经超过4755万次，累计开源数据集57个，下载量近9万次，开源项目代码下载量超51万次，支撑着开源社区茁壮发展。

三、大模型参数可能遇上人类大脑，AGI时期演进加速

从智源研究院过去一年的研究进展可以看出，其大模型百口桶及全栈开源技能基座新版图正朝着加速AGI时期到来布局。

王仲远提到，以2023年为界，AI的发展浪潮可以分为两大阶段，2023年前是AI模型针对特定产品、任务网络特天命据进行特定运行的过程。
如今，大模型发展进入到通用模型时期，通用人工智能的最大特点便是规模大，具备跨领域稳定性。

当下业界关于Scaling Law的谈论热度飞腾，其基本含义便是随着模型参数、演习数据量和打算量持续增大，模型的性能将会持续提升。
因此，在智源研究院看来，按照大模型这一发展速率，未来其参数可能会遇上或超过人类大脑参数，这也是他们认为AGI会在未来几年到来的主要缘故原由。

详细来看，AGI可能的技能蜕变路径将会从大措辞模型到统一的多模态大模型，然后进入物理天下、微不雅观天下形成天下模型，终极推动AGI时期到来。

王仲远阐明说，过去几年科研关注度大多在大措辞模型的打破，但除文本外还有大量的音视频等数据，其数据量可能比文本数据大百倍乃至千倍。

因此，大量关于多模态大模型的研究涌现，从技能发展来看，这终极会形成领悟不同模态数据的统一多模态大模型。
当多模态大模型能理解、感知、决策天下，就会进入到我们的物理天下与硬件相结合，进入到微不雅观天下便是AI for Science。
末了促进全体天下模型的发展，推动AI向AGI方向发展。

当下，作为成立于2018年11月的海内非营利性科研机构，智源研究院已经成为北京市乃至全国的一张学术名片，走在通往AGI的前列。

早在2020年，智源研究院就成立了百人技能攻关团队，开始进行悟道系列大模型研发，这也拉开了其在海内大模型家当的代表性地位。

从大措辞模型、多模态大模型到如今的系列百口桶，始终坚持原始创新的智源研究院正为海内大模型家当界与学术界搭建互换的平台，通过开源开放的生态与技能体系为AGI的到来注入源源不断的动能。

结语：大模型先锋代表齐聚，共话AGI时期

到今年，智源大会已经举办六届，共计约请了环球30个国家和地区超过1000位环球顶尖专家进行分享互换。

未来两天的议程中，智源大会还将举办20余个论坛、百场报告，有来自环球主流模型技能卖力人、项目卖力人先容最新技能，海内领先大模型、创业公司CEO对大模型家当各种关键问题进行解答。

一贯以来，智源研究院始终坚持推动AI原始创新，以“智能的源头”为目标，致力于成为学术思想、根本理论、顶尖人才、企业创新以及发展政策的源头，从大措辞模型、多模态大模型到具身智能、生物打算大模型，智源研究院已经布局了全栈的技能路线，并向创新的技能路线发起冲锋，作为AGI时期的领路人为企业与学界搭建起技能互换共享的平台。