李一鸣,一位曾任职于英伟达(Nvidia)的视觉与机器人研究员,现任清华大学人工智能学院助理教授,将唐朝运送鲜荔枝的故事视为对当前“世界模型”赛道的隐喻。他认为,正如鲜荔枝的运输需要一套完整的系统,Physical AI(物理AI)的实践也需要数据采集、模型研发和硬件部署的综合方案。李一鸣强调,“世界模型”并非终点,而是一种解决问题的技术手段,其价值在于能否与其他环节协同工作。
自2026年初回国以来,李一鸣观察到AI领域存在着对“世界模型”概念的普遍焦虑(FOMO)。他指出,当前“世界模型”赛道概念模糊,派系众多,并且存在估值泡沫,任何与仿真或物理相关的技术,如视频模型、3D模型或具身大脑(VLA路径),都试图归入此列。然而,李一鸣认为,比定义“世界模型”更重要的是构建一套能让机器人在各种场景下泛化的系统。
近期,李一鸣的团队提出了名为“Physical AI Infra”的解决方案,该方案由数据和物理双重驱动,包含两个核心自研组件:
- 数据管线:旨在将数据采集规模从行业平均的几十万小时提升至数百万甚至上千万小时。
- 物理引擎:实现“Real-to-Sim-Real”(真实到仿真再到真实)的闭环,即利用真实世界数据构建仿真环境,供机器人进行强化学习,最终在真实世界中执行任务。
“世界模型”在此系统中扮演着贯穿各个环节的角色。在预训练阶段,它被用作训练目标;在后训练阶段,它则作为机器人进行强化学习的仿真环境。这套基础设施能够训练精细操作技能,如切割、旋拧、插拔等,并支持跨不同灵巧手和机械臂的部署,同时适用于生产制造、零售、酒店、餐饮和医疗辅助等多种场景。
采用李一鸣团队技术方案的初创公司“厘清智能”于2026年4月成立。据独家消息,该公司在成立仅两个月内就完成了数亿元人民币的种子轮融资。投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等知名基金,以及智元机器人、灵心巧手、世纪金源等多家产业资本。
厘清智能之所以受到资本青睐,在于其稀缺性。一方面,李一鸣本人拥有跨越空间感知、多模态推理、自动驾驶及具身智能的丰富履历,并在具身视觉推理、CVPR和NeurIPS等顶级会议上发表过重要研究成果。厘清智能的50余名成员多为清华学生,平均年龄23岁,为国内稀缺的软硬一体化人才。另一方面,李一鸣选择了“重”的技术路线,坚持从数据采集到模型训练再到物理引擎的全栈自研,尽管前期投入巨大且技术难度高,但他认为这能确保信息流在各环节畅通无阻,实现协同优化。
李一鸣的规划是,在2026年底前发布支持跨B端场景的世界模型,并于2028年实现解决方案的规模化落地,最终为客户提供软硬一体、跨本体、跨场景的解决方案。
李一鸣在接受《智能涌现》采访时,阐述了他对Physical AI和“世界模型”的看法:
Physical AI公司定位
- “我们提供的不是单一的世界模型,而是一整套系统。”李一鸣强调,公司的目标是以解决实际问题为导向,而非技术路线。世界模型的训练是为了解决Physical AI的问题,提升任务成功率。公司致力于将数据、模型、硬件和基础设施整合为一个能在实际场景中运作的系统。
- “新一代Physical AI团队的核心特征是全栈自研。”厘清智能自主研发了从数据采集设备(如触觉手套,将成本降至人民币量级)到数据管线、可微物理引擎(实现Real-to-Sim-Real闭环,支持复杂材质建模)以及世界模型操作系统。这使得公司能够快速泛化到不同场景并实现跨本体能力。
- “新时代的具身公司应是‘World Model as Service’公司,而非本体或模型公司。”未来,随着数据积累,公司将实现快速的跨本体泛化,交付给客户的是一套开箱即用的软硬一体系统,可根据场景和预算匹配最优硬件。
- “Physical AI的人才画像是软硬一体。”他指出,国内AI人才培养体系尚不成熟,软硬一体化人才尤为稀缺,因此公司注重从清华等平台发掘和培养人才。
数据与物理规律的结合
- “具身模型的参数量需要达到甚至超越语言模型量级,才能谈得上‘智能涌现’。”李一鸣认为,语言模型已是压缩的世界规则,而基于自然信号的具身模型需要更多数据和参数。
- “人类数据比真机数据更容易规模化。”他认为,通过真人采集数据比操控机器人更高效,且规模化潜力更大。公司已与工厂、酒店等场景方合作,快速积累数据。
- “只靠数据采集不足以构建完整的Physical AI Infra,必须结合物理规律。”由于现实世界场景的多样性,不可能采集所有数据。物理规律(如牛顿定律)具有通用性,可弥补数据局限。
- “厘清智能通过对齐真实数据和物理世界模型的状态转移,能够用极少量的真机数据(1%)训练策略模型,达到相同成功率。”这种方法能减少真实世界数据需求,让机器人在虚拟环境中高效学习,例如机器人学习切苹果,只需真实切十次,其余练习可在物理世界模型中完成。
对不同AI模型的看法
- “世界模型负责机器与世界的交互,语言模型负责机器与人的交互。”李一鸣认为,基于LLM的VLM和VLA模型与物理世界适配度不高,因为语言是高度离散化的空间,充满偏见且难以完全描述世界。语言模型是人机交互界面,而非世界观测模态,在世界模型训练中应是辅助角色。
- “世界模型的训练需要SFT(监督微调)和RL(强化学习)的结合。”由于物理数据量不足,公司需自建数据标准。不同于LLM,世界模型必须遵循物理规律,因此公司自研了可微物理引擎,确保后训练过程满足物理约束。完整的世界模型训练是一个系统工程,需要联合预训练、后训练以及数据和硬件基础设施。
- “全栈打通感知、推理、决策、动作输出,并面向机器与世界交互任务设计的,才是‘原生世界模型’。”他认为,VLA模型因其离散的语言表征而非真实世界,JEPA(联合嵌入预测架构)只能预测状态而无法输出动作,视频生成模型则因推理过程非原生,难以保证几何和物理一致性,这些都不是“原生世界模型”。
- “训练‘原生世界模型’的关键在于高效的物理世界‘Tokenization’(表征)。“李一鸣指出,将多模态观测(视觉、触觉、力觉)转化为模型可理解的Token序列,决定了模型的理解能力。他表示,其团队的视觉Tokenizer效果已优于Meta的DINOv3。
- “构建Physical AI Infra是训练世界模型的另一挑战。”这不仅包括数据平台,还包括高效建模柔性物体、流体等状态的物理引擎,以支持机器人进行强化学习。真正的Physical AI Infra应能提升数据效率,优化预训练和后训练效果,并支持复杂任务的泛化部署。
Physical AI的规模化落地
- “轮臂(带轮子的机械臂)是适配多数操作场景的硬件形态。”尽管人形机器人潜力巨大,但技术难度高,如负载能力和人体建模等问题。因此,公司目前主要部署轮臂,并将在细分场景中泛化不同类型的机械臂和灵巧手。
- “前期需要积极与场景方合作。”数据的规模化和机器的后训练都离不开真实场景的合作。公司采取“先ToB,后ToC”的模式,优先切入工业、物流、生活消费等领域,这些场景具有替代性和重复性强的特点,客户降本提效需求强烈。
- “最终目标是打造通用的Physical AI Infra。”李一鸣希望将这套系统封装成一个基础平台,类似于iOS之于移动应用,能够支持各类物理操作任务的规模化开发和部署。
- “2028年将是Physical AI规模化落地的里程碑。”他预测,届时数据采集规模和电机密度将实现跃升,为大规模落地创造条件。
世界杯以世界杯下注为核心,带来高效便捷的体验。