主论坛

主论坛开幕主要介绍了开源社区的背景现状以及院士自己的工作,我选个比较感兴趣的记录一下。

郑纬民院士介绍的它们团队的成果 MooncakeKTransformer

1. Mooncake

这个工作的核心是解决大规模语言模型(LLM)在线服务(尤其是长上下文场景)中的效率、成本和延迟问题,特别是围绕 KV Cache 的管理优化展开。简言之:用更多的存储资源(CPU内存、SSD、网络带宽)来换取更少的昂贵计算资源(GPU)消耗,从而显著提升服务吞吐量和用户体验

郑院士向我们介绍 kimi AI 服务器其实更新迭代过 5 次,但每次都会崩溃,主要原因是大量用户在短时间内问了很复杂的问题,或者上传了很长的文档来分析,导致的显存紧缺。LLM 在回答你的问题之前,需要先“理解”你输入的所有内容(Prefill 阶段),然后才能开始一个字一个字地生成回答(Decoding 阶段)。这个过程中产生了一个关键的东西:KV Cache (Key-Value Cache)

[!NOTE]

KV Cache 是 LLM(尤其是 Transformer 架构)在处理输入(Prompt)时的计算中间结果(Key / Value vector)。类似 “记忆快照”,KV Cache 存放模型对当前上下文的理解的状态。在 Decode 阶段生成后续 Token 时,复用这个 KV Cache 可以避免重新计算之前的整个输入,极大地节省计算量

以前 Kimi AI 使用传统方法的痛点:

  1. 容量小,命中率低: 传统做法是把 KV Cache 存在 GPU 自己昂贵的高速显存(HBM)或者最多是本机 CPU 内存(DRAM)里。显存容量非常有限(比如 A800 80GB),DRAM 容量大些但也有限(比如单机 1 TB)。对于动辄数万甚至数十万 Token 的长上下文输入,单节点能缓存的 KV Cache 非常有限,导致缓存命中率低,很多请求不得不进行完整的、耗时的预填充计算。
  2. 预填充和解码相互干扰: 预填充阶段(计算密集型)和解码阶段(内存访问密集型)通常部署在同一个 GPU 节点上。当处理长上下文请求进行大规模预填充时,会严重抢占解码资源,导致生成 Token 的速度变慢(TBT 增加),用户体验变差。
  3. 资源利用率不均: GPU 集群中最贵的 GPU 资源只能被绑定在特定的任务上,而集群中相对廉价的资源(如 CPU、DRAM、SSD、网络带宽)不能被充分利用。
  4. 难以满足在线的延迟要求(SLO):
    • 首 Token 时间(TTFT): 用户发出请求到收到第一个回复 Token 的时间。一般瓶颈在 Long Context Prefill 的计算过程。
    • Token 间时间(TBT): 两个连续回复 Token 之间的时间间隔。瓶颈是 解码阶段的干扰和 KV Cache Load。
  5. 调度不智能: 简单的负载均衡调度(如随机或看队列长度)没有考虑 KV Cache 重用,可能错过节省计算的机会 / 导致某些节点过载。

Deepseek 总结:

在长上下文、高并发的 LLM 服务场景下,传统架构受限于本地化、小容量的 KV Cache 存储方式以及预填充-解码耦合的设计,导致GPU 计算资源浪费严重(重复计算多)、整体服务吞吐量受限、难以同时满足 TTFT 和 TBT 的严苛延迟要求(SLO),服务成本高昂。

而 Mooncake 这个工作提出并实现了一套以 KV Cache 为中心的解耦架构(KVCache-centric Disaggregated Architecture)。主要是通过将集群节点明确分为独立的 Prefill Pool 和 Decode Pool,实现预填充与解码的物理解耦,从根本上避免长预填充任务对解码任务的干扰。

重要的创新点,也是这篇工作的核心设计之一:构建全局共享的分布式 KV Cache 池。这一机制不再将 KV Cache 局限于单个节点的 HBM 或 DRAM,而是整合整个 GPU 集群中所有节点(包括预填充节点和解码节点)的 CPU、DRAM、SSD 及高速 RDMA 网络资源,形成一个大容量的共享分布式存储池(Mooncake Store),其容量可轻松达到 PB 级别。

为实现 KV Cache 的高效调度,这个工作引入了全局调度器 Conductor。它不再仅关注节点负载,而是深度感知 KV Cache 的位置、热度和匹配度,以此做出更优决策:尽可能将新请求路由到拥有其提示词最长匹配前缀 KV Cache 的预填充节点,最大化缓存重用以减少计算量;同时在 “缓存重用收益” 与 “调度延迟” 间 trade-off,兼顾节点负载和网络状况;并动态管理缓存副本(将热点缓存复制到多个节点)和淘汰策略(LRU)。

Mooncake 设计了一个高效的 KV Cache 传输引擎来支撑全局缓存共享,其核心目标是充分发挥高速 RDMA 网络(如 8x400Gbps)的带宽,使传输 KV Cache 的开销小于重新计算的开销(满足论文中的不等式)。关键技术包括:拓扑感知路径选择,即理解服务器内部 NUMA、PCIe 拓扑,选择最优本地和远端网卡传输数据,避免内部总线瓶颈;细粒度切片与多路径并发,将大块 KV Cache 切分为小片(如 16KB),通过不同路径(不同网卡)并发传输,充分利用带宽;端点池化与故障处理,高效管理 RDMA 连接(Queue Pairs),采用类似 SIEVE 的算法管理连接池,并能智能处理网络故障(如网卡暂时不可用),自动切换路径。

针对超长上下文(如 > 128k tokens)的处理,Mooncake 在 prefill pool 中引入分块流水线并行(Chunked Pipeline Parallelism, CPP)。具体而言,将输入序列切分成块(Chunk),由多个预填充节点组成流水线组,并行处理同一请求的不同数据块。相比跨节点的序列并行(SP),CPP 仅在流水线阶段边界通信,通信量显著减少,更易与计算重叠,对网络带宽压力小,且天然适应不同长度的请求,无需频繁动态调整节点分组(避免了弹性并行的复杂性)。

2. KTransformer

这个工作是在工程上的优化(对 transformers 框架),目标是增强 Hugging Face Transformers 的使用体验,尤其聚焦于解决长上下文处理、资源受限环境下的部署效率,以及异构计算场景中的性能瓶颈等问题。

其架构的核心是一个基于模板的注入框架,设计上以可扩展性为核心。用户只需通过一行代码,就能将优化模块注入原有流程,替换原始的 PyTorch 模块为经过优化的变体。感觉有几个创新点,一个是注入框架的灵活性,让多种优化策略的组合变得简单,无需大幅修改原有代码;其次是 KVCache 管理的精细化,通过块划分和动态选择机制,在保证推理质量的前提下,将长上下文处理速度提升数倍甚至十数倍(如在 1M tokens 的 “针在干草堆” 测试中,速度比 llama.cpp 快近 10 倍);此外,它特别关注资源受限场景,支持 GPU-CPU-disk 三级前缀缓存复用,降低 VRAM 需求(如将 DeepseekV2 的 VRAM 占用从 21G 降至 11G),同时兼容 Intel Arc、AMD ROCm 等多种硬件,扩展了适用范围。


鄂维南院士指出的 “AI 正经历从 model-centric 到 data-centric” 的转变比较有意思。笔者从发言内容来看他以前应该就是从事大数据处理相关的工作。

数据基础设施建设是下一个关键点,“数据产线” 将称为人工智能领域最主要的业态。

主要是数据采集、生成、AI-ready 数据的生产,等等。


宇树科技创始人王兴兴主要介绍了几款吸引人眼球的机器人样式(真的很震撼!),笔者认为如果能大规模应用到实际的场景(例如家居/搜救/探索等情形),而不只是表演的领域,就更好了。

此外他同时表达了对 VLA 能否真正实现广泛的泛化性,以及能否生成任意的机器人动作表达了担忧。笔者本人其实也对 VLA 持观望态度,RL/VLA model 能否充分展现 scaling law 也是未知数。不过王兴兴表示,在未来的 10 年左右的时间,有能力生成任意动作序列的机器人就会出现,届时机器人才有真正参与劳动的可能。

高峰论坛:开源发展未来和现状

  1. 陈左宁院士指出,国内开源实践有时存在功利性过强的问题,尚未真正形成协同创新的文化与心态,这与社会文化背景有一定关联。
  2. 梅宏院士强调,当前工业界协同精神不足制约了开源发展。开源源于自由软件的理想主义奉献,但仅靠理想主义难以支撑其壮大,市场机制的介入不可或缺。梅院士更犀利地指出:企业追求盈利本属正常,但不应动辄标榜公益,更不可借此误导公众或政策制定
  3. 吕建院士提醒企业需脚踏实地,少谈空泛的“技术引领”或“世界一流”口号。他认为,企业应首先与国家发展同频共振,国家强盛才是企业实现引领的坚实基础。
  4. 王怀民院士分析了国内开源托管平台现状,认为虽数量众多但尚缺全球影响力。他相信未来必将诞生具有世界级影响力的平台,但仍需持续积累和努力

分论坛:具身智能与机器人

笔者主要参与的是具身智能与机器人论坛,下面是一些笔记。

马道林:面向机器人精细操作的多模态触觉传感与感知

通用机器人:行动能力 + 操作能力,其中精细操作能力是关键(家庭物理劳作)。

人手为什么能够感受和完成精细操作?

“动觉”、“滑觉”、“力觉” -> 大脑感受:触觉的闭环控制。

高集成度触觉传感器、多维度感知能力、触觉闭环控制方法。

  • 触觉传感器硬件设计:把脉、抓麻将的示例;
  • 触觉感知算法;

几个前沿的探索:

  • 多指协同感知(不靠视觉,只靠触觉):运动跟踪、间接识别
  • 外部接触感知(通过工具与目标物接触,因为有些时候没法在目标物上部署传感器):基于运动学约束的间接接触识别,让机器手识别物体和环境之间的间接接触界面;
  • 多传感器间自约束:接触界面的排他性(同时刻无法让多个传感器同时放在同一个位置)MTSC 约束方程解决。
  • 触觉数据生成:多模态触觉仿真器(减小 sim2real gap)。具身智能领域很难获取数据。

高精度触觉感知能够赋能精细操作!

观众提问:触觉传感和 VLA (别的信息层面)的结合?VTLA 是一个可能的方向。

郝孝帅:大模型驱动的具身智能 - 规划、操纵、导航的探索

郝老师主要介绍了他们团队的 3 个工作。

研究趋势

1. 具身智能的大脑大模型:RobotBrain

建议阅读工作:RobotBrain(CVPR-2025),以及 项目

具身智能 Agent 的两个趋势

  • 端到端 VLA 模型:OpenVLA、Pi0、RDT、RT 系列、GR 系列;
  • 大小脑模型协同框架:RoboOS、Helix、Gemini Robotics、Rekep 等;

本研究重点:开发具备跨本体、可泛化的具身智能大脑大模型;


研究为什么选择大小脑模型协同框架的技术路线?

端到端模型虽决策高效,但泛化性、扩展性受限,受制于环境交互与硬件适配,难以适应多样化场景(归根结底还是端到端可解释性太差了,出了新的问题还得重新 train)。而模块化的大小脑协同架构在实验上更具强泛化、可解释性的优势。

  1. 模块化:大小脑协同框架赋予具身智能体模块化优势,可扩展架构、高效开发、强适应性;
  2. 泛化性:基于 VLM 的大脑具备丰富多模态认知能力,且不受小脑模型影响;
  3. 可解释性:决策过程透明,提高人机协同效率;

具身智能大脑模型为什么重要?

通过多模态感知、抽象指令理解能力,输出原子任务规划(planning)、可操作区域(affordance,感觉是这个工作的比较大的创新点)、操作轨迹(trajectory),协同小脑模型实现 “感知-认知-决策-控制” 的全链路闭环。

2. RoboOS:跨本体具身大小脑协同框架

建议阅读工作:RoboOS,以及 项目

类似快慢系统:

云端大脑模型 RobotBrain(慢系统)进行全局感知与决策;

  • 时空感知:融合 3D 场景空间关系重建 + 历史状态追踪感知,构建动态时空认知;
  • 规划指导:群体智能调度(复制任务协同 planning),细粒度动作指导生成;
  • 反馈纠错(action-level -> tool-level -> task-level,三级动态重规划);

小脑模型做具体任务:

  • Affordance(本工作的创新点之一):在哪里抓取 + 怎样抓取?抓取问题:几何驱动 -> 语义驱动;

    机器人需要知道 “抓起一个水壶” 意味着需要到 “有把手形状的区域” 去,以 “夹爪环绕把手” 的方式(而不是其他握法)来抓取。

    这个 affordance 就是在告诉模型这个信息;

  • AffordGrasp:多模态大模型推理 Affordance 用于任务导向的抓取;

  • Embodied Spatial Affordance(ESA,融入空间推理):一个将物体 affordance、空闲空间 affordance、以及空间关系推理相结合的大规模数据集,为具身导航/操作任务提供了空间 affordance 的学习能力;

    • 物体 affordance:指导机器人进行 object navigation(解释参见下文)和抓取;
    • 空闲空间 affordance:指导机器人导航到指定空闲区域、指示操作中物体放置位置;

3. 具身视觉导航

目前背景/研究方向两类:Object Navigation、Vision Language Navigation(VLN);

MapNav:纯视觉端到端 VLN 方案。

提出了 Annotated Semantic Map(ASM)作为新型历史表征,取代历史帧,从而减少存储机器人观测和处理历史帧所需的存储和计算开销。能让我们充分借助 VLM 提升 VLN 性能;

如何证明 ASM 方案让 VLM 增进了对地图的语义理解?

  • 定性:实验证明 ASM 让 VLM 对智能体先前的导航记忆拥有了结构化的认识(例如见过的物体、障碍物位置、过去的轨迹和自身的位置等);
  • 定量分析:将 VLM 对图片的注意力可视化,ASM 能够成功地将 VLM 的注意力吸引到 labels 上;

Nav3A:理解人类高级指令、长程导航;

Nav3A 的方法概述:

  • 全局策略:使用 ReasonVLM 推理来解析高级指令(“晾衣服” -> 衣架),并基于全局 3D 场景理解导航到最可能的区域(阳台);
  • 局部策略:使用 PointVLM 在不同的航点进行探索,并使用基于空间感知可供性理解的 NaviAfford 模型进行精确物体定位,最终找到目标物体(衣架);

穆尧:生成式大模型驱动的具身智能大规模高质量数据合成开源平台

建议阅读工作:RoboTwin 2.0,以及 项目

生成模拟数据的两个关键问题:

  • Can the visual gap be bridged by generative models to enable zero-shot policy transfer to the real world?
  • Can physical simulation overcome challenging processes, such as screw thread simulation?

边旭:具身智能机器人在工业应用中的场景探索

笔者认为这个汇报是最切应用实际、最接地气的,也很符合我对 “目前具身智能能否真的用到实际生活中” 的想象。主要就是这个 PPT 的内容: