CCF 2025 会议笔记

主论坛

主论坛开幕主要介绍了开源社区的背景现状以及院士自己的工作，我选个比较感兴趣的记录一下。

郑纬民院士介绍的它们团队的成果 Mooncake 和 KTransformer；

1. Mooncake

这个工作的核心是解决大规模语言模型（LLM）在线服务（尤其是长上下文场景）中的效率、成本和延迟问题，特别是围绕 KV Cache 的管理优化展开。简言之：用更多的存储资源（CPU内存、SSD、网络带宽）来换取更少的昂贵计算资源（GPU）消耗，从而显著提升服务吞吐量和用户体验。

郑院士向我们介绍 kimi AI 服务器其实更新迭代过 5 次，但每次都会崩溃，主要原因是大量用户在短时间内问了很复杂的问题，或者上传了很长的文档来分析，导致的显存紧缺。LLM 在回答你的问题之前，需要先“理解”你输入的所有内容（Prefill 阶段），然后才能开始一个字一个字地生成回答（Decoding 阶段）。这个过程中产生了一个关键的东西：KV Cache (Key-Value Cache)。

[!NOTE]

KV Cache 是 LLM（尤其是 Transformer 架构）在处理输入（Prompt）时的计算中间结果（Key / Value vector）。类似 “记忆快照”，KV Cache 存放模型对当前上下文的理解的状态。在 Decode 阶段生成后续 Token 时，复用这个 KV Cache 可以避免重新计算之前的整个输入，极大地节省计算量。

以前 Kimi AI 使用传统方法的痛点：

容量小，命中率低： 传统做法是把 KV Cache 存在 GPU 自己昂贵的高速显存（HBM）或者最多是本机 CPU 内存（DRAM）里。显存容量非常有限（比如 A800 80GB），DRAM 容量大些但也有限（比如单机 1 TB）。对于动辄数万甚至数十万 Token 的长上下文输入，单节点能缓存的 KV Cache 非常有限，导致缓存命中率低，很多请求不得不进行完整的、耗时的预填充计算。
预填充和解码相互干扰： 预填充阶段（计算密集型）和解码阶段（内存访问密集型）通常部署在同一个 GPU 节点上。当处理长上下文请求进行大规模预填充时，会严重抢占解码资源，导致生成 Token 的速度变慢（TBT 增加），用户体验变差。
资源利用率不均： GPU 集群中最贵的 GPU 资源只能被绑定在特定的任务上，而集群中相对廉价的资源（如 CPU、DRAM、SSD、网络带宽）不能被充分利用。
难以满足在线的延迟要求（SLO）：
- 首 Token 时间（TTFT）： 用户发出请求到收到第一个回复 Token 的时间。一般瓶颈在 Long Context Prefill 的计算过程。
- Token 间时间（TBT）： 两个连续回复 Token 之间的时间间隔。瓶颈是解码阶段的干扰和 KV Cache Load。
调度不智能： 简单的负载均衡调度（如随机或看队列长度）没有考虑 KV Cache 重用，可能错过节省计算的机会 / 导致某些节点过载。

Deepseek 总结：

在长上下文、高并发的 LLM 服务场景下，传统架构受限于本地化、小容量的 KV Cache 存储方式以及预填充-解码耦合的设计，导致GPU 计算资源浪费严重（重复计算多）、整体服务吞吐量受限、难以同时满足 TTFT 和 TBT 的严苛延迟要求（SLO），服务成本高昂。

而 Mooncake 这个工作提出并实现了一套以 KV Cache 为中心的解耦架构（KVCache-centric Disaggregated Architecture）。主要是通过将集群节点明确分为独立的 Prefill Pool 和 Decode Pool，实现预填充与解码的物理解耦，从根本上避免长预填充任务对解码任务的干扰。

重要的创新点，也是这篇工作的核心设计之一：构建全局共享的分布式 KV Cache 池。这一机制不再将 KV Cache 局限于单个节点的 HBM 或 DRAM，而是整合整个 GPU 集群中所有节点（包括预填充节点和解码节点）的 CPU、DRAM、SSD 及高速 RDMA 网络资源，形成一个大容量的共享分布式存储池（Mooncake Store），其容量可轻松达到 PB 级别。

为实现 KV Cache 的高效调度，这个工作引入了全局调度器 Conductor。它不再仅关注节点负载，而是深度感知 KV Cache 的位置、热度和匹配度，以此做出更优决策：尽可能将新请求路由到拥有其提示词最长匹配前缀 KV Cache 的预填充节点，最大化缓存重用以减少计算量；同时在 “缓存重用收益” 与 “调度延迟” 间 trade-off，兼顾节点负载和网络状况；并动态管理缓存副本（将热点缓存复制到多个节点）和淘汰策略（LRU）。

Mooncake 设计了一个高效的 KV Cache 传输引擎来支撑全局缓存共享，其核心目标是充分发挥高速 RDMA 网络（如 8x400Gbps）的带宽，使传输 KV Cache 的开销小于重新计算的开销（满足论文中的不等式）。关键技术包括：拓扑感知路径选择，即理解服务器内部 NUMA、PCIe 拓扑，选择最优本地和远端网卡传输数据，避免内部总线瓶颈；细粒度切片与多路径并发，将大块 KV Cache 切分为小片（如 16KB），通过不同路径（不同网卡）并发传输，充分利用带宽；端点池化与故障处理，高效管理 RDMA 连接（Queue Pairs），采用类似 SIEVE 的算法管理连接池，并能智能处理网络故障（如网卡暂时不可用），自动切换路径。

针对超长上下文（如 > 128k tokens）的处理，Mooncake 在 prefill pool 中引入分块流水线并行（Chunked Pipeline Parallelism, CPP）。具体而言，将输入序列切分成块（Chunk），由多个预填充节点组成流水线组，并行处理同一请求的不同数据块。相比跨节点的序列并行（SP），CPP 仅在流水线阶段边界通信，通信量显著减少，更易与计算重叠，对网络带宽压力小，且天然适应不同长度的请求，无需频繁动态调整节点分组（避免了弹性并行的复杂性）。

2. KTransformer

这个工作是在工程上的优化（对 transformers 框架），目标是增强 Hugging Face Transformers 的使用体验，尤其聚焦于解决长上下文处理、资源受限环境下的部署效率，以及异构计算场景中的性能瓶颈等问题。

其架构的核心是一个基于模板的注入框架，设计上以可扩展性为核心。用户只需通过一行代码，就能将优化模块注入原有流程，替换原始的 PyTorch 模块为经过优化的变体。感觉有几个创新点，一个是注入框架的灵活性，让多种优化策略的组合变得简单，无需大幅修改原有代码；其次是 KVCache 管理的精细化，通过块划分和动态选择机制，在保证推理质量的前提下，将长上下文处理速度提升数倍甚至十数倍（如在 1M tokens 的 “针在干草堆” 测试中，速度比 llama.cpp 快近 10 倍）；此外，它特别关注资源受限场景，支持 GPU-CPU-disk 三级前缀缓存复用，降低 VRAM 需求（如将 DeepseekV2 的 VRAM 占用从 21G 降至 11G），同时兼容 Intel Arc、AMD ROCm 等多种硬件，扩展了适用范围。

鄂维南院士指出的 “AI 正经历从 model-centric 到 data-centric” 的转变比较有意思。笔者从发言内容来看他以前应该就是从事大数据处理相关的工作。

数据基础设施建设是下一个关键点，“数据产线” 将称为人工智能领域最主要的业态。

主要是数据采集、生成、AI-ready 数据的生产，等等。

宇树科技创始人王兴兴主要介绍了几款吸引人眼球的机器人样式（真的很震撼！），笔者认为如果能大规模应用到实际的场景（例如家居/搜救/探索等情形），而不只是表演的领域，就更好了。

此外他同时表达了对 VLA 能否真正实现广泛的泛化性，以及能否生成任意的机器人动作表达了担忧。笔者本人其实也对 VLA 持观望态度，RL/VLA model 能否充分展现 scaling law 也是未知数。不过王兴兴表示，在未来的 10 年左右的时间，有能力生成任意动作序列的机器人就会出现，届时机器人才有真正参与劳动的可能。

高峰论坛：开源发展未来和现状

陈左宁院士指出，国内开源实践有时存在功利性过强的问题，尚未真正形成协同创新的文化与心态，这与社会文化背景有一定关联。
梅宏院士强调，当前工业界协同精神不足制约了开源发展。开源源于自由软件的理想主义奉献，但仅靠理想主义难以支撑其壮大，市场机制的介入不可或缺。梅院士更犀利地指出：企业追求盈利本属正常，但不应动辄标榜公益，更不可借此误导公众或政策制定。
吕建院士提醒企业需脚踏实地，少谈空泛的“技术引领”或“世界一流”口号。他认为，企业应首先与国家发展同频共振，国家强盛才是企业实现引领的坚实基础。
王怀民院士分析了国内开源托管平台现状，认为虽数量众多但尚缺全球影响力。他相信未来必将诞生具有世界级影响力的平台，但仍需持续积累和努力。

分论坛：具身智能与机器人

笔者主要参与的是具身智能与机器人论坛，下面是一些笔记。

马道林：面向机器人精细操作的多模态触觉传感与感知

通用机器人：行动能力 + 操作能力，其中精细操作能力是关键（家庭物理劳作）。

人手为什么能够感受和完成精细操作？

“动觉”、“滑觉”、“力觉” -> 大脑感受：触觉的闭环控制。

高集成度触觉传感器、多维度感知能力、触觉闭环控制方法。

触觉传感器硬件设计：把脉、抓麻将的示例；
触觉感知算法；

几个前沿的探索：

多指协同感知（不靠视觉，只靠触觉）：运动跟踪、间接识别；
外部接触感知（通过工具与目标物接触，因为有些时候没法在目标物上部署传感器）：基于运动学约束的间接接触识别，让机器手识别物体和环境之间的间接接触界面；
多传感器间自约束：接触界面的排他性（同时刻无法让多个传感器同时放在同一个位置）MTSC 约束方程解决。
触觉数据生成：多模态触觉仿真器（减小 sim2real gap）。具身智能领域很难获取数据。

高精度触觉感知能够赋能精细操作！

观众提问：触觉传感和 VLA （别的信息层面）的结合？VTLA 是一个可能的方向。

郝孝帅：大模型驱动的具身智能 - 规划、操纵、导航的探索

郝老师主要介绍了他们团队的 3 个工作。

研究趋势

1. 具身智能的大脑大模型：RobotBrain

建议阅读工作：RobotBrain（CVPR-2025），以及项目；

具身智能 Agent 的两个趋势：

端到端 VLA 模型：OpenVLA、Pi0、RDT、RT 系列、GR 系列；
大小脑模型协同框架：RoboOS、Helix、Gemini Robotics、Rekep 等；

本研究重点：开发具备跨本体、可泛化的具身智能大脑大模型；

研究为什么选择大小脑模型协同框架的技术路线？

端到端模型虽决策高效，但泛化性、扩展性受限，受制于环境交互与硬件适配，难以适应多样化场景（归根结底还是端到端可解释性太差了，出了新的问题还得重新 train）。而模块化的大小脑协同架构在实验上更具强泛化、可解释性的优势。

模块化：大小脑协同框架赋予具身智能体模块化优势，可扩展架构、高效开发、强适应性；
泛化性：基于 VLM 的大脑具备丰富多模态认知能力，且不受小脑模型影响；
可解释性：决策过程透明，提高人机协同效率；

具身智能大脑模型为什么重要？

通过多模态感知、抽象指令理解能力，输出原子任务规划（planning）、可操作区域（affordance，感觉是这个工作的比较大的创新点）、操作轨迹（trajectory），协同小脑模型实现 “感知-认知-决策-控制” 的全链路闭环。

2. RoboOS：跨本体具身大小脑协同框架

建议阅读工作：RoboOS，以及项目；

类似快慢系统：

云端大脑模型 RobotBrain（慢系统）进行全局感知与决策；

时空感知：融合 3D 场景空间关系重建 + 历史状态追踪感知，构建动态时空认知；
规划指导：群体智能调度（复制任务协同 planning），细粒度动作指导生成；
反馈纠错（action-level -> tool-level -> task-level，三级动态重规划）；

小脑模型做具体任务：

Affordance（本工作的创新点之一）：在哪里抓取 + 怎样抓取？抓取问题：几何驱动 -> 语义驱动；

机器人需要知道 “抓起一个水壶” 意味着需要到 “有把手形状的区域” 去，以 “夹爪环绕把手” 的方式（而不是其他握法）来抓取。

这个 affordance 就是在告诉模型这个信息；
AffordGrasp：多模态大模型推理 Affordance 用于任务导向的抓取；
Embodied Spatial Affordance（ESA，融入空间推理）：一个将物体 affordance、空闲空间 affordance、以及空间关系推理相结合的大规模数据集，为具身导航/操作任务提供了空间 affordance 的学习能力；
- 物体 affordance：指导机器人进行 object navigation（解释参见下文）和抓取；
- 空闲空间 affordance：指导机器人导航到指定空闲区域、指示操作中物体放置位置；

3. 具身视觉导航

目前背景/研究方向两类：Object Navigation、Vision Language Navigation（VLN）；

MapNav：纯视觉端到端 VLN 方案。

提出了 Annotated Semantic Map（ASM）作为新型历史表征，取代历史帧，从而减少存储机器人观测和处理历史帧所需的存储和计算开销。能让我们充分借助 VLM 提升 VLN 性能；

如何证明 ASM 方案让 VLM 增进了对地图的语义理解？

定性：实验证明 ASM 让 VLM 对智能体先前的导航记忆拥有了结构化的认识（例如见过的物体、障碍物位置、过去的轨迹和自身的位置等）；
定量分析：将 VLM 对图片的注意力可视化，ASM 能够成功地将 VLM 的注意力吸引到 labels 上；

Nav3A：理解人类高级指令、长程导航；

Nav3A 的方法概述：

全局策略：使用 ReasonVLM 推理来解析高级指令（“晾衣服” -> 衣架），并基于全局 3D 场景理解导航到最可能的区域（阳台）；
局部策略：使用 PointVLM 在不同的航点进行探索，并使用基于空间感知可供性理解的 NaviAfford 模型进行精确物体定位，最终找到目标物体（衣架）；

穆尧：生成式大模型驱动的具身智能大规模高质量数据合成开源平台

建议阅读工作：RoboTwin 2.0，以及项目；

生成模拟数据的两个关键问题：

Can the visual gap be bridged by generative models to enable zero-shot policy transfer to the real world?
Can physical simulation overcome challenging processes, such as screw thread simulation?