kaiyun则需要为每个内核分派一个批处理元素-Kaiyun· (开云)官方网站 登录入口
发布日期:2025-10-24 07:04 点击次数:99

刚刚kaiyun,0 产出估值就已破碎 120 亿好意思元的 Thinking Machines,终于发布首篇经营博客。
独创东说念主、OpenAI 前 CTO Mira Murati 躬行宣发,翁荔等一众公司大佬纷纷转推:

经营主题是" Defeating Nondeterminism in LLM Inference ",克服大谈话模子推理中的不笃定性。
主要经营的内容即是,为什么大模子每次的推理戒指老是难以复现?根源在于批次不变性。

不鸣则已,一鸣即是万字长文,何况,Thinking Machines 还致意了一波"团结见识"——
Mira 和她的共事们以为,科学因共享而愈加超卓。他们将保捏对经营效力的共享,并与经营社区保捏常常、洞开的联系。
而翁荔在转发推文中,还泄漏了 Thinking Machines 的第一代旗舰居品名为Connection Machine。

(CloseAI 膝盖又中了一枪)
打败 LLM 推理中的非笃定性
尽人皆知,LLM 推理中,念念要获取可复现戒指终点艰巨,比如说屡次向 ChatGPT 提议疏导问题,但戒指很有可能不同。
即使将采样温度降至 0,原则上 LLM 会选拔概率最高的 token 输出,但践诺中此时不笃定性仍然存在。
往时多半以为这是因为浮点非结合性和并发延长之间的某种组合导致,即 GPU 在延长浮点数运算时会出现非结合性,比如 ( a+b ) +c 不一定等于 a+ ( b+c ) ,然后在并行操作中则说明延长规矩的不同,产生不同的戒指。
但其实这个说法并不完好,淌若在 GPU 上对归拢数据重迭运行疏导的矩阵乘法,却不错长久取得笃定的归拢戒指。

于是 Thinking Machine 深化经营后发现,其实罪魁首恶应该是批次不变性。
领先浮点数计较存在数值各异的原因如实是浮点数非结合性。
因为浮点数自己在编码中,是通过 "余数 × 10^ 指数" 的局势示意,精度有限,是以当两个不同指数的浮点数相加时,就必须诊治指数并断念部分精度,从而导致一部分信息丢失,是以后续的相加规矩不同才会产生不同的戒指,使其不得志结合律。
但浮点数为什么会以不同规矩相加呢?
究其根源,是因为当今的 LLM 推理阑珊批次不变性,单个请求的输出受到归拢批次中请求数目的影响。
主要问题是:
践诺部署中,奇迹器会跟着负载动态诊治大模子推理批次的大小,而现存的内核会因批次的变化而调动矩阵乘法、RMSNorm 等关节操作的计较规矩或政策;
浮点运算的非结合性使不同计较规矩产生眇小偏差,这种偏差在 Transformer 多层迭代中被放大,最终导致疏导输入正在不同批次下输出不同,阻拦了推理的一致性。
要惩处这一问题,那就需要让 RMSNorm、矩阵乘法、注眼力机制分辩具备批次不变性。

在RMSNorm中,重心即是要固定好每个批次元素的归约规矩而不受批次大小影响,则需要为每个内核分派一个批处理元素,让每次归约操作都能在单个中枢中完成。
当批大小增大时,中枢就会次第处理多个批次元素,而保捏归约政策不变;当批大小较小时,则不错自动忽略一些并行性优化纪律,天然效力可能会随之镌汰,但能保险批次不变性。
而矩阵乘法在践诺中也与批大小关联,是以不错通过将输出张量拆分为 2D 块,然后为每个块分派不同的中枢。

其中每个中枢机较都属于该块的点积,再在该中枢中延长归约操作。
但要真贵在批维度(M 和 N)过小时,可能会被动沿着归约维度(K)进行分割,也即是Split-K 矩阵乘法,这么作念雷同会影响归约规矩,另外不同的张量中枢提醒也会导致戒指变化。
是以更浮浅的方法是为系数输入方法编译长入的内核成就,幸免因批大小变化切换并行政策或张量中枢提醒。
尽管相较于CuBLAS,这么作念可能会损误期 20% 的性能,关联词可采取的。

而注眼力机制则愈加稀奇,领先它需要更多的归约维度,需要沿着特征维度和序列维度双重归约,一些像分块预填充(chunked prefill)、前缀缓存(prefix caching)等推理优化也会调动序列处理方法。
是以在注眼力内核延长前,领先要更新 KV 缓存和页表,确保无论序列是否拆分处理(预填充或解码阶段),KV 的存储布局长久一致,从而保险归约规矩不变。

沿着 KV 维度拆分时,也不同于惯例政策按照所需并行度均匀拆分 KV 维度,拆分数目随批大小变化,而是固定每个拆分块的大小(如固定为 256),拆分数目随 KV 长度自符合,确保归约规矩不依赖批大小。
经营东说念主员也对此进行了三种不同的实验考据,分辩是推理笃定性考据、性能考据和真确凿线政策强化学习行使考据。
领先使用Qwen/Qwen3-235B-A22B-Instruct-2507 模子,在疏导条目下,判断 1000 个长度为 1000 token 的戒指各异情况。
戒指发现未使用批次不变性内核时,共生成 80 个不同戒指,前 102 个 token 皆备一致,但到第 103 个 token 则开动分化。
淌若使用批次不变性内核,则1000 个戒指皆备疏导,达成了笃定性推理。

而在性能上,长入使用单 GPU 部署Qwen-3-8B模子的 API 奇迹器,并处理疏导问题。
戒指发现,笃定性推理虽存在性能赔本,但性能在可采取范围之内,仍然具备践诺行使价值。
由于检会与推理的数值各异会导致在线政策 RL 变为离线政策 RL,一般需要引入伏击性加权等离线革命项才能相识检会。

是以通过比对革命前后的数据不错发现,阑珊伏击性加权革命时,模子奖励将会在检会半途崩溃,KL 散度也会大幅飙升,而革命后,检会变得相识,KL 散度不错防守在 0.001 阁下,偶有波动情况出现。
笃定性推理则全程保捏相识,KL 散度长久为 0,达成了真是的在线政策 RL,无需离线革命。
大佬云集的 Thinking Machine
再来说说 Thinking Machine 这支AI 梦之队。
天然尚未有具体模子居品产出,关联词东说念主才和老本都相配豪华,小扎只醒目看着,挖也挖不到。
掌舵东说念主 Mira Murati 在 2016 年加入 OpenAI,通盘普及至 CTO,主导打造了 GPT-3、GPT-4 等一系列关节技巧设立。

搭伙独创东说念主及首席科学家 John Schulman 是 PPO 算法的设立者,在强化学习领域举足轻重,还主导了 ChatGPT 的研发责任。

Thinking Machine 的 CTO 则是前 OpenAI 副总裁 Barret Zoph,主导了 ChatGPT 的后检会。

联创 Andrew Tulloch 还是在 Meta 待了 11 年,自后插足 OpenAI,参与了 OpenAI GPT-4o 到 o 系列,和 Mira Murati 创办 Thinking Machine 后,濒临小扎 6 年 15 亿好意思元的天价薪酬,也涓滴不动摇

此外,公司还聘用了 GPT 的开山一作 Alec Radford、OpenAI 前首席经营官 Bob McGrew 担任技巧参谋人。

△左 Alec Radford 右 Bob McGrew
更有北大学友、前 OpenAI 安全团队认真东说念主翁荔加盟,不错说,这支团队约三分之二成员都来自 OpenAI。

前段时间,还有蛛丝马迹标明清华姚班学友陈丹琦也加入了这支团队。

融资方面,本年 6 月,Thinking Machines 完成了 20 亿好意思元的种子轮投资,由 a16z 领投,英伟达、Accel、ServiceNow、CISCO、AMD、Jane Street 等各领域闻明机构纷纷跟投。
以有史以来最大范围的种子轮融资刷新了 AI 圈的融资记载。(天然神话中该公司的融资方针唯有 10 亿好意思元)
这轮融资完成后,这家没模子没居品的初创公司估值也达到了 120 亿好意思元。
此次新经营发布后,翁荔还泄漏了第一个 Thinking Machines 居品名为Connection Machine,团结见识。
团结见识缘故于上世纪 60 年代,McCulloch 和 Pitts 提议了东说念主工神经元模子,如今的深度学习不错被视为团结见识的径直不时,当下东说念主工智能中的"神经网络"即是团结见识的达成局势。

这下网友可坐不住了:先把公司 Logo 发出来。

参考蚁合:
[ 1 ] https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
一键三连「点赞」「转发」「贯注心」
宽待在驳斥区留住你的念念法!
— 完 —
专属 AI 居品从业者的实名社群,只聊 AI 居品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」苦求入群~
进群后,你将径直取得:
� � 最新最专科的 AI 居品信息及分析 � �
� � 不依期披发的热点居品内测码 � �
� � 里面专属内容与专科经营 � �
� � 点亮星标 � �
科技前沿阐扬逐日见kaiyun