Skip to content

世家 · 月之暗面(Moonshot AI / Kimi)

一位 Transformer-XL 与 XLNet 的主要作者,从清华到 CMU 再回到北京中关村,把"长上下文"做成中国大模型最锋利的一面旗——Kimi 200 万字的窗口一度定义了 2024 年国产 AI 的话题中心。

一、杨植麟:辛顿学脉的再传弟子

要讲月之暗面,必须先讲一个人。杨植麟(Yang Zhilin),1992 年生于广东汕头,清华大学计算机系本科,卡内基梅隆大学(CMU)博士,师从 Ruslan Salakhutdinov——后者是 Geoffrey Hinton 在多伦多大学时期的博士生,也是深度学习最早一批弟子之一。算上这条学脉,杨植麟可以算是辛顿的"徒孙"。

杨植麟的学术履历极为耀眼。读博期间他作为共同一作发表了两篇 NLP 领域里程碑级的论文:

  • Transformer-XL(ACL 2019,Dai, Yang et al.)——首次系统解决 Transformer 长序列建模的"上下文碎片化"问题,引入分段循环与相对位置编码,是后来所有长上下文模型的概念奠基;
  • XLNet(NeurIPS 2019,Yang et al.)——提出基于 Permutation Language Modeling 的双向预训练目标,在多个 NLP 基准上短暂超越 BERT。

这两篇论文加起来引用过万。杨植麟博士毕业后短暂在 Google Brain、FAIR 实习,2020 年回到清华大学做交叉信息研究院助理教授。他在国内外学术圈被视为一代华人 NLP 学者中最具研究品味的代表之一——风格低调,论文密度不高但每一篇都直击核心问题。许多 NLP 老一代学者评价他是"出手很挑、每一篇论文都有方法论贡献的研究者"。

2022 年 11 月 ChatGPT 发布之后,杨植麟意识到学术界与工业界的差距正在以前所未有的速度被拉开——研究最前沿的事情已经不再发生在大学,而是在 OpenAI、Anthropic、DeepMind 这样的工业实验室里。如果想继续做"前沿研究",他必须自己搭建一个具备相应规模的实验室。

2023 年初 ChatGPT 余波未平,杨植麟选择从清华辞职创业。2023 年 4 月在北京海淀创立月之暗面(Moonshot AI),公司名取自 Pink Floyd 同名专辑《The Dark Side of the Moon》——意指"未被看见的那一面"。这种文学化的命名风格延续到 Kimi 的产品调性上,也让月之暗面从第一天起就在国内 AI 创业圈带有强烈的个人风格标记。

关于杨植麟还需要再加一笔:他与 OpenAI 同代研究者有不少私人或学术上的交集——读博期间与多位后来加入 OpenAI、Anthropic、DeepMind 的同学共事,对硅谷一线 AI 公司的研究节奏有直接观感。这种"同代际熟人网络"让他在判断技术趋势时具备国内多数创业者不具备的信息优势。

二、清华—CMU 的硬核团队

月之暗面的早期团队是中国 AI 创业公司里学术含量最高的一支之一。除杨植麟之外,联合创始人周昕宇(清华本科 + CMU 博士)与吴育昕(清华本科 + CMU 博士,曾在 FAIR 工作,detectron2 主要贡献者)同样是计算机视觉与系统方向的明星青年学者。张宇韬(清华博士)等核心成员构成了一个清华系 + CMU 系 + 海外大厂回流的复合阵容。

早期员工里来自 Google Brain、Meta AI、字节跳动 AI Lab 的研究员占比很高。这支团队的特点是研究底子扎实、工程能力顶级,但创业管理经验相对薄弱——这一特征会在 2024 年的"投流大战"中既是优势也是负担。

公司的另一面是杨植麟极强的资本号召力。2023 年 6 月成立后短短数月,月之暗面便完成首轮融资,红杉中国、真格基金领投。2024 年 2 月再获阿里巴巴领投的约 10 亿美元融资——这是中国 AI 创业公司当时单笔最大的一轮,估值据多家媒体披露达到 25 亿美元。后续 2024 年 7 月又有约 3 亿美元跟进,估值升至约 33 亿美元。投资方阵容包括阿里巴巴、红杉中国(HongShan)、IDG、真格基金、美团、高瓴、腾讯等。

2025 年市场普遍估值约 33–36 亿美元,月之暗面始终是中国大模型四小龙中估值最高的几家之一。

公司初创团队不到 30 人,办公地点选在北京中关村,距离清华园只有几公里。早期员工人均学历堪比一家美元基金或国际顶会论文委员会——博士比例极高,工程师能力极强。这种"全员研究员"的人才结构是月之暗面在 ToC 战场上能与字节这种巨头掰手腕的底牌之一,但同样的结构也使它在 ToC 增长、内容运营、用户研究等"非研究型职能"上一直处于建设期。

值得指出的是,月之暗面创始团队 2024 年中曾出现一场公开的股权与离职风波——早期投资人对部分核心团队成员的去向提出诉讼。事件最终以双方和解告终,未对公司经营造成实质影响,但它提醒了行业:在中国 AI 一级市场加速膨胀的环境下,治理与契约的重要性不亚于技术与产品。这场风波也成为 2024 年中国 AI 创投圈最受关注的案例之一。

三、Kimi Chat 与 200 万字上下文

2023 年 10 月 9 日,月之暗面发布首个产品 Kimi Chat。Kimi 名字的由来据创始团队描述是"取一个简短、好记、中性的名字"——后来在中文用户里被亲切地称为"Kimi 智能助手"。

Kimi 上线时主打 20 万字超长上下文——在彼时 ChatGPT 仍是 8K(GPT-3.5)/32K(GPT-4 Turbo)、文心一言与通义千问普遍 8K 的市场背景下,Kimi 的 20 万字一度领先全球商用产品。它非常适合处理长论文、长合同、整本书阅读、长对话记忆等中文场景,在金融、法律、学术圈迅速被采纳。

真正引发现象级关注的是 2024 年 3 月 18 日——月之暗面宣布 Kimi 上下文窗口扩展到 200 万字,并在 Web 端和 App 端逐步开放。这次升级在中国 A 股市场引发了所谓的"Kimi 概念股"行情:与 Kimi 直接或间接相关的算力、传媒、AI 应用板块连续多日涨停,成为 2024 年 A 股 TMT 板块最重要的炒作主题之一。月之暗面瞬间从一个 AI 创业公司变成大众财经新闻里的高频词。

200 万字背后的技术不是简单堆 KV 缓存,而是大量长上下文工程上的创新:稀疏注意力、分块重排、检索增强生成与长文本压缩等。在 2024 年中,Kimi 是中国 C 端用户体验最佳的中文长文本模型,几乎没有之一。

200 万字这一数字的现实意义是:可以一次性读入一本中等篇幅的书、一份完整年报或一组连续数十篇研究论文,让模型在统一上下文里回答跨文档问题。对于法律、金融、学术研究这些信息密集的场景,这是 GPT-4 Turbo 当时 128K(约 9–10 万英文 token)窗口完全做不到的。Kimi 因此在金融分析师、律师、学术研究员、咨询顾问群体里赢得了一批死忠用户。

四、ToC 投流与字节豆包的"3000 亿大战"

200 万字给月之暗面带来的不仅是技术口碑,更是流量野心。2024 年起,Kimi 走上了一条与智谱、MiniMax 都不同的路——ToC 投流增长

2024 年下半年开始,Kimi 在抖音、B 站、小红书、微信生态投放了规模空前的广告。同一时间,字节跳动旗下的豆包 App(Doubao)也在自家流量与外部渠道开启大规模投放。两家公司在 2024 年针对 AI 助手赛道在抖音 / B 站的合计买量被业内估计高达3000 亿元人民币级别(含等价流量、达人合作与品牌合作)——一场前所未有的"AI 助手投流大战"。

战果是双方都把月活推到千万级别,但 ROI 各方评价不一。豆包背靠字节,分发成本几乎为零,月活迅速突破亿级;Kimi 不具备字节那种内容分发底盘,每一份月活都要真金白银买单。2024 年下半年内部反思的关键问题在于:投流换来的用户留存能不能覆盖获客成本?产品体验是否被增长压力扭曲?

杨植麟在 2024 年底的一次访谈中公开表达了反思——"过去一段时间我们在增长上花的时间太多,应该回到产品和模型本身"。这一表态被视为中国大模型 ToC 路线的一次重要拐点,也直接影响了 2025 年月之暗面的战略调整:减少投流、回归长上下文与推理能力的差异化。

2024 年的"投流大战"在中国大模型史上是一段相当独特的章节。它一方面证明了 AI 助手作为消费产品具备真实需求——单是 Kimi 一家在抖音生态买出的搜索量级,就足以说明用户对中文 AI 助手的期待;另一方面也暴露了创业公司在巨头流量平台上的结构性劣势——字节用自家流量做豆包的边际成本几乎为零,月之暗面每一个用户都要付出市场价。投流大战的最终赢家在事实上几乎注定是字节豆包这种"自带流量"的玩家,独立创业公司若不能在产品层面建立无法替代的差异化,长期难以持续。

五、K 系列推理模型与中国"双星时刻"

2024 年 11 月,月之暗面推出 Kimi 探索版(基于 K0 系列模型),引入"思考过程可见"的交互形式——用户能看到模型的搜索、推理、决策步骤,类似 OpenAI o1 的开放思路。

2025 年 1 月 20 日,月之暗面发布推理模型 Kimi K1.5,与 DeepSeek 同期发布的 DeepSeek R1 形成"中国推理模型双星"现象。两个模型几乎同一周登上 arXiv,又几乎同期向公众开放,使 2025 年初的全球 AI 话题第一次以"中国推理模型"为中心展开。K1.5 在数学、代码、科学问题上的表现接近 OpenAI o1,海外开发者社区给出的评价相当正面。

之后月之暗面陆续推出:

  • Kimi K2(2025 年中):进一步提升长链推理与工具调用;
  • Kimi-VL(2025 年):视觉语言模型,把长上下文优势扩展到多模态;
  • Kimi 长文本写作 / 编程助手:在专业写作和代码补全上做产品化深耕;
  • Kimi 探索 / 学术搜索:基于长上下文 + 检索增强的研究助理形态。

到 2025 年下半年,月之暗面的产品路线已经清晰:长上下文 + 推理能力 + 写作专长,主战场仍是 ToC 但不再以单纯投流为核心打法。

K1.5 还有另一层意义:它的训练论文公开了相当多的 RL 训练细节,包括如何处理推理过程中的奖励噪声、如何防止"奖励攻击"(reward hacking)、如何在长链推理中维持稳定性。这些细节对全球开源社区是重要参考,月之暗面因此获得了相当不错的国际研究信誉——这是它过去靠 ToC 投流难以得到的东西。

六、与"四小龙"中其他对手的对比

把月之暗面放在中国大模型四小龙(智谱、月之暗面、百川、零一万物)的格局里看,差异非常清楚。

智谱重 ToB 与开源,央企客户与学术影响是底盘;月之暗面重 ToC 与单品爆款,把 Kimi 一个产品做到极致;百川智能(王小川创立)走 ToB 行业垂直;零一万物(李开复创立)2024 年下半年起转向"模型即业务",淡化通用大模型路线。

四小龙之外还有一道分水岭:DeepSeek 与字节豆包。DeepSeek 以纯研究 + 极致开源横空出世,2025 年初 R1 发布后成为全球最受讨论的中国 AI 公司;字节豆包凭借抖音流量做到亿级日活,是 ToC 战场的事实上的赢家。月之暗面在这两端之间寻找自己的位置——既不放弃产品,也不放弃前沿研究。

四家中月之暗面是最具消费品牌识别度的一家——普通中文互联网用户里,Kimi 的知名度与日活规模超过其他三家。它也是最学术派的创始团队(杨植麟在 NLP 学界的地位),与最不学术派的产品打法(投流换增长)形成有趣的对照。这种张力既是月之暗面的特点也是它内部反思的来源。

到 2026 年,月之暗面在传闻中的 IPO 节奏比智谱和 MiniMax 略晚一步,但它仍是中国 AI 创业公司中最受关注的标的之一——主要因为它有一个极少有人具备的资产:杨植麟本人。在中国 AI 创业者的故事里,他是少数几个能同时具备研究信誉、年龄优势、资本号召力与公众知名度的人。

七、作为机构的月之暗面

回到月之暗面本身:它的故事可以浓缩成一句话——学术派创业者第一次直接面对中国互联网最残酷的 ToC 战场

杨植麟的优势是研究品味与技术信誉。他押注"长上下文"是一次有学术根基的判断——Transformer-XL 的工作让他比同行更早理解长序列建模的瓶颈与突破口;Kimi 200 万字的窗口不是堆参数堆出来的,而是基于一组精心设计的工程方案。

杨植麟的难题是商业化与组织管理。月之暗面在 2024 年以"投流换增长"快速膨胀,又在 2024 年底意识到这条路的不可持续;2025 年回归产品与模型,但中国大模型 ToC 战场已经被字节豆包、腾讯元宝、阿里通义等巨头分食,留给独立创业公司的窗口比 2024 年初窄了许多。

它的下一战是 ToC 还是 ToB?是国内还是出海?这些问题在 2026 年仍然没有完全答案。但不管走哪条路,它都已经以"长上下文"和"推理双星"两件事在中国 AI 史上留下了清晰的位置。

值得记下的还有这样一种判断:月之暗面或许是中国大模型创业公司中"最像 OpenAI 早期"的那一家——研究出身的创始人、以单一明星产品建立认知、以技术创新而非渠道堆量获取用户、对产品哲学有清晰个人化的偏好。OpenAI 后来变成了什么样是另一个故事,但在 2023–2025 这个阶段,月之暗面与 2018–2020 年的 OpenAI 在气质上的相似程度,是国内任何其他 AI 公司都难以比拟的。

它的另一个长期资产是杨植麟个人的研究信誉。在中国 AI 公司创始人里,能用一手论文与一手代码与硅谷一线研究者直接对话的人极少;杨植麟是其中之一。这种"研究护照"在算力短缺、政策收紧、出海艰难的中国 AI 大环境下,是一笔不可替代的资源。

回到最初的问题:长上下文究竟是不是大模型的核心战场?2024 年的 200 万字宣告说"是的";2025 年的推理模型潮告诉我们答案更复杂——长上下文是必要的基础设施,但单凭它不足以赢得未来。月之暗面在这场判断的修正中正在调整自己的位置,而它给中国 AI 史留下的最锋利的一笔已经写在 2024 年春天那个被 A 股反复念叨的名字上:Kimi。

太史公曰

月之暗面之奇,全在杨植麟一人。少而能文,三十而创业,挟 Transformer-XL、XLNet 之名,得阿里、红杉之资,建 Kimi 一军于中关村。其用兵之锐有二:一曰长上下文,自二十万字而二百万字,独步中文之 C 端,引 A 股之炒;二曰推理之器,与 DeepSeek 同周出 K1.5、R1 二刃,使 2025 年开年之全球目光在中国。然亦有一憾:投流之战,与字节豆包对峙,糜数百亿之资而留存难测,及岁末乃悟,遂回归产品与模型本心。学术之贵在长,市场之急在快——杨君之困,正在此长短之间。然中国大模型四小龙,独月之暗面有"创始人即品牌"之名,亦独月之暗面在 ToC 留下"现象级"之记忆。其能否成下一阶段之主角未可知,然其名已不可去。

从更长的时间尺度看,杨植麟和月之暗面这一拨"年轻博士回国创业大模型"的浪潮,是 2010 年代深度学习教育投资的一次集中兑现:清华、CMU、MIT、Stanford 培养的华人 NLP 博士,在 2023–2024 年集中回到北京、上海、杭州,建立起一批与硅谷直接对位的研究型公司。月之暗面是这一代叙事中最具象征意义的样本之一。

亲历者说

征集中

如果你曾在月之暗面工作或长期使用 Kimi,欢迎提交贡献

参考资料

  1. Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q., & Salakhutdinov, R. (2019). "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context." ACL 2019.
  2. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. (2019). "XLNet: Generalized Autoregressive Pretraining for Language Understanding." NeurIPS 2019.
  3. Moonshot AI (2025). "Kimi K1.5: Scaling Reinforcement Learning with LLMs." arXiv:2501.12599.
  4. 财新周刊 (2024). "杨植麟与月之暗面:长上下文的创业者."
  5. 晚点 LatePost (2024). "Kimi 投流复盘:3000 亿广告战之后的反思."
  6. 36 氪 (2024-02). "月之暗面完成阿里领投 10 亿美元融资."
  7. The Information (2024). "Inside Moonshot AI: China's Most Watched LLM Startup."
  8. 南方周末 (2024-03). "Kimi 200 万字上下文与 A 股的 Kimi 概念股行情."
  9. Bloomberg (2024). "Alibaba Backs Moonshot AI in Race to Catch OpenAI."
  10. MIT Technology Review (2025). "DeepSeek R1 and Kimi K1.5: China's Reasoning Model Twin Stars."
  11. 21 世纪经济报道 (2025). "月之暗面战略调整:从投流到产品回归."
  12. Moonshot AI 技术博客 (2024–2025). moonshot.cn / kimi.com.