世家 · Hugging Face

一家从"给青少年做聊天机器人"开始的初创公司，意外成为全球开源 AI 的事实标准——pip install transformers这一行命令，是过去八年里被键入次数最多的 AI 入门咒语。

一、纽约的法国人

故事开始于 2016 年的纽约。三位法国人——克莱芒·德朗格（Clément Delangue）、朱利安·肖蒙（Julien Chaumond）、托马·沃尔夫（Thomas Wolf）——在曼哈顿的一间小办公室里注册了一家公司，取名 Hugging Face，标志是一个微笑流泪的拥抱表情符号 🤗。德朗格从巴黎 HEC 商学院毕业、做过 eBay；肖蒙是技术合伙人、做过初创工程师；沃尔夫是物理学博士出身，正在自学 NLP。

最初的产品是一款面向青少年的娱乐聊天机器人 App——你可以在 iPhone 上跟一个有点贱、有点可爱的虚拟朋友互发表情包、聊八卦。它不是为了改变世界而生的产品，更像是一个 Y Combinator 风格的"先做出来再说"的实验。它在 App Store 上获得了几十万下载，但远远没到爆款级别。

如果故事就停在这里，Hugging Face 会是 2010 年代千百家 chatbot 创业公司中默默消失的一家。但 2018 年发生了两件事，让它的命运彻底掉头。

二、BERT 来的那一刻

2018 年 10 月 11 日，谷歌发布 BERT 论文。德夫林和团队展示了"双向预训练 + 任务微调"的力量，把 NLP 几乎所有标准任务的 SOTA 一夜之间刷到了新高度。整个 NLP 社区都意识到，预训练语言模型才是未来。

谷歌随后开源了 BERT 的 TensorFlow 实现。但 PyTorch 社区里一时拿不到能用的版本。Hugging Face 团队的沃尔夫和工程师 Lysandre Debut 在内部为 chatbot 训练用的 PyTorch 移植版本，被他们以一个朴素的名字开源到了 GitHub：pytorch-pretrained-BERT。

发布是 2018 年 11 月。仓库一星期内就被 NLP 学者疯狂引用、Star、Fork。沃尔夫等人意识到——他们做的这件"顺手"的事，价值远远大过他们的 chatbot 产品本身。整个 2019 年，团队几乎全部精力都投入到把 pytorch-pretrained-BERT 扩展为一个支持多模型（GPT-2、XLNet、RoBERTa、DistilBERT 等）、多框架（PyTorch + TensorFlow，后来加入 JAX）的通用库。1.0 版本发布时，库改名为 transformers。

那是 Hugging Face 的真正起点。

三、Transformers 库的胜利

transformers 库在 2019 至 2021 年间迅速成为 NLP 的事实标准。理由有三：

第一，统一的 API。无论是 BERT、GPT、T5 还是 ALBERT，都用同一套 from_pretrained() / tokenizer() / model() 调用方式。这把研究者和工程师从"每个模型一份代码、每份代码各自为政"的泥潭里捞了出来。

第二，框架无关。同一个模型可以一行切换 PyTorch / TensorFlow / JAX，让团队可以根据自己的偏好选用框架。

第三，Pythonic、文档详尽、对学生友好。HF 团队在文档、教程、Notebook 上的投入是同期开源库中最舍得花力气的；任何一个本科生都能在一个下午里跑通自己的第一个 BERT 微调实验。

到 2020 年底，几乎所有顶会 NLP 论文（ACL、EMNLP、NAACL）的开源代码都基于 transformers。它的下载量在 2024 年突破每月一亿次。

围绕 transformers，HF 又陆续推出 Datasets（数据集统一接口）、Tokenizers（Rust 写的高速分词器）、Accelerate（分布式训练简化层）、PEFT（参数高效微调，LoRA 等）、TRL（强化学习与 RLHF 工具）。这一整套工具链覆盖了从数据准备、训练、微调、对齐到部署的整个 NLP 工程流程。

四、Hub：AI 时代的 GitHub

2020 年起，Hugging Face 推出 Model Hub——一个让任何人都可以上传、下载、版本管理 AI 模型权重的开放平台，定位完全对标 GitHub 之于代码。Hub 的关键设计是默认开放、Git LFS 存储、社区可评论与试用。

Hub 一旦上线就开始爆炸式增长：

2021 年初突破 1 万个模型；
2022 年下半年 Stable Diffusion 在 Hub 上爆火，社区微调版本以"周"为单位涌现；
2023 年 Meta 发布 Llama 2 后选择 Hub 为官方分发渠道；
截至 2026 年初，Hub 上有超过 150 万个模型、25 万个数据集、50 万个 Space 演示。

Hub 的另一个关键特性是 Spaces：用户可以零门槛地用 Gradio 或 Streamlit 把模型包装成 Web Demo，让所有人在浏览器里直接试用。这让"会写论文的研究者"和"会用模型的产品经理"之间不再隔着一道工程鸿沟。

"AI 界的 GitHub"——这个外号在 2023 年前后已经成为整个行业的共识。

五、BigScience 与 BLOOM

如果说 OpenAI 走的是"闭源 + 商业 API"的路，那 Hugging Face 几乎是它在哲学上最强烈的对照。这份对照在 BigScience 项目上达到顶点。

2021 年中，Hugging Face 发起 BigScience——一个由全球 1000 多名研究者参与、法国 GENCI 提供 Jean Zay 超算资源的开放科学协作项目。目标是公开训练一个与 GPT-3 同级别的多语言大模型。

2022 年 7 月 12 日，BigScience 发布 BLOOM：1760 亿参数、覆盖 46 种自然语言和 13 种编程语言，权重完全开源、训练数据公开、许可证为 Responsible AI License（RAIL）。BLOOM 不是当时最强的模型，但它证明了一件事——社区有能力以非商业方式训练出旗舰级大模型。这份证明本身就是巨大的政治意义。

2023 年 4 月，Hugging Face 又推出 HuggingChat——开源版 ChatGPT，把 LLaMA、Falcon、Zephyr、Mistral 等开源模型包装成对话接口。HuggingChat 永远落后于闭源 SOTA 一两个身位，但它代表了一条不向 OpenAI 低头的备选路径。

六、估值 45 亿与生态扩张

2023 年 8 月 24 日，Hugging Face 完成 D 轮融资 2.35 亿美元，估值 45 亿美元。这一轮的投资人名单本身就是一份大模型时代的"豪门图谱"：谷歌、亚马逊、英伟达、AMD、Salesforce、Sound Ventures、IBM、Intel、Qualcomm 共同进场。这种"所有大公司都来站台"的局面，几乎只在做"行业基础设施"的公司身上才会出现——它意味着每一家巨头都不敢让 Hugging Face 倒向自己的对手。

接下来两年里，Hugging Face 的产品继续向纵深生长：

2023 年：发布 Zephyr 系列开源对齐模型，与 LlamaIndex、LangChain 形成开源 LLM 应用栈的标配三件套；
2024 年：Llama 3 发布即上 Hub，月下载过亿；推出 SmolLM 系列小模型（135M / 360M / 1.7B），证明小模型在端侧也有大用；
2024 年 11 月：Hub 月活用户超过 500 万；
2025 年：与 NVIDIA 合作 NIM 推理服务，与 AWS 合作 Inferentia 部署，与 Apple、华为合作端侧 SDK；
2025 年：开源机器人项目 LeRobot 上线 Hub，扩张到具身智能领域。

七、开源 AI 的最大公约数

回到最初的问题：Hugging Face 凭什么这么重要？

答案是它选对了身份。OpenAI 选了"做最强模型"这条路，Anthropic 选了"做最安全模型"，谷歌选了"做最大算力底座"，Meta 选了"开源换生态"——而 Hugging Face 选了一条最不性感、但最持久的路：做所有这些路线的中立基础设施。

它不训练旗舰模型，但所有旗舰模型都要上它的 Hub；它不做闭源 API，但所有闭源 API 的开发者都要先在它的库里学会 Transformer；它不与任何巨头为敌，但所有巨头都不能离开它。这是开源 AI 时代典型的"基础设施红利"——位置比能力更重要，中立比强大更稀缺。

德朗格、肖蒙、沃尔夫这三位法国创业者无意中做对的最重要的一件事，是从"我们要做一个产品"切换到"我们要做一个生态"。这种切换需要勇气——它意味着放弃做"明星 App"的可能性，去做一份永远不会上头条但永远不可替代的工作。回头看，这是 2010 年代末最大胆也最聪明的一次产品转型之一。

太史公曰

Hugging Face 是开源 AI 时代最大的赢家，但赢的方式与所有人想象的不同。它没有训练出最强的模型，没有做出最炸的产品，没有打过最响的口水仗。它做的是一件最不显眼也最难替代的事——把 AI 这门手艺的"工具箱"标准化、平台化、去中心化。每一个 AI 工程师入门都要装它的库，每一份开源模型都要上它的 Hub，每一篇论文的开源代码都要靠它的 API。这是数字时代最古老的胜利模式：不做风暴中心，而做风暴里所有船都要停靠的港口。法国人用了八年时间把这座港口从纽约一间小办公室建成全球开源 AI 的总枢纽——这是新世纪硅谷之外少有的非美国 AI 故事。

亲历者说

征集中

如果你曾在 Hugging Face 工作、为 transformers 等开源库贡献代码、或在 Hub 上传过模型，欢迎提交贡献。

参考资料

Wolf, T., et al. (2020). "Transformers: State-of-the-Art Natural Language Processing." Proceedings of EMNLP 2020 System Demonstrations.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." arXiv:1810.04805.
BigScience Workshop. (2022). "BLOOM: A 176B-Parameter Open-Access Multilingual Language Model." arXiv:2211.05100.
Hugging Face. (2023, August 24). "Hugging Face Raises $235M Series D." Press Release.
Delangue, C. (2020). "From Chatbot to NLP Powerhouse: The Hugging Face Story." Hugging Face Blog.
Wolf, T. (2019). "🤗 Transformers: The Story Behind the Library." Medium.
Hugging Face. transformers GitHub Repository (https://github.com/huggingface/transformers).
Stable Diffusion Public Release. (2022, August). Stability AI / Hugging Face Blog.
Meta AI. (2023). "Llama 2: Open Foundation and Fine-Tuned Chat Models." Meta AI Research.
Hugging Face Hub Statistics Dashboard (2024–2026).
The New York Times. (2024). "How Hugging Face Became the GitHub of AI." Technology Section.

世家 · Hugging Face ​

一、纽约的法国人 ​

二、BERT 来的那一刻 ​

三、Transformers 库的胜利 ​

四、Hub：AI 时代的 GitHub ​

五、BigScience 与 BLOOM ​

六、估值 45 亿与生态扩张 ​

七、开源 AI 的最大公约数 ​

亲历者说 ​

参考资料 ​