两位00后大学生在大四尚未毕业时,竟然不接埃隆·马斯克(Elon Musk)抛出的绣球,谢绝了xAI提供的数以百万美元计年薪的工作邀约!他们是不是有点crazy,尤其当这两位无名小卒尚未在业界泛出一片涟漪之时?咱先看看王冠(Guan Wang 下图 sapient)


对于一名正在四处寻找就业机会的大四学生,这不啻是天大的好事。面对这一邀约,王冠和他的创业伙伴也的确十分心动。心不动于微利之诱,目不眩于五色之惑。志存高远的王冠和陈威廉从xAI发出的工作邀约中,看到了自己工作的价值。如果接受邀约进入马斯克的xAI工作,他们肯定得按公司的目标工作。于是,王冠和陈威廉谢绝了xAI的工作邀约,出发去设计一个“受大脑启发”的推理系统,以超越现有大语言模型。在王冠和陈威廉看来,大语言模型不能像人一样思考,只会完全依赖训练数据,像是背字典背考题。他们决定要在既有的工作基础上,开发出一种全新的结构,突破大语言模型存在的瓶颈。2024年,两人成立了名为Sapient Intelligence(智人)的人工智能公司,建成了一只由顶尖科学家和工程师组成,曾在Anthropic、DeepSeek、xAI和谷歌DeepMind等一流AI公司,以及剑桥大学、清华大学、北京大学和阿尔伯塔大学等一流学术机构研究工作的团队,并已获得了至少两轮投资(下图 Sapient Intelligence)。但让王冠和陈威廉,不,是他们的推理模型,为世界所知的,是Sapient Intelligence今年推出的HRM。

2025年7月21日,新加坡通用人工智能研究公司Sapient Intelligence正式推出开源AI分层推理HRM模型 (Higherarchical Reasoning Model) (下图 datasciencedojo)。HRM是一种受大脑启发而设计的架构,它利用分层结构和多时间尺度处理,在不牺牲训练稳定性和效率的前提下,实现了显著的计算深度。HRM仅使用1000个样本进行训练,无需预训练,且参数量仅为2700万,即可成功应对当前大型语言模型(LLM)难以解决的推理难题。为证明该“受大脑启发”的人工智能结构,Sapient Intelligence团队携HRM参加了“ARC-AGI基准测试”这类业界公认的‘考场’,与诸如OpenAI和Anthropic这类主流AI公司的知名大模型真刀真枪地比试了一番。结果,仅有区区2700万产数的HRM,在多项高难度推理任务上,把那些动辄上千亿产数的“大块头”们按在地上摩擦,在抽象推理测试中超越了OpenAI和Anthropic的系统。

王冠与陈威廉
Sapient Intelligence创始人兼CEO王冠(Guan Wang)2000年出生于大陆河南省。在成长过程中,王冠就是一个别人家的孩子。高中时他参加了算法比赛,信息学竞赛,夺得过高中版大疆robomaster比赛冠军。大学他进入的清华,并且是保送入读世界一流的清华计算机学院 – 太过优秀!之后他转入清华AIR研究院学习强化学习(RL),再后来加入清华脑与智能实验室尝试将强化学习与演化计算做融合。期间,王冠也曾去担任开源语言学习项目OpenOrca的首席开发者。在清华学习期间和毕业后,他先后在清华大学脑与智能实验室、上海人工智能实验室和小马智行(Pony.ai)担任研究人员和工程师的职务。正是在清华大学学习期间,王冠与他的好友陈威廉一起开发出了OpenChat这个著名开源模型。
陈威廉(William Chen)出生于出生于中国大陆、在圣地亚哥和深圳长大,系Sapient Intelligence联合创始人兼管理与战略负责人。陈威廉高中时被家长送到位于底特律西北的著名私立寄宿学校克兰布鲁克学校(Cranbrook Schools 下图 Google Map)。正是在底特律,他与在当地的另一所学校读高中王冠相识。在他们见面的第一天,两人就展开了一场漫长的对话,话题是陈所说的他们的“元目标”,也就是他们人生的最终目的。对王而言,通用人工智能(AGI)的元目标早在这个术语流行之前就已存在。高中时,他将其描述为“能够解决任何问题的算法”,因为当时还没有这个术语。陈的元目标则有所不同,但又与之互补:优化一切,从工程问题到现实世界的系统。“我们一拍即合,”陈说。

王冠和陈威廉开发地“OpenChat”模型并非使用海量的互联网数据进行训练,而是基于一组精心挑选的高质量对话(下图 github)。他们还利用强化学习(RL)来训练模型自我改进。强化学习是一种让模型像人或动物一样学习的技术:通过做出决策、接收反馈,然后通过奖惩机制来改进行为。当时,几乎没有人用语言模型做这件事。唯一一家探索将强化学习应用于语言学习模型的团队是DeepSeek,即后来令硅谷感到恐慌的那家AI公司(中文名:深度求索)。王冠和陈威廉将他们的OpenChat开源,并立即爆红。加大伯克利和斯坦福大学的研究人员提取了这段代码,并在此基础上进行了扩展,开始引用这项研究成果。在学术界,它成为最早的案例之一,证明了即使模型规模较小,只要用优质数据(而非更多数据)进行训练,就能发挥出远超其自身规模的作用。然后,就有了埃隆·马斯克当时通过他新成立的公司xAI发的一封邮件,想以数百万美元的薪酬待遇招揽他俩。他们犹豫了一下,然后拒绝了。因为他们认为大规模语言模型存在局限性,因而想要一种新的架构来克服大规模机器学习的结构性限制。追求更具雄心壮志的目标:一个“受大脑启发”的推理系统,他们相信该系统可以超越当前的 AI 模型。

凌晨3点的突破
王冠和陈威廉是在清华大学的脑科学实验室里,开发出了分层推理模型(HRM)。如果说 OpenChat 是他们的概念验证,那么 HRM 就是他们一直以来梦寐以求的登月计划。而它最终证明自身价值的时刻,恰如其分地,发生在夜深人静之时。今年六月一个清晨,凌晨三点,陈和王盯着他们小型实验模型返回的基准测试结果。他们那小小的HRM原型 - 只有2700万个参数,与GPT-4或Claude相比简直微不足道 - 在专门用于衡量推理能力的任务上,表现却优于OpenAI、Anthropic和DeepSeek的系统(下图 Linkedin)。它解决了极限数独问题,找到了 30×30 迷宫的最佳路径,并在ARC-AGI 基准测试中取得了惊人的高性能 - 所有这些都没有使用思维导图提示或暴力扩展。用陈威廉的话说,“仅仅改变一下架构,就赋予了模型我们所说的推理深度。”

参考资料
Roytburg, E. (2025). Two gen zers tured down millions from Elon Musk to build an AI based on the human brain – and it’s outperformed models from OpenAI and Anthropic. FORTUNE. 链接 https://fortune.com/2025/11/28/sapient-intelligence-william-chen-guan-wang-turned-down-elon-musk-agi/
Sapient Intelligence. (2025). Hierachical reasoning model. GitHub. 链接 https://github.com/sapientinc/HRM
Sapient Intelligence. (2025). Sapient Intelligence open-sources hierarchical resoning model, a brain-inspired architecture that solves complex reasoning tasks with 27 million parameters. 链接 https://www.sapient.inc/blog/5?_t=1764435065949
Spencer, M. (2025). What is Sapient Intelligence and hierarchical reasoning model (HRM)? 链接 https://offthegridxp.substack.com/p/what-is-sapient-intelligence-hierarchical-reasoning-model-hrm
Wang, G. et al. (2025). Hierachical reasoning model. arxiv. 链接 https://arxiv.org/pdf/2506.21734
Wang, G. et al. (2025). Hierachical reasoning model. Sapient Intelligence. 链接 https://www.sapient.inc/models/2
阮佳琪. (2025).“惊人转变”,美媒:清华AI专利数超过哈佛、麻省理工等美国四校总和. . Sina新浪新闻中心. 链接 https://news.sina.com.cn/c/2025-11-19/doc-infxxnee1860628.shtml
投资界. (2024). 那个要挑战GPT的00后清华男孩. Sina新浪财经. 链接 https://finance.sina.com.cn/jjxw/2024-09-20/doc-incpumyu7638447.shtml