中国科技巨头阿里巴巴旗下的阿里云周三发布“通义千问”旗舰版模型（Qwen2.5-Max）全新升级版，并声称该模型超越了备受推崇的DeepSeek-V3。

本周三（1月29日），阿里云通义千问旗舰版模型（Qwen 2.5-Max）正式发布。这一发布时间颇不寻常，恰逢中国农历新年，大多数中国人都在假期中与家人团聚。选在春节期间发布也反映出中国AI初创公司DeepSeek在过去三周的迅猛崛起不仅给海外竞争对手带来压力，也让国内同行压力倍增。

在其官方微信账号阿里云上发布的公告称，在知识（测试大学水平知识的MMLU-Pro）、编程（LiveCodeBench）、全面评估综合能力的（LiveBench）以及人类偏好对齐（Arena-Hard）等六项基准测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。”

其中，GPT-4o来自OpenAI，DeepSeek-V3来自深度求索DeepSeek，而Llama-3.1-405B则是Meta推出的最先进开源AI模型。

DeepSeek崛起引发竞争对手加速模型升级

DeepSeek于1月10日发布的DeepSeek人工智能助手由 DeepSeek-V3 模型驱动，并在1月20日推出了R1模型，这一系列举措震惊硅谷，并导致多家科技公司股价下挫。DeepSeek据称研发和使用成本都很低，令投资者对美国头部AI企业的巨额支出计划产生了质疑。

与此同时，DeepSeek的成功也促使国内竞争对手加紧升级自己的AI模型。

DeepSeek-R1发布两日后，字节跳动（TikTok母公司）更新了其旗舰AI模型，并声称该模型在AIME测试中优于OpenAI（微软）的o1模型。AIME是一项衡量AI模型理解和响应复杂指令能力的基准测试。

无独有偶，DeepSeek此前在推出新模型时也是拿ChatGPT的o1模型做比，表示其R1模型在多个性能基准测试中可与o1媲美。

DeepSeek与国内竞争对手的较量

DeepSeek-V3模型的前身DeepSeek-V2，于去年5月发布后，在中国AI行业引发了一场价格战。

DeepSeek-V2的开源特性和极低的使用成本（每100万词元（token，AI模型处理的数据单位）仅1元人民币，约合0.14美元）迫使阿里巴巴云计算部门宣布对其一系列模型降价，最高降幅达97%。随后，其他中国科技公司也纷纷跟进，包括百度（2023年3月推出了中国首个类似ChatGPT的产品）以及中国市值最高的互联网公司腾讯（Tencent）。

DeepSeek创始人梁文峰在去年7月罕见接受中国媒体《浪潮》采访时表示，自己的这间初创公司“并不在乎”价格战，而是专注于实现通用人工智能（AGI）。

OpenAI将“通用人工智能”定义为“能够在大多数经济价值较高的任务领域超越人类的自主系统”。

与阿里巴巴等拥有数十万员工的中国科技巨头不同，DeepSeek更像是一个研究实验室，主要由中国顶尖大学的年轻毕业生和博士生组成。

梁文峰在采访中表示，他认为中国的大型科技公司可能并不适应AI行业的未来。他将这些巨头的高成本以及自上而下的管理模式，与DeepSeek精简的运营和宽松的管理风格进行了对比。“大型基础模型需要持续创新，而科技巨头的能力是有限的。”他说道。