简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » 李飞飞花20元26分钟造出新模型 媲美DeepSeek

李飞飞花20元26分钟造出新模型 媲美DeepSeek

文章来源: 星岛日报 于 2025-02-11 16:17:46 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


美籍华裔科学家李飞飞,仅用20美元和26分钟,便创出新的AI模型,效能媲美Deepseek、OpenAI。路透社

中国低成本高效的AI模型DeepSeek,推出后震撼科技界后,有AI教母之称的美籍华裔科学家李飞飞,率领其团队仅花了20美元及26分钟,便创造出一个「s1」的AI推理模型,表现媲美OpenAI o1和DeepSeek R1等尖端推理模型。

  仅用16块H100 GPU训练

综合外媒报道,李飞飞是史丹福大学首位红杉讲席教授,美国国家工程院院士。她与史丹福大学和华盛顿大学的研究团队,在一个月内便研发出s1模型,因像DeepSeek一样并非从零开始。s1是以阿里巴巴的通义千问Qwen2.5 -32B-Instruct开源模型为底座,在16块辉达(NVIDIA)H100 GPU上监督微调26分钟,训练出新模型。

美籍华裔科学家李飞飞有「AI教母」之称。@drfeifei

李飞飞是史丹福大学首位红杉讲席教授。Stanford University

  表现媲美OpenAI o1及DeepSeek R1

报道指,李飞飞团队在研究中提出了「预算控制」策略,透过加入「wait指令」等方式,强制延长模型推理过程、思考时间,以此促使模型自我检查并修正错误的推理步骤,提升推理品质。

根据李飞飞等人的研究论文《s1:Simple test- time scaling》,该模型在数学和编码能力测试中的表现,可媲美OpenAI的o1,以及DeepSeek的R1等尖端推理模型,在竞赛数学问题上更较o1-preview高出27%。

内媒每日经济新闻报道,复旦大学计算机学院副教授郑骁庆受访时表示:「像DeepSeek或类似的公司,在寻找有效的整合解决方案时,需要进行大量的前期研究与消融实验。」这意味著前期是需要大量「烧钱」的。

由于s1是基于现成模型进行监督微调,而微调一个模型和从零开始训练一个模型的成本是无法相提并论的。其次50美元是否包含了其他数据、设备和消融实验等费用,如DeepSeek-V3不到600万美元的训练成本,其实也只包含了训练时的GPU算力费用。

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(28)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

行走阿尔巴尼亚,欧洲能穷成什么样子
广州女生宅家10年,复刻宋元宴席:太风雅了
李承鹏最新文章:跳舞的妈妈
美国惊现“叮咚沟”恶作剧 提醒华人家长极其危险!
和解!华女遭警员开枪重伤 获赔$675万 官方罕见认错




24小时讨论排行

美国副总统万斯:向雇主举报那些庆祝查理·柯克之死的人
美国大使馆涌“排队盛况” 一眼望不到头 网骂:汉奸!
贝森特:如欧洲不先行动 美方不对中国加征俄油关税
联合国独立调查首度证实:以色列对加萨实施"种族灭绝"
美航 达美 联航宣布:对柯克案发不当言论员工全数停职
医生赞刺杀柯克枪手“枪法精准” 被永久禁止入境美国
Office Depot拒印柯克追悼海报,员工当场被开除
男留学生被安排混住女生宿舍楼 重庆理工大学致歉
华人网购噩耗!“小额豁免”取消 1件衣服补税283刀
德州黑人女生柯克追悼会上挑衅被捕 州长:挑错了学校!
CNN:川普正酝酿一场对左翼大规模打压 Antifa将列恐怖组织
他到底是极右还是极左?刺杀科克者的心理画像
川普怒炒Fed理事再失利!法院驳回 恐上最高院
解放军杀气腾腾:“定要把胜利的旗帜插在宝岛上”
美刚挺完以色列!以军轰垮民宅「把人活埋」
艾美奖:犹太裔女演员获奖感言高呼“解放巴勒斯坦”
文学城新闻
切换到网页版

李飞飞花20元26分钟造出新模型 媲美DeepSeek

星岛日报 2025-02-11 16:17:46


美籍华裔科学家李飞飞,仅用20美元和26分钟,便创出新的AI模型,效能媲美Deepseek、OpenAI。路透社

中国低成本高效的AI模型DeepSeek,推出后震撼科技界后,有AI教母之称的美籍华裔科学家李飞飞,率领其团队仅花了20美元及26分钟,便创造出一个「s1」的AI推理模型,表现媲美OpenAI o1和DeepSeek R1等尖端推理模型。

  仅用16块H100 GPU训练

综合外媒报道,李飞飞是史丹福大学首位红杉讲席教授,美国国家工程院院士。她与史丹福大学和华盛顿大学的研究团队,在一个月内便研发出s1模型,因像DeepSeek一样并非从零开始。s1是以阿里巴巴的通义千问Qwen2.5 -32B-Instruct开源模型为底座,在16块辉达(NVIDIA)H100 GPU上监督微调26分钟,训练出新模型。

美籍华裔科学家李飞飞有「AI教母」之称。@drfeifei

李飞飞是史丹福大学首位红杉讲席教授。Stanford University

  表现媲美OpenAI o1及DeepSeek R1

报道指,李飞飞团队在研究中提出了「预算控制」策略,透过加入「wait指令」等方式,强制延长模型推理过程、思考时间,以此促使模型自我检查并修正错误的推理步骤,提升推理品质。

根据李飞飞等人的研究论文《s1:Simple test- time scaling》,该模型在数学和编码能力测试中的表现,可媲美OpenAI的o1,以及DeepSeek的R1等尖端推理模型,在竞赛数学问题上更较o1-preview高出27%。

内媒每日经济新闻报道,复旦大学计算机学院副教授郑骁庆受访时表示:「像DeepSeek或类似的公司,在寻找有效的整合解决方案时,需要进行大量的前期研究与消融实验。」这意味著前期是需要大量「烧钱」的。

由于s1是基于现成模型进行监督微调,而微调一个模型和从零开始训练一个模型的成本是无法相提并论的。其次50美元是否包含了其他数据、设备和消融实验等费用,如DeepSeek-V3不到600万美元的训练成本,其实也只包含了训练时的GPU算力费用。