简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » 比DeepSeek贵了400倍,GPT-5.2想钱想疯了?

比DeepSeek贵了400倍,GPT-5.2想钱想疯了?

文章来源: 差评XPIN 于 2025-12-13 18:27:44 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

比DeepSeek贵 400 倍,比谷歌的 Gemini 3 Pro 贵将近 10 倍。

OpenAI 本周五发布的 GPT-5.2 ,到底是什么水平?

比DeepSeek贵了400倍,GPT-5.2想钱想疯了?

这么说吧,这家伙或许是最适合打工人的AI,因为它很可能开启了 AI 从人类助手到专家的转变。

首先是在专业知识上,GPT-5.2 有 7 成的把握,能打败正在屏幕前,刷视频的各位行业专家们。

只看跑分的话,这次的 GPT-5.2 在各个维度上,都要比 Gemini 3 Pro 高了那么一点点。

当然,也只高了一点点,不排除OpenAI是对着 Gemini 刷分的可能。



但这次 OpenAI 最在意的,其实是最后的这个 GDPval 测试成绩。

这是他们在今年的925提出了的一个全新测试方式,用来衡量 AI ,能否真的来帮打工人完成工作。



于是他们找了九个领域四十四个行业的专家们过来,结合他们的工作环境来出了一堆题目。

然后来看 AI 能否完成这些专家们的工作。



而结果就是,最新的 GPT-5.2 能在七成的工作上,打平,甚至做的比人类更好。

咱们也简单的体验了一下这个新模型,让 GPT-5.2 去互联网上统计这些 AI 公司发布的所有模型。



然后把这些模型在各个排行榜上刷出来的分数给统计下来,最后按照月份,把这些成绩给做成表格。

结果在整整 14 分钟的思考后。GPT-5.2 成功的帮咱们把这一系列数据收集,结果统计,表格绘制的任务都给完成掉了。



这么个完成度,确实看起来不错。



除此之外,GPT-5.2还能完成一些复杂的表格工作,做出来的表格不但比过去的自己做的表格要美观许多。



而且在各项任务的测试指标上,也有了 9% 左右的提升。

在写代码这块,GPT-5.2 也有了不少的提升,



产生幻觉的概率要比之前降低了 38%

属于是想让大家能用的更加放心了。

我们也简单的测试了一下,但可能是因为有了 Gemini 珠玉在前的缘故,GPT-5.2 给我的感觉,就有那么一些平平无奇了。

让它来写个 Aimlab (练习瞄准的小游戏)

它也确实能写出来,写出来的程序不但能跑,还能调整靶子大小,游戏时长这些基本参数。



这些都没啥毛病,但就是有些太中规中矩了。

审美这块,有点被上个月发布的 Gemini 3 给暴打了。



同样一句话做出来的小游戏,Gemini 已经开始考虑各种时髦的配色了,GPT 还在刷大白墙,做毛坯房。

当然,也有可能是我没有指定 GPT 要做成啥样的缘故。

除了各项工作能力的提升之外,这次 GPT-5.2 还有一个非常有趣的变化。

它变的更能听得懂人话了。

有人在测试的时候发现,让 GPT 写 50 个创意,它就会认认真真的去写 50 个创意,而不是像过去的模型一样,写 10 个点子就开始摆烂。



除此之外,在上下文能力上方面,OpenAI 也补强了一波,在插针实验中,即便是文本长度到了 256K,成功率依旧是接近百分之百。



这相当于几十万字的名著里,你偷偷在几个地方加了点料,骂了我几句,他都能精准找出来。

这对于写代码、搞学术、总结整理文书的打工人、科研狗来说,又是一大增强。

虽然上面的纸面实力这么强,但,还是在一些地方翻了车。

比如在官方展示的图像识别案例上,大伙们发现,Gemini 3 Pro 的颗粒度直接爆杀 GPT 5.2.



也有人吐槽,新模型发了,那老版本估计又要降智了。。。

属于是经典老番了。

最后呢, GPT-5.2 的发布,其实也让咱们看到了一种趋势。

那就是在未来,顶级模型之间的差异,也可能越来越明显,各个都偏那么一点点科。

比如 Gemini 可能在全模态领域一骑绝尘;GPT 在逻辑推理、生产力方面,也依旧走在同行前头;Claude 则在代码能力和写作上,继续遥遥领先。

毕竟在怎么实现AGI这个问题上,大厂们的差异已经凸显。谷歌可能觉得,多模态能感知世界才是未来;OpenAI则信仰极致的逻辑推理和生产力的提升;Anthropic 认为高维度的语义理解和对齐,才能通往 AGI。

反正 AI 大哥位置轮流坐的现状,还在继续,按顺序来,下一个出招的应该是Anthropic 了。



对了,结尾我也想再催催,奥特曼答应好各位哥们的成人模式,到底啥时候上啊?

  • 海外省钱快报,掌柜推荐,实现买买买自由!
查看评论(7)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

爱泼斯坦新照曝光!特朗普被六女围绕
两位华裔工程师,靠一根线成为亿万富豪
民主党人公布新一批相关照片,特朗普、白宫回应
五年飞升三年坠落,燕郊95后的断层人生
“普通男性就能打过张伟丽” 真的?




24小时讨论排行

芬兰选美冠军做眯眯眼手势 因歧视中国人被撤头衔!
“新冠疫苗之父”落马,所有奖励撤销
我实在不知道,明朝有什么好悼念的?
金正恩蹲下拥抱断腿士兵 亲迎赴俄工兵返国
遭美扣押的委内瑞拉油轮正驶往美国休斯敦
跌破7%,中国新生人数再破历史新低
全民考公,是现在最荒诞的事
演遍四大名著的”古典第一美女”何晴去世!年仅61岁
巴黎圣母院新彩窗丑到违法?30万法国人签名起诉
13个孩子遇难的火灾,调查结果“不予公布”?
从外资撤离的补偿方案看“资本主义”真面目
惹怒8万球迷!梅西印度行组织者在机场被逮捕
继装修公司后,台湾一鞋厂被爆中2亿军火标案
拒绝变老!富豪与17岁儿子换血 每年花200万美元
当厨房输给工厂:英国缘何成为“美食荒漠”?
“无法成为嫡系的我们”,在大厂还有活路吗?
文学城新闻
切换到网页版

比DeepSeek贵了400倍,GPT-5.2想钱想疯了?

差评XPIN 2025-12-13 18:27:44

比DeepSeek贵 400 倍,比谷歌的 Gemini 3 Pro 贵将近 10 倍。

OpenAI 本周五发布的 GPT-5.2 ,到底是什么水平?

比DeepSeek贵了400倍,GPT-5.2想钱想疯了?

这么说吧,这家伙或许是最适合打工人的AI,因为它很可能开启了 AI 从人类助手到专家的转变。

首先是在专业知识上,GPT-5.2 有 7 成的把握,能打败正在屏幕前,刷视频的各位行业专家们。

只看跑分的话,这次的 GPT-5.2 在各个维度上,都要比 Gemini 3 Pro 高了那么一点点。

当然,也只高了一点点,不排除OpenAI是对着 Gemini 刷分的可能。



但这次 OpenAI 最在意的,其实是最后的这个 GDPval 测试成绩。

这是他们在今年的925提出了的一个全新测试方式,用来衡量 AI ,能否真的来帮打工人完成工作。



于是他们找了九个领域四十四个行业的专家们过来,结合他们的工作环境来出了一堆题目。

然后来看 AI 能否完成这些专家们的工作。



而结果就是,最新的 GPT-5.2 能在七成的工作上,打平,甚至做的比人类更好。

咱们也简单的体验了一下这个新模型,让 GPT-5.2 去互联网上统计这些 AI 公司发布的所有模型。



然后把这些模型在各个排行榜上刷出来的分数给统计下来,最后按照月份,把这些成绩给做成表格。

结果在整整 14 分钟的思考后。GPT-5.2 成功的帮咱们把这一系列数据收集,结果统计,表格绘制的任务都给完成掉了。



这么个完成度,确实看起来不错。



除此之外,GPT-5.2还能完成一些复杂的表格工作,做出来的表格不但比过去的自己做的表格要美观许多。



而且在各项任务的测试指标上,也有了 9% 左右的提升。

在写代码这块,GPT-5.2 也有了不少的提升,



产生幻觉的概率要比之前降低了 38%

属于是想让大家能用的更加放心了。

我们也简单的测试了一下,但可能是因为有了 Gemini 珠玉在前的缘故,GPT-5.2 给我的感觉,就有那么一些平平无奇了。

让它来写个 Aimlab (练习瞄准的小游戏)

它也确实能写出来,写出来的程序不但能跑,还能调整靶子大小,游戏时长这些基本参数。



这些都没啥毛病,但就是有些太中规中矩了。

审美这块,有点被上个月发布的 Gemini 3 给暴打了。



同样一句话做出来的小游戏,Gemini 已经开始考虑各种时髦的配色了,GPT 还在刷大白墙,做毛坯房。

当然,也有可能是我没有指定 GPT 要做成啥样的缘故。

除了各项工作能力的提升之外,这次 GPT-5.2 还有一个非常有趣的变化。

它变的更能听得懂人话了。

有人在测试的时候发现,让 GPT 写 50 个创意,它就会认认真真的去写 50 个创意,而不是像过去的模型一样,写 10 个点子就开始摆烂。



除此之外,在上下文能力上方面,OpenAI 也补强了一波,在插针实验中,即便是文本长度到了 256K,成功率依旧是接近百分之百。



这相当于几十万字的名著里,你偷偷在几个地方加了点料,骂了我几句,他都能精准找出来。

这对于写代码、搞学术、总结整理文书的打工人、科研狗来说,又是一大增强。

虽然上面的纸面实力这么强,但,还是在一些地方翻了车。

比如在官方展示的图像识别案例上,大伙们发现,Gemini 3 Pro 的颗粒度直接爆杀 GPT 5.2.



也有人吐槽,新模型发了,那老版本估计又要降智了。。。

属于是经典老番了。

最后呢, GPT-5.2 的发布,其实也让咱们看到了一种趋势。

那就是在未来,顶级模型之间的差异,也可能越来越明显,各个都偏那么一点点科。

比如 Gemini 可能在全模态领域一骑绝尘;GPT 在逻辑推理、生产力方面,也依旧走在同行前头;Claude 则在代码能力和写作上,继续遥遥领先。

毕竟在怎么实现AGI这个问题上,大厂们的差异已经凸显。谷歌可能觉得,多模态能感知世界才是未来;OpenAI则信仰极致的逻辑推理和生产力的提升;Anthropic 认为高维度的语义理解和对齐,才能通往 AGI。

反正 AI 大哥位置轮流坐的现状,还在继续,按顺序来,下一个出招的应该是Anthropic 了。



对了,结尾我也想再催催,奥特曼答应好各位哥们的成人模式,到底啥时候上啊?