评论:DeepSeek横空出世,Meta慌:训练成本"比高层薪水低"

shakuras2000 发表评论于 2025-01-28 07:59:32

distill不是这个意思。改进模型大家都这么做。distill不是参考了模型，而是直接拿了别人模型做出来的结果过来加工。

在河边发表评论于 2025-01-27 08:14:53@shakuras2000 发表评论于 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的数据做了distill，所以脱离了更好的模型，deepseek可能做不到这么好
------------
你是说DS参考了GPT的计算模型进行了改进，是这个意思吗？
所有新模型都是参考历史模型进行改进的，这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的，随之的模型与训练并不比之前难度大。

骂人不好 发表评论于 2025-01-27 14:56:41

这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。

骂人不好 发表评论于 2025-01-27 14:53:52

她也不知道谁是习近平。哈哈哈。这个，我勒个去，胆挺肥。

ZGBD01 发表评论于 2025-01-27 14:50:37

DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。

ZGBD01 发表评论于 2025-01-27 12:47:00

美國人從0到一天下無敵，中國人彎道超車從1 到十厲害。厲害國有什麼原創？從理論到實踐！

网迷发表评论于 2025-01-27 12:09:58

这种应该是属于优化的模型。做优化，应该是中国的特长，因为中国有大量的工程师可以去研究现成的东西然后优化。
但是做真正的创新，就不是中国的特长，因为这可能需要很天才的人比如从中学小学开始就做这种工作，像比尔盖茨这种。
所以研究以后超越，是中国的特长，就像中国华为做的这些事情。

DANIU_S 发表评论于 2025-01-27 11:39:00

谁没事儿去问：包子是指谁？这样无聊的问题。中国软件有被中共意识形态限制的局限，但包子是谁这样的问题，本身就没多大价值。

骂人不好 发表评论于 2025-01-27 11:18:50

哈哈哈，我问DeepSeek: 一尊是谁？

回答是：对不起，我还没有学会如何思考这类问题。我擅长数学，代码，逻辑类的题目，欢迎与我交流。

生肖迷宫 发表评论于 2025-01-27 11:09:28

问：请问DeepSeek，社会主义核心价值观是什么？
答：想让我触犯敏感词，没门儿，拒绝回答。

骂人不好 发表评论于 2025-01-27 10:55:38

破棉袄网友是真的懂的。

RL好像以前已经在游戏里，大型语言模型里用了。这次DeepSeek取得重大突破是不是在RL的应用上有大的突破，就是你提的那个飞轮。

如果问题问的不对，勿喷。真心请教。

TXZS 发表评论于 2025-01-27 10:40:56

Meta开始copy DeepSeek 了？

破棉袄 发表评论于 2025-01-27 10:40:16

楼下充满民族主义的自嗨，好像DeepSeek证明了“中国人”，从而证明了“自己”多么聪敏似的。DeepSeek完成了重要的算法改进，借鉴了LLM训练的注意力机制，AlphaGo Zero的非监督强化学习，以及模型蒸馏和浓缩技巧，这是算法上的重要改进，能把整个大模型训练提高一个台阶。但是十分明显，就像Deep Seek借鉴别人成果一样，别人也可以借鉴这一成果，加速自己模型的训练，在算法差不多的情况下，数据（数量和质量）和算力依然决定模型的性能。

破棉袄 发表评论于 2025-01-27 10:31:35

DeepSeek把RL（unsupervised）引入LLM训练的后期阶段，取代监督微调（SFT），这是由监督学习，转向非监督学习的重要算法改进，业内称为飞轮，依靠飞轮自身转动，改进大语言模型的效率，就像AlphGo Zero那样。这套方法明显可以被OpenAI，Google，XAI等美国AI大玩家利用，改进自己现有的模型训练。简单来说，Deep Seek用1%算力，搞成了接近100%的performance。大玩家借鉴RL这个飞轮，施加100%的算力，能达到10000%的performance吗？能达成1000%也很好了啊，甚至200%也行啊。将来施加1000%的算力，就会达成2000%的效果了。感觉距离AGI越来越近了。

钟安山 发表评论于 2025-01-27 10:01:46

美国依靠封锁产业链可以推迟中国硬件的发展，但软件很难。中国工程师数量是美国数十倍，年轻，数学能力普遍强与美国工程师，这是技术原因。中国年轻工程师不喜欢政治，对意识形态无感，美国西方的民主对他们没有吸引力，他们多被兴趣爱好驱使做他们喜欢的事情。中美科技战进入相持阶段。

DANIU_S 发表评论于 2025-01-27 09:47:00

自己下载了deep seek, 感觉很好用，比ChatGPT 好用。

大猪头- 发表评论于 2025-01-27 09:26:10

1) DeepSeek是开源,模型可以直接下载测试,而且咱爹这疙瘩的不同测试结果早已经满天飞,不过资深文学城AI专家还在深切怀疑中...
2) DeepSeek的测试结果也不是每一项都最好,不过总体还是位于前列,最主要的不光是研发费用低,而且使用费用超低,这才是要命的.
3) 这东西发展得快,三个月后都不知道啥样,文学城AI专家打嘴仗很在行,不过没啥鸟用,还不如搬个板凳边上看戏,

中国人加拿大人非美国人 发表评论于 2025-01-27 09:11:19

也很感慨。中国人民族特性中有很多弱点，比如一般来讲并不团结。但是中国人的忍耐力，中国人的家国情怀，在压力下绝地反击的韧性，外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。

中国人加拿大人非美国人 发表评论于 2025-01-27 09:00:10

究竟厉不厉害要让专家和真正的使用者发言。不了解没有发言权。反正家里有编程的说，就编程来讲，DEEPSEEK是至今为止天花板，无人出其左右。

Yummy2000 发表评论于 2025-01-27 08:59:10

很多年前，交换机很贵，当时出来了“软交换”，就是那软件实现交换机的功能。也是便宜，省钱。但后来都消失了

农村干部 发表评论于 2025-01-27 08:56:25

Deepseek 到底能走多远，对AI发展能改变多大，持怀疑态度。一个平时靠算盘计数的突然算出了卫星轨迹，总感觉到不靠谱。不管真假华尔街先利用这个机会挤挤泡沫，拿钱跑路再说。没办法，被骗的次数多了。希望这回是真的！想想小姜同学：）

jzl106 发表评论于 2025-01-27 08:45:00

接受现实吧，DeepSeek is real. DeepSeek在学术上并没有超越前者，它的意义是在老技术的基础上用1%的成本完成了新技术90%的工作。

speedingticket 发表评论于 2025-01-27 08:40:29

中国聪明的人太多，虽然硬件暂时落后，软件绝对发展很快

灭独者 发表评论于 2025-01-27 08:40:23

DeepSeek就是假冒伪劣产品。就像中共国在浙江遍地生产LV、爱马仕等名牌包包一样，看起来漂亮。实质是垃圾。

白雾发表评论于 2025-01-27 08:06:45

点个赞。戳破了许多科技骗子的牛皮。不过道路仍是曲折的

弯刀月 发表评论于 2025-01-27 08:06:00

外行说一句，大家是否太看低国内做奥数的天才了？

一支鞋飞了 发表评论于 2025-01-27 08:05:33

反正离人类自我淘汰又近了一步，最后在家都在家里领最低工资就好了。。。剩下的钱会集中在更少数的人手里。

西门雪 发表评论于 2025-01-27 08:04:00

新四大發明，是中國大陸的新聞媒體在2018年以前反覆政治宣傳的一個概念，主要是指高速鐵路（簡稱高鐵）、網購、行動支付、共享單車。[1][2][3][4][5]當中有各大學研究所六百多項重要專利，致專業改善系統運作。然而，英國媒體BBC News及其中文網撰文報導稱：「新四大發明」並非中國大陸所發明，部分數十年前已有類似產物，中國只是對這四種技術吸收和應用方面超過了其他地區。[6][7]2018年美國封殺中興事件之後，這個概念已經甚少提起，並遭到中國政府體制內和社會人士批判，[8][9][10]騰訊創始人之一馬化騰稱：「這些都是表面的輝煌，仿佛海灘上建樓，一推就倒」

chinesegod3 发表评论于 2025-01-27 07:42:50

现在大模型基本上就是一个工程问题。理论基本上也就这样了。中国在工程方面有优势的。主要是两个，一个是迭代快，另外是成本低。大模型输入数据的质量蛮关键的，说deepseek大概率用了gpt的数据做了distill是大概率，但并不一定是全部。去年就注意到国内有些公司用deepseek做类似copilot的功能，这是从github等数据训练出来的。归根到底，高质量的数据都是国外的数据是肯定的，只有国外能提供绝大部分高质量的数据，包括用gpt的distill了的数据。

骂人不好 发表评论于 2025-01-27 07:35:45

让子弹再飞一会是对的。不过工程应用落地是中国的强项。方向确定了，把它搞出来，并且找到好的途径，这应该是华人的强项。拭目以待。

西门雪 发表评论于 2025-01-27 07:22:19

冷眼旁观，拭目以待，时间是检验真理的唯一方法。牛不牛一个月后见分晓。

shakuras2000 发表评论于 2025-01-27 07:14:29

1. deepseek确实很强
2. deepseek大概率用了gpt的数据做了distill，所以脱离了更好的模型，deepseek可能做不到这么好
3. 550万是训练成本，实际成本可能高几倍，但是还是很低。
4. 有人说其实deepseek用了10000张A卡，只是因为众说周知的原因不能说，不过没证据我暂时当成谣言。
5. 这家公司是做量化的，就算deepseek不赚钱，发布配合沽空美股也能赚翻，汗

骂人不好 发表评论于 2025-01-27 07:00:00

DeepSeek影响巨大，这个和那个芯片造假显然不是一回事，是真的震动了整个美国科技界的事情。现在几乎所有的人都在讨论DeepSeek。按照DeepSeek的训练方法，星际之门根本不需要5000亿，500亿可能都不需要。

心无所住 发表评论于 2025-01-27 06:54:00

凡是中国搞出来的东西，不可能是横空出世。创新都算不上，顶多是个小改进。问题是这小改进，把整个美国股市打出翔，哈哈哈

时不时来看看 发表评论于 2025-01-27 06:42:43

还答应了外星人开源？

时不时来看看 发表评论于 2025-01-27 06:42:03

中共真在月球背面用一箱茅台换来了这么多先进的东东？

弯刀月 发表评论于 2025-01-27 06:30:00

Deepseek 的满分作文。《过美利坚论》臣闻天下之兴替，非独天命，亦在人为。昔欧罗巴裂海西渡，五月花辟榛莽之地，十三州聚流徙之民。华盛顿提三尺剑，开费城之基；林肯释黑奴籍，铸合众之鼎。两洋天险以为屏，五大湖仓廪自足，铁轨贯东西而货殖通，油井喷黑金而国用丰。二战烽火未熄，已执寰宇牛耳；布雷森体系初立，遂定美元为圭臬。星条旗猎猎百载，何其盛也！然今观之，枪声震于学堂，党争烈于庙堂，铁锈蚀于五大湖，国债积如乞力马扎罗之雪。何也？恃霸权而忘忧患，纵私欲而损公义。美利坚之兴，实乘三势：乘欧陆纷争而广纳英才，乘科技革命而独占鳌首，乘冷战对峙而坐收渔利。罗斯福新政济贫弱，马丁路德呼平等，阿波罗登月振国威，硅谷芯片掌天机。然其得天下之术，终成失天下之由：军事强则穷兵黩武，金融霸则饮鸩止渴，文化盛则骄矜自满。波斯湾油污未净，科索沃硝烟又起；次贷危机祸连寰宇，棱镜计划寒透盟邦。当其盛时，华尔街铜牛睥睨全球，好莱坞光影笼罩六合，麦当劳香味弥漫五洲。然物极必反，盛极而衰：产业空心化如蚁溃堤，族群对立似火浇油，债台高筑若沙聚塔。红蓝阵营割裂，白宫推特乱政；抗疫失措曝制度之弊，国会山乱彰法治之危。昔年"昭昭天命"之旗，今成"黑命攸关"之帜；往日"山巅之城"光辉，渐作"灯塔黯淡"之叹。太史公曰："恃德者昌，恃力者亡。"观美利坚二百年基业，成于开拓创新，败于骄奢扩张；兴于海纳百川，衰于唯我独尊。若使白宫诸公能存敬畏、去贪戾、修内政、睦四邻，则星条旗何至风雨飘摇？然其执迷霸权旧梦，犹效罗马修斗兽之场，妄学大英续炮舰之策，岂不见世贸双塔之尘烟乎？后之览者当鉴：天命无常，惟德是辅；霸业难久，仁政方长。存麦迪逊之宪政精神，守杰斐逊之民本遗训，去门罗主义之痼疾，破军工复合体之铁链，则密西西比河水可再清，自由女神炬火得不灭。若固守"例外论"而凌驾寰球，终将重蹈日不落帝国之辙，徒留好莱坞残片，供后人唏嘘耳。

nicehigh81 发表评论于 2025-01-27 06:29:40

把人心都搞坏了。印三高管要求加薪，印三工程师搞不懂，明明还要玩3，5年的，现在他妈的全没了。现在突然想到要用华人工程师来解决问题，招谁惹谁了，好处没有，还要帮印三抬轿子

西岸-影 发表评论于 2025-01-27 06:26:15

这件事不在于deepseek究竟有多厉害，而是开源这一项摧毁了美国AI发展环境，可以预期美国不论什么AI模型和英伟达都会因为资金投入降低而走向萎缩。
因为对比十几亿与几百万的成本差别，如果美国AI不能把成本降低到deepseek的水平，干嘛投资？
deepseek开源且免费，任何人都可以在此之上发展对其的应用，比如医疗，那么就会发现资本会迅速转移到这种应用水平的产品上，毕竟可以挣钱，而继续做模型能不能比得过deepseek再说，挣不到钱是肯定的。
而且也表明并不一定需要英伟达那种算力非常高的芯片，你一块芯片十几万美元，是高级，算力强，但我用一两万的就能实现模型的运算，干嘛去买你的？英伟达并不是AI公司，而是给AI提供硬件的公司，类似淘金的时候供应铁锹的商人，你能不能挖到金子不重要，只要买铁锹我都能挣钱。
如今突然出现小铲子就能做同样事情的例子，你铁锹就卖不出去了。因此deepseek影响英伟达。
白菜价这个概念的基础是效率高，中美一直存在华为的模式与美国模式的竞争。华为的特点是自己设计软硬件，争取软件硬件彼此达到最佳配置，因此硬件并不需要是非常高阶的，毕竟软件危机是从来就存在的，赶不上硬件的发展。而美国的模式是硬件与软件不是同一家公司做的，永远存在软件危机，不可能充分发挥硬件的作用，但却不得不对发展和购买高级硬件付出成本，是明显的浪费。
中国湖CL2.0炸药，爆炸威力是常用军用炸药的几十倍到一百倍，美国是80年代就实验成功，但不能列装，因为价比同重量的黄金，用不起。中国做成了白菜价，几年前宣布列装。而中国是在制作方式上改良。理论上这让中国的导弹或者炸弹的威力是美国的几十倍。
说到底这是对资本盈利的影响带来的问题，deepseek的550万美元的发展成本，对比美国不论什么AI模型动辄十几亿的发展成本，优势是明显的，资本是要挣钱的。AI本来就是一个人为推高的领域，成本就成为重要因素。
deepseek是用论文方式公开了算法的，是两种已知的模式的混合，理论上任何人都可以根据论文模仿，重复实验。美国的相应模型并不敢这样做，这也是表现了双方的自信程度不同，你知道算法也未必做得出来那种效果。
这就不难理解相应的股票是怎么回事。

kingdale1 发表评论于 2025-01-27 06:04:31

楼下的很多人瞧不起DS过滤有敏感词的结果，其实这只是一个生存的策略。DS在很多测试上完胜美国AI。懂行的人都被震惊了。DS是开源的，很多公司这几天都重复了它的结果。它的论文里面有很多创新，大大减低训练成本。很多小公司甚至个人都可以买GPU在上面开发。

HALS 发表评论于 2025-01-27 05:59:26

又一个造假的范例

西门雪 发表评论于 2025-01-27 05:59:20

如果有一天中国人发明虫洞瞬移，一秒钟从中国移动到美国，那才真的算【横空出世】，变魔术的不算。

西门雪 发表评论于 2025-01-27 05:54:50

发明汽车，飞机的是横空出世。把汽车改良成法拉利，把飞机改良成f35都不算横空出世。

中航科工六院 发表评论于 2025-01-27 05:50:14

路透社官宣，Deepseek导致美股暴跌

TOKYO (Reuters) - U.S. stock futures and Asian shares outside China slumped on Monday as investors weighed the implications of Chinese startup DeepSeek''s launch of a free, open-source artificial intelligence model to rival OpenAI''s ChatGPT.

中航科工六院 发表评论于 2025-01-27 05:48:50

尼玛nvda盘前跌了超10%

我艹

西门雪 发表评论于 2025-01-27 05:47:12

DeepSeek横空出世
——
我操习近平他奶奶的【横空出世】！有这么用横空出世的吗？
横空出世是指前所未有的技术或发明！人家ChatGPT 才是横空出世好不好（包括正要推出的文字生成影像），你他妈的算改良，是站在巨人的肩膀上往上爬。就像百度，阿里巴巴，微信，比亚迪一样。

Maui2021 发表评论于 2025-01-27 05:42:26

中国现在扮演小白兔，是因为芯片在人家手里。
一旦不再被卡脖子了，立刻会露出真实嘴脸和野心。就像中国目前对台湾那种流氓嘴脸。
美国如果不保持领先，中国对台湾是什么流氓嘴脸，对美国也是什么态度。

ajaychen_2024 发表评论于 2025-01-27 05:39:40

美国从2018年开始针对中国的科技战全面失败了

barryv 发表评论于 2025-01-27 05:39:00

很奇怪，中国那么牛逼，为什么总是在成本和吹牛上做文章，为什么就没有别人没有过的东西？

Maui2021 发表评论于 2025-01-27 05:38:49

楼下想的太美了。美国只会更加严格禁运芯片。

ajaychen_2024 发表评论于 2025-01-27 05:21:27

用户多到挤爆服务器了，哈哈，看来幻方团队要升级硬件了。可以适当提高收费，反正也比美国佬的便宜太多。我真后悔上个月让公司缴了一年的Copilot注册费，整整500多美刀

5mslj 发表评论于 2025-01-27 05:15:41ajaychen_2024 发表评论于 2025-01-27 05:05:06
彭博新闻社2025年1月27日专题报道，投资者担心美国科技领导地位，DeepSeek震动了美国股市。美国NASDAQ盘前出现暴跌，其中英伟达盘前暴跌10.5%。目前，美国各大主流媒体争相报道DeepSeek-R1相关的新闻，如临大敌一般！
——————————-
DeepSeek刚崩了

评论: DeepSeek横空出世,Meta慌:训练成本"比高层薪水低"