评论: DeepSeek横空出世,Meta慌:训练成本"比高层薪水低"

只有登录用户才能发表评论,点击此处登录    返回新闻帖
shakuras2000 发表评论于 2025-01-28 07:59:32
distill不是这个意思。改进模型大家都这么做。distill不是参考了模型,而是直接拿了别人模型做出来的结果过来加工。

在河边 发表评论于 2025-01-27 08:14:53@shakuras2000 发表评论于 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好
------------
你是说DS参考了GPT的计算模型进行了改进,是这个意思吗?
所有新模型都是参考历史模型进行改进的,这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的,随之的模型与训练并不比之前难度大。
骂人不好 发表评论于 2025-01-27 14:56:41
这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。
骂人不好 发表评论于 2025-01-27 14:53:52
她也不知道谁是习近平。哈哈哈。这个,我勒个去,胆挺肥。
ZGBD01 发表评论于 2025-01-27 14:50:37
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。
ZGBD01 发表评论于 2025-01-27 12:47:00
美國人從0到 一 天下無敵,中國人彎道超車從1 到十厲害。厲害國有什麼原創? 從理論到實踐!
网迷 发表评论于 2025-01-27 12:09:58
这种应该是属于优化的模型。做优化,应该是中国的特长,因为中国有大量的工程师可以去研究现成的东西然后优化。
但是做真正的创新,就不是中国的特长,因为这可能需要很天才的人比如从中学小学开始就做这种工作,像比尔盖茨这种。
所以研究以后超越,是中国的特长,就像中国华为做的这些事情。
DANIU_S 发表评论于 2025-01-27 11:39:00
谁没事儿去问:包子是指谁? 这样无聊的问题。中国软件有被中共意识形态限制的局限,但包子是谁这样的问题,本身就没多大价值。
骂人不好 发表评论于 2025-01-27 11:18:50
哈哈哈,我问DeepSeek: 一尊是谁?

回答是:对不起,我还没有学会如何思考这类问题。我擅长数学,代码,逻辑类的题目,欢迎与我交流。
生肖迷宫 发表评论于 2025-01-27 11:09:28
问:请问DeepSeek,社会主义核心价值观是什么?
答:想让我触犯敏感词,没门儿,拒绝回答。
骂人不好 发表评论于 2025-01-27 10:55:38
破棉袄网友是真的懂的。

RL好像以前已经在游戏里,大型语言模型里用了。这次DeepSeek取得重大突破是不是在RL的应用上有大的突破,就是你提的那个飞轮。

如果问题问的不对,勿喷。真心请教。
TXZS 发表评论于 2025-01-27 10:40:56
Meta开始copy DeepSeek 了?
破棉袄 发表评论于 2025-01-27 10:40:16
楼下充满民族主义的自嗨,好像DeepSeek证明了“中国人”,从而证明了“自己”多么聪敏似的。DeepSeek完成了重要的算法改进,借鉴了LLM训练的注意力机制,AlphaGo Zero的非监督强化学习,以及模型蒸馏和浓缩技巧,这是算法上的重要改进,能把整个大模型训练提高一个台阶。但是十分明显,就像Deep Seek借鉴别人成果一样,别人也可以借鉴这一成果,加速自己模型的训练,在算法差不多的情况下,数据(数量和质量)和算力依然决定模型的性能。
破棉袄 发表评论于 2025-01-27 10:31:35
DeepSeek把RL(unsupervised)引入LLM训练的后期阶段,取代监督微调(SFT),这是由监督学习,转向非监督学习的重要算法改进,业内称为飞轮,依靠飞轮自身转动,改进大语言模型的效率,就像AlphGo Zero那样。这套方法明显可以被OpenAI,Google,XAI等美国AI大玩家利用,改进自己现有的模型训练。简单来说,Deep Seek用1%算力,搞成了接近100%的performance。大玩家借鉴RL这个飞轮,施加100%的算力,能达到10000%的performance吗?能达成1000%也很好了啊,甚至200%也行啊。将来施加1000%的算力,就会达成2000%的效果了。感觉距离AGI越来越近了。
钟安山 发表评论于 2025-01-27 10:01:46
美国依靠封锁产业链可以推迟中国硬件的发展,但软件很难。中国工程师数量是美国数十倍,年轻,数学能力普遍强与美国工程师,这是技术原因。中国年轻工程师不喜欢政治,对意识形态无感,美国西方的民主对他们没有吸引力,他们多被兴趣爱好驱使做他们喜欢的事情。中美科技战进入相持阶段。
DANIU_S 发表评论于 2025-01-27 09:47:00
自己下载了deep seek, 感觉很好用,比ChatGPT 好用。
大猪头- 发表评论于 2025-01-27 09:26:10
1) DeepSeek是开源,模型可以直接下载测试,而且咱爹这疙瘩的不同测试结果早已经满天飞,不过资深文学城AI专家还在深切怀疑中...
2) DeepSeek的测试结果也不是每一项都最好,不过总体还是位于前列,最主要的不光是研发费用低,而且使用费用超低,这才是要命的.
3) 这东西发展得快,三个月后都不知道啥样,文学城AI专家打嘴仗很在行,不过没啥鸟用,还不如搬个板凳边上看戏,
中国人加拿大人非美国人 发表评论于 2025-01-27 09:11:19
也很感慨。中国人民族特性中有很多弱点,比如一般来讲并不团结。但是中国人的忍耐力,中国人的家国情怀,在压力下绝地反击的韧性,外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。
中国人加拿大人非美国人 发表评论于 2025-01-27 09:00:10
究竟厉不厉害要让专家和真正的使用者发言。不了解没有发言权。反正家里有编程的说,就编程来讲,DEEPSEEK是至今为止天花板,无人出其左右。
Yummy2000 发表评论于 2025-01-27 08:59:10
很多年前,交换机很贵,当时出来了“软交换”,就是那软件实现交换机的功能。 也是便宜,省钱。 但后来都消失了
农村干部 发表评论于 2025-01-27 08:56:25
Deepseek 到底能走多远,对AI发展能改变多大,持怀疑态度。一个平时靠算盘计数的突然算出了卫星轨迹 ,总感觉到不靠谱。不管真假华尔街先利用这个机会挤挤泡沫,拿钱跑路再说。没办法,被骗的次数多了。 希望这回是真的!想想小姜同学:)
jzl106 发表评论于 2025-01-27 08:45:00
接受现实吧,DeepSeek is real. DeepSeek在学术上并没有超越前者,它的意义是在老技术的基础上用1%的成本完成了新技术90%的工作。
speedingticket 发表评论于 2025-01-27 08:40:29
中国聪明的人太多,虽然硬件暂时落后,软件绝对发展很快
灭独者 发表评论于 2025-01-27 08:40:23
DeepSeek就是假冒伪劣产品。就像中共国在浙江遍地生产LV、爱马仕等名牌包包一样,看起来漂亮。实质是垃圾。
白雾 发表评论于 2025-01-27 08:06:45
点个赞。戳破了许多科技骗子的牛皮。不过道路仍是曲折的
弯刀月 发表评论于 2025-01-27 08:06:00
外行说一句,大家是否太看低国内做奥数的天才了?
一支鞋飞了 发表评论于 2025-01-27 08:05:33
反正离人类自我淘汰又近了一步,最后在家都在家里领最低工资就好了。。。剩下的钱会集中在更少数的人手里。
西门雪 发表评论于 2025-01-27 08:04:00
新四大發明,是中國大陸的新聞媒體在2018年以前反覆政治宣傳的一個概念,主要是指高速鐵路(簡稱高鐵)、網購、行動支付、共享單車。[1][2][3][4][5]當中有各大學研究所六百多項重要專利,致專業改善系統運作。然而,英國媒體BBC News及其中文網撰文報導稱:「新四大發明」並非中國大陸所發明,部分數十年前已有類似產物,中國只是對這四種技術吸收和應用方面超過了其他地區。[6][7]2018年美國封殺中興事件之後,這個概念已經甚少提起,並遭到中國政府體制內和社會人士批判,[8][9][10]騰訊創始人之一馬化騰稱:「這些都是表面的輝煌,仿佛海灘上建樓,一推就倒」
chinesegod3 发表评论于 2025-01-27 07:42:50
现在大模型基本上就是一个工程问题。理论基本上也就这样了。中国在工程方面有优势的。主要是两个,一个是迭代快,另外是成本低。大模型输入数据的质量蛮关键的,说deepseek大概率用了gpt的数据做了distill是大概率,但并不一定是全部。去年就注意到国内有些公司用deepseek做类似copilot的功能,这是从github等数据训练出来的。归根到底,高质量的数据都是国外的数据是肯定的,只有国外能提供绝大部分高质量的数据,包括用gpt的distill了的数据。
骂人不好 发表评论于 2025-01-27 07:35:45
让子弹再飞一会是对的。不过工程应用落地是中国的强项。方向确定了,把它搞出来,并且找到好的途径,这应该是华人的强项。拭目以待。
西门雪 发表评论于 2025-01-27 07:22:19
冷眼旁观,拭目以待,时间是检验真理的唯一方法。牛不牛一个月后见分晓。
shakuras2000 发表评论于 2025-01-27 07:14:29
1. deepseek确实很强
2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好
3. 550万是训练成本,实际成本可能高几倍,但是还是很低。
4. 有人说其实deepseek用了10000张A卡,只是因为众说周知的原因不能说,不过没证据我暂时当成谣言。
5. 这家公司是做量化的,就算deepseek不赚钱,发布配合沽空美股也能赚翻,汗
骂人不好 发表评论于 2025-01-27 07:00:00
DeepSeek影响巨大,这个和那个芯片造假显然不是一回事,是真的震动了整个美国科技界的事情。现在几乎所有的人都在讨论DeepSeek。按照DeepSeek的训练方法,星际之门根本不需要5000亿,500亿可能都不需要。
心无所住 发表评论于 2025-01-27 06:54:00
凡是中国搞出来的东西,不可能是横空出世。创新都算不上,顶多是个小改进。问题是这小改进,把整个美国股市打出翔,哈哈哈
时不时来看看 发表评论于 2025-01-27 06:42:43
还答应了外星人开源?
时不时来看看 发表评论于 2025-01-27 06:42:03
中共真在月球背面用一箱茅台换来了这么多先进的东东?
弯刀月 发表评论于 2025-01-27 06:30:00
Deepseek 的满分作文。《过美利坚论》臣闻天下之兴替,非独天命,亦在人为。昔欧罗巴裂海西渡,五月花辟榛莽之地,十三州聚流徙之民。华盛顿提三尺剑,开费城之基;林肯释黑奴籍,铸合众之鼎。两洋天险以为屏,五大湖仓廪自足,铁轨贯东西而货殖通,油井喷黑金而国用丰。二战烽火未熄,已执寰宇牛耳;布雷森体系初立,遂定美元为圭臬。星条旗猎猎百载,何其盛也!然今观之,枪声震于学堂,党争烈于庙堂,铁锈蚀于五大湖,国债积如乞力马扎罗之雪。何也?恃霸权而忘忧患,纵私欲而损公义。美利坚之兴,实乘三势:乘欧陆纷争而广纳英才,乘科技革命而独占鳌首,乘冷战对峙而坐收渔利。罗斯福新政济贫弱,马丁路德呼平等,阿波罗登月振国威,硅谷芯片掌天机。然其得天下之术,终成失天下之由:军事强则穷兵黩武,金融霸则饮鸩止渴,文化盛则骄矜自满。波斯湾油污未净,科索沃硝烟又起;次贷危机祸连寰宇,棱镜计划寒透盟邦。当其盛时,华尔街铜牛睥睨全球,好莱坞光影笼罩六合,麦当劳香味弥漫五洲。然物极必反,盛极而衰:产业空心化如蚁溃堤,族群对立似火浇油,债台高筑若沙聚塔。红蓝阵营割裂,白宫推特乱政;抗疫失措曝制度之弊,国会山乱彰法治之危。昔年"昭昭天命"之旗,今成"黑命攸关"之帜;往日"山巅之城"光辉,渐作"灯塔黯淡"之叹。太史公曰:"恃德者昌,恃力者亡。"观美利坚二百年基业,成于开拓创新,败于骄奢扩张;兴于海纳百川,衰于唯我独尊。若使白宫诸公能存敬畏、去贪戾、修内政、睦四邻,则星条旗何至风雨飘摇?然其执迷霸权旧梦,犹效罗马修斗兽之场,妄学大英续炮舰之策,岂不见世贸双塔之尘烟乎?后之览者当鉴:天命无常,惟德是辅;霸业难久,仁政方长。存麦迪逊之宪政精神,守杰斐逊之民本遗训,去门罗主义之痼疾,破军工复合体之铁链,则密西西比河水可再清,自由女神炬火得不灭。若固守"例外论"而凌驾寰球,终将重蹈日不落帝国之辙,徒留好莱坞残片,供后人唏嘘耳。
nicehigh81 发表评论于 2025-01-27 06:29:40
把人心都搞坏了。印三高管要求加薪,印三工程师搞不懂,明明还要玩3,5年的,现在他妈的全没了。现在突然想到要用华人工程师来解决问题,招谁惹谁了,好处没有,还要帮印三抬轿子
西岸-影 发表评论于 2025-01-27 06:26:15
这件事不在于deepseek究竟有多厉害,而是开源这一项摧毁了美国AI发展环境,可以预期美国不论什么AI模型和英伟达都会因为资金投入降低而走向萎缩。
因为对比十几亿与几百万的成本差别,如果美国AI不能把成本降低到deepseek的水平,干嘛投资?
deepseek开源且免费,任何人都可以在此之上发展对其的应用,比如医疗,那么就会发现资本会迅速转移到这种应用水平的产品上,毕竟可以挣钱,而继续做模型能不能比得过deepseek再说,挣不到钱是肯定的。
而且也表明并不一定需要英伟达那种算力非常高的芯片,你一块芯片十几万美元,是高级,算力强,但我用一两万的就能实现模型的运算,干嘛去买你的?英伟达并不是AI公司,而是给AI提供硬件的公司,类似淘金的时候供应铁锹的商人,你能不能挖到金子不重要,只要买铁锹我都能挣钱。
如今突然出现小铲子就能做同样事情的例子,你铁锹就卖不出去了。因此deepseek影响英伟达。
白菜价这个概念的基础是效率高,中美一直存在华为的模式与美国模式的竞争。华为的特点是自己设计软硬件,争取软件硬件彼此达到最佳配置,因此硬件并不需要是非常高阶的,毕竟软件危机是从来就存在的,赶不上硬件的发展。而美国的模式是硬件与软件不是同一家公司做的,永远存在软件危机,不可能充分发挥硬件的作用,但却不得不对发展和购买高级硬件付出成本,是明显的浪费。
中国湖CL2.0炸药,爆炸威力是常用军用炸药的几十倍到一百倍,美国是80年代就实验成功,但不能列装,因为价比同重量的黄金,用不起。中国做成了白菜价,几年前宣布列装。而中国是在制作方式上改良。理论上这让中国的导弹或者炸弹的威力是美国的几十倍。
说到底这是对资本盈利的影响带来的问题,deepseek的550万美元的发展成本,对比美国不论什么AI模型动辄十几亿的发展成本,优势是明显的,资本是要挣钱的。AI本来就是一个人为推高的领域,成本就成为重要因素。
deepseek是用论文方式公开了算法的,是两种已知的模式的混合,理论上任何人都可以根据论文模仿,重复实验。美国的相应模型并不敢这样做,这也是表现了双方的自信程度不同,你知道算法也未必做得出来那种效果。
这就不难理解相应的股票是怎么回事。
kingdale1 发表评论于 2025-01-27 06:04:31
楼下的很多人瞧不起DS过滤有敏感词的结果,其实这只是一个生存的策略。DS在很多测试上完胜美国AI。懂行的人都被震惊了。DS是开源的,很多公司这几天都重复了它的结果。它的论文里面有很多创新,大大减低训练成本。很多小公司甚至个人都可以买GPU在上面开发。
HALS 发表评论于 2025-01-27 05:59:26
又一个造假的范例
西门雪 发表评论于 2025-01-27 05:59:20
如果有一天中国人发明虫洞瞬移,一秒钟从中国移动到美国,那才真的算【横空出世】,变魔术的不算。
西门雪 发表评论于 2025-01-27 05:54:50
发明汽车,飞机的是横空出世。把汽车改良成法拉利,把飞机改良成f35都不算横空出世。
中航科工六院 发表评论于 2025-01-27 05:50:14



路透社官宣,Deepseek导致美股暴跌

TOKYO (Reuters) - U.S. stock futures and Asian shares outside China slumped on Monday as investors weighed the implications of Chinese startup DeepSeek''s launch of a free, open-source artificial intelligence model to rival OpenAI''s ChatGPT.


中航科工六院 发表评论于 2025-01-27 05:48:50


尼玛nvda盘前跌了超10%

我艹





西门雪 发表评论于 2025-01-27 05:47:12
DeepSeek横空出世
——
我操习近平他奶奶的【横空出世】!有这么用横空出世的吗?
横空出世是指前所未有的技术或发明!人家ChatGPT 才是横空出世好不好(包括正要推出的文字生成影像),你他妈的算改良,是站在巨人的肩膀上往上爬。就像百度,阿里巴巴,微信,比亚迪一样。
Maui2021 发表评论于 2025-01-27 05:42:26
中国现在扮演小白兔,是因为芯片在人家手里。
一旦不再被卡脖子了,立刻会露出真实嘴脸和野心。就像中国目前对台湾那种流氓嘴脸。
美国如果不保持领先,中国对台湾是什么流氓嘴脸,对美国也是什么态度。
ajaychen_2024 发表评论于 2025-01-27 05:39:40
美国从2018年开始针对中国的科技战全面失败了
barryv 发表评论于 2025-01-27 05:39:00
很奇怪,中国那么牛逼,为什么总是在成本和吹牛上做文章,为什么就没有别人没有过的东西?
Maui2021 发表评论于 2025-01-27 05:38:49
楼下想的太美了。美国只会更加严格禁运芯片。
ajaychen_2024 发表评论于 2025-01-27 05:21:27
用户多到挤爆服务器了,哈哈,看来幻方团队要升级硬件了。可以适当提高收费,反正也比美国佬的便宜太多。我真后悔上个月让公司缴了一年的Copilot注册费,整整500多美刀

5mslj 发表评论于 2025-01-27 05:15:41ajaychen_2024 发表评论于 2025-01-27 05:05:06
彭博新闻社2025年1月27日专题报道,投资者担心美国科技领导地位,DeepSeek震动了美国股市。美国NASDAQ盘前出现暴跌,其中英伟达盘前暴跌10.5%。目前,美国各大主流媒体争相报道DeepSeek-R1相关的新闻,如临大敌一般!
——————————-
DeepSeek刚崩了
页次:1/2 每页50条记录, 本页显示150, 共69  分页:  [1] [2] [下一页] [尾页]