胡思乱想录二十七 - Deepseek解读

金湾居士 (2025-01-29 16:08:10) 评论 (3)

      春节期间被Deepseek霸屏了, 每一块液晶屏上都是国产AI的劲爆新闻,媒体挣流量的本质体现的淋漓尽致,可能对皮衣黄早有不满的华尔街更是趁火打劫,NVDA跳水16%,对AI股大有要开类似本世纪初互联网泡沫崩塌的第一枪的架势。国内更是吹上了天, 将其上升到国运级别,国人终于可以在AI竞赛中扬眉吐气了一把。

     于是尝试读了一下deepseek的论文,并没有基础架构的创新(仍基于transformer),但在微架构上的尝试和创新的确值得赞誉(MLA,不用SFT等),在没有算力支撑的情况下,看得出来他们花了很多力气尝试达到四两拨千斤的效果,结果非常reasonable。

    deepseek的训练是否真的只花了5百万美金是个问号, 本人想起若干年前在某初创公司花费三个多月做个了个DSP仿真器,因此对该架构了如指掌,后续公司新买了个EDA计工具,由于对要做什么非常清楚,用那个工具一周完成了一个和自己从零做的同样仿真器, 于是成了该EDA公司的成功案例模版,在外面到处吹其客户一周完成DSP仿真器设计,显然没有前面那三个月,何来那一周?有报道称deepseek的母公司几年前就聚集了万张显卡做machine learning(用于量化炒股),没有那些积累,估计也不会有什么五百万美金训练处frontier模型的神话。

  deepseek用到的trick,openai或anthropic他们是不懂怎么做吗?我认为也未必,只是如果如Altman所言, Scaling Law还远未结束,他们认为这是触手可得的成果和路径,所谓low hanging fruit,又没什么芯片管制,于是资源都朝着堆算力方向投去。今天看到Mark Chen的推,言下之意,deepseek的部分算法和openai是不谋而合,说明openai内部也许已经知道训练的成本可以降下来,但作为AI标杆初创,降本显然不是他们需要吹嘘的。 至于 deepseek的模型是否有缺陷呢?其实都不知道,还是让子弹飞一会儿最佳。