一家人工智能初創(chuàng)企業(yè)淺淺扇動兩下翅膀,,即掀起全球科技界的一陣“海嘯”,。
短短30天,,中國初創(chuàng)企業(yè)深度求索(DeepSeek)先后發(fā)布兩款性能比肩GPT-4o的大模型,,“1/18的訓(xùn)練成本,、1/10的團隊規(guī)模、不分伯仲的模型性能”令硅谷大受震撼,。
最新一期《經(jīng)濟學(xué)人》封面文章第一時間讓位給這一土生土長的國產(chǎn)大模型:《低成本中國模型的成功動搖美國科技優(yōu)勢》,。很快,華爾街也同樣感受到了這種被動搖的震感,。
事實上,,這匹黑馬的貢獻絕非“低成本”這一個標(biāo)簽所能概括,。它不僅重新定義了大模型的生產(chǎn)函數(shù),還將重新定義計算,。
不論開源與閉源未來的優(yōu)勢如何,,這股沖擊波都將迫使全球科技界重新思考:當(dāng)“規(guī)模定律”與“生態(tài)壁壘”不再絕對,什么才是下一賽季AI競爭的核心,?或許我們能從中獲得新的啟示,。
擊穿三大定式
1月下旬,DeepSeek在中區(qū),、美區(qū)蘋果App Store下載榜單中登頂,,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發(fā)的模型產(chǎn)品,。具體而言,,它顛覆了什么?
——打破“越強越貴”的成本詛咒
價格感人是讓DeepSeek快速出圈的第一個標(biāo)簽,。DeepSeek-R1的API服務(wù)定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),,每百萬輸出tokens 16元,而o1模型上述三項服務(wù)的定價分別是55元,、110元,、438元。
凡是使用過幾款大模型的用戶很快就能形成這樣一個共識:就推理能力而言,,DeepSeek直逼OpenAI的o1,、Meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路,。AI投資機構(gòu)Menlo Ventures負責(zé)人Deedy對比谷歌Gemini和DeepSeek-R1后表示,,DeepSeek-R1更便宜、上下文更長,、推理性能更佳,。低成本比肩o1模型,令硅谷的“燒錢模式”一時間遭到猛烈質(zhì)疑,。
然而在過去,,大模型服務(wù)是標(biāo)準(zhǔn)的“一分錢一分貨”,想要用上更優(yōu)性能的產(chǎn)品必須支付更高昂的費用,,以覆蓋整個模型訓(xùn)練過程中更高算力成本的支出,。
——超越“性能-成本-速度”的不可能三角
當(dāng)硅谷仍在為GPU萬卡集群豪擲千億資金時,一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規(guī)模,,更重要的是看實際效果,。有句話形象地概括出DeepSeek的優(yōu)勢:“不是GPT用不起,而是DeepSeek更具性價比,?!?/p>
傳統(tǒng)模型訓(xùn)練,,需要在性能、成本,、速度之間權(quán)衡,,其高性能的獲得,需要極高的成本投入,、更漫長的計算時間,。而DeepSeek重構(gòu)了大模型的“成本-性能”曲線,同時壓縮了計算周期,。
根據(jù)DeepSeek技術(shù)報告,,DeepSeek-V3模型的訓(xùn)練成本為557.6萬美元,訓(xùn)練使用的是算力受限的英偉達H800 GPU集群,。相比之下,,同樣是開源模型的Meta旗下Llama-3.1模型的訓(xùn)練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓(xùn)練成本為1億美元,,且使用的是性能更加優(yōu)異的英偉達H100 GPU集群,。而使用過程中,DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間,,通過算法輕量化,、計算效率最大化、資源利用率優(yōu)化,,成功壓縮了計算時間,,降低了延遲。
——走出“參數(shù)膨脹”陷阱
ChatGPT橫空出世后700多天里,,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學(xué)”路線,,參數(shù)越“煉”越大,給算力,、數(shù)據(jù),、能耗帶來了極大壓力。很長一段時間,,參數(shù)幾乎成為大模型廠商比拼的最大焦點,。
而另辟蹊徑的DeepSeek恰巧處于對角線的另一端:并不盲目追求參數(shù)之大,而是選擇了一條通過探索更高效訓(xùn)練方法以實現(xiàn)性能提升的“小而精”路線,,打破了“參數(shù)膨脹”的慣性,。
例如DeepSeek-R1(4B參數(shù))在數(shù)學(xué)推理、代碼生成等任務(wù)上具有比肩70B參數(shù)模型(如Llama-2)的能力,,通過算法優(yōu)化,、數(shù)據(jù)質(zhì)量提升,小參數(shù)模型一樣能實現(xiàn)高性能,,甚至能夠“四兩撥千斤”,。
潘悅 制圖
實現(xiàn)三大躍升
“DeepSeek出圈,很好地證明了我們的競爭優(yōu)勢:通過有限資源的極致高效利用,,實現(xiàn)以少勝多,。中國與美國在AI領(lǐng)域的差距正在縮小?!泵姹谥悄苁紫茖W(xué)家劉知遠說,。
算力封鎖下的有力破局,得益于DeepSeek技術(shù)架構(gòu),、數(shù)據(jù)策略,、工程實踐三方面的關(guān)鍵突破。
——技術(shù)架構(gòu):重新定義參數(shù)效率
大模型的千億參數(shù)不應(yīng)是冰冷的數(shù)字堆砌,,而應(yīng)是巧奪天工般地重組整合,。
傳統(tǒng)大模型Transformer架構(gòu)好比一條承載車輛的高速公路,當(dāng)車輛(數(shù)據(jù))數(shù)量足夠多的時候,,每輛車必須和前后所有車溝通完成才能繼續(xù)行駛(計算),,導(dǎo)致堵車(計算慢、能耗高),。而DeepSeek創(chuàng)新的架構(gòu)則把一條串行的高速路,,變成了一個輻射狀的快遞分揀中心,先把貨物(數(shù)據(jù))按類型分類打包,,再分不同路線同時出發(fā)開往不同目的地,,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節(jié)約能耗,。
——數(shù)據(jù)策略:質(zhì)量驅(qū)動的成本控制
DeepSeek研發(fā)團隊相信,,用“煉數(shù)據(jù)”取代“堆數(shù)據(jù)”,能使訓(xùn)練更具效率,。
傳統(tǒng)的數(shù)據(jù)策略好比去農(nóng)場隨便采撿,,常有價值不高的爛菜葉(低質(zhì)量數(shù)據(jù))。而DeepSeek創(chuàng)新的數(shù)據(jù)蒸餾技術(shù),,有針對性地篩選掉質(zhì)量不高的爛菜葉:一方面自動識別高價值數(shù)據(jù)片段(如代碼邏輯推理鏈),,相比隨機采樣訓(xùn)練效率提升3.2倍,另一方面通過對抗訓(xùn)練生成合成數(shù)據(jù),,將高質(zhì)量代碼數(shù)據(jù)獲取成本從每100個tokens的0.8元降低至0.12元,。
——工程實踐:架起“超級工廠”流水線
大模型傳統(tǒng)的訓(xùn)練方式好比手工造車,一次只能裝配一臺,,效率低下,。而DeepSeek的3D并行相當(dāng)于一方面通過流水線并行把造車流程拆分為10個步驟,同時組裝10輛車(數(shù)據(jù)分塊處理),另一方面通過張量并行,,把發(fā)動機拆成零件,,分給10個工廠同時生產(chǎn)(模型分片計算)。
至于推理過程,,傳統(tǒng)模型好比現(xiàn)點現(xiàn)做的餐廳,,客戶等菜時間長,推理過程慢,。而DeepSeek采用的INT4量化,,能把復(fù)雜菜品提前做成預(yù)制菜,加熱(計算)時間減半,,口味損失不到5%,,實現(xiàn)了大模型的低成本工業(yè)化。
超越技術(shù)的啟示
拆解DeepSeek的成功公式不難發(fā)現(xiàn),,通過底層架構(gòu)創(chuàng)新降低AGI成本,,同時以開源策略構(gòu)建生態(tài)護城河,提供了中小型機構(gòu)突破算力限制的可行路徑,。此外,,我們還能從中得到一些超越技術(shù)的啟示。
一直以來,,驅(qū)動DeepSeek的目標(biāo)并非利潤而是使命,。“探索未至之境”的愿景也指向一種與之匹配的極簡且清爽的組織架構(gòu),。
一名人工智能科學(xué)家表示,,在人工智能大模型領(lǐng)域,大廠,、高校,、傳統(tǒng)科研機構(gòu)、初創(chuàng)公司在資源稟賦上其實各有優(yōu)勢,,但結(jié)構(gòu)性的局限很難扭轉(zhuǎn),。DeepSeek這種類型的初創(chuàng)公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業(yè)邏輯的創(chuàng)新定力,、創(chuàng)業(yè)團隊扁平化組織機制帶來的絲滑流暢的協(xié)作度,。
據(jù)不具名人士透露,其V3模型的關(guān)鍵訓(xùn)練架構(gòu)MLA就源于一位年輕研究員的個人興趣,,經(jīng)過研判后DeepSeek組建了專項團隊開展大規(guī)模驗證與攻關(guān),。而R1模型果斷調(diào)整強化學(xué)習(xí)路線,領(lǐng)先于其他機構(gòu)實現(xiàn)了近似o1的推理能力,,核心原因之一也歸功于其青年團隊對前沿技術(shù)的敏銳嗅覺與大膽嘗試,。
“我們創(chuàng)新缺少的不是資本,,而是信心,以及組織高密度人才的能力,,調(diào)動他們高效地進行創(chuàng)造力與好奇心驅(qū)動的創(chuàng)新,。”DeepSeek創(chuàng)始人梁文鋒說,。
在DeepSeek身上,,我們看到了皮克斯動畫工作室的影子,。這個年輕的中國初創(chuàng)企業(yè)與那個創(chuàng)作27部長片有19部獲得奧斯卡最佳動畫,、同樣以創(chuàng)新為鮮明標(biāo)簽的組織,有著不謀而合的組織機制與范式選擇,,以及由此帶來的高企的創(chuàng)新成功率與人才留存率,。
不同于先發(fā)者略顯封鎖的護城堡壘,DeepSeek贏得贊譽的還有它的開源路線,。將代碼,、模型權(quán)重和訓(xùn)練日志全部公開,不僅需要格局,,更需要勇氣與實力,。
“在顛覆性技術(shù)面前,閉源形成的護城河是短暫的,。即使OpenAI閉源,,也無法阻止被別人趕超?!绷何匿h這樣解釋選擇開源的原因,,“開源、發(fā)論文,,其實并不會失去什么,。對于技術(shù)人員來說,被follow(追隨模仿)是很有成就感的事,?!?/p>
從技術(shù)到愿景,DeepSeek堅定選擇的始終是一條難且正確的路,。這也是為什么,,即便別國在人工智能領(lǐng)域已坐享先發(fā)優(yōu)勢,后發(fā)者依然有機會憑借技術(shù)創(chuàng)新,、成本革命打破大模型競爭的傳統(tǒng)邏輯,,打破人工智能行業(yè)競爭格局,打破“他國更擅長從0到1的原始創(chuàng)新,,而中國更擅長從1到10的應(yīng)用創(chuàng)新”的成見,,重塑競爭優(yōu)勢的奧秘,。
北京時間2月1日凌晨,在OpenAI發(fā)布其推理系列最新模型o3-mini時,,我們從中看到了一個熟悉的字眼:“Deep research”,。這是否是國產(chǎn)之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,,另一條具有自主創(chuàng)新基因的制勝之道,。
正如梁文鋒此前接受采訪時所說,“中國要逐步成為貢獻者,,而不是一直‘搭便車’,。”