DeepSeek火出圈，英偉達完了嗎？

施冷雪 2024-12-29 相關科技 17 次瀏覽 0個評論

　　DeepSeek v3因為是后發，完全可以避開前人走的坑，用更高效方式避坑，也就是“站在巨人的肩膀上”。真實邏輯應該是：榨干同等算力去攫取10倍收益。就比如o1的訓練成本遠超GPT-4，而o3的訓練成本大概率遠超o1。從前沿探索角度看，訓練所需算力只會越來越多。應用生態越繁榮，只會讓訓練投入的支付能力更強；而算力通縮，只會讓同等投入買到更多訓練Flops。

　　首先訓練同一代模型所需算力每隔N個月就是指數級降低，這里面有算法進步、算力本身通縮、數據蒸餾等等因素，這也是為什么說“模型后發更省力”。援引下星球內一則評論：“就好像看過幾遍答案，水平很一般的學生也能在1小時內把高考數學卷整出滿分”。?DeepSeek v3因為是后發，完全可以避開前人走的坑，用更高效方式避坑，也就是“站在巨人的肩膀上”。因此幻方在GPT4o發布7個月后，用1/10算力實現幾乎同等水平，是合理的，甚至可以作為未來對同代模型訓練成本下降速度的預測。但這里面依然有幾個概念上的誤解。

　　首先是“訓練”范圍上的混淆?；梅降恼撐拿鞔_說明了：“上述成本僅包括DeepSeek-V3 的正式訓練，不包括與架構、算法、數據相關的前期研究、消融實驗的成本。”?也就是星球內一位算法工程師說的“有點斷章取義，幻方在訓這個模型之前，用了他們自己的r1模型（對標openai o1）來生成數據，這個部分的反復嘗試要不要算在成本里呢？單就在訓練上做降本增效這件事，這不代表需求會下降，只代表大廠可以用性價比更高的方式去做模型極限能力的探索。應用端只要有增長的邏輯，推理的需求依然是值得期待的?！?/p>

　　隨著Ilya說的“公開互聯網數據窮盡”，未來合成數據是突破數據天花板的重要來源，且天花板理論上足夠高。相當于過去的預訓練范式從卷參數、卷數據總量，到了卷數據質量，卷新的Scaling因子（RL、測試時間計算等），而算力只不過換了個地方，繼續被其他訓練環節榨干。

　　從目前各大實驗室的實際情況看也是，OpenAI、Anthropic至今仍處于缺卡狀態，相信幻方也是?？从柧毸懔κ欠裣陆担粦撝豢茨炒Ｐ湍炒斡柧氝@種切面，而應該從“總量”以及“自上而下”去看，這些實驗室的訓練算力總需求是下降了嗎？反而一直在上升。預訓練的經濟效益下降，那就把卡挪給RL post train，發現模型實現同等提升所需卡減少了，那就減少投入了嗎？不會，真實邏輯應該是：榨干同等算力去攫取10倍收益。就比如o1的訓練成本遠超GPT-4，而o3的訓練成本大概率遠超o1。從前沿探索角度看，訓練所需算力只會越來越多。應用生態越繁榮，只會讓訓練投入的支付能力更強；而算力通縮，只會讓同等投入買到更多訓練Flops。

　　就好比幻方這次發布的模型，依然是LLM路線下，將MoE壓榨到了極致。但相信幻方自己的推理模型r1（對標o1）也在探索r2/r3，這顯然需要更多算力。而r2/r3訓完，又被用來消耗大量算力為deepseek v4合成數據。發現沒，pre-train scaling、RL scaling、test-time compute scaling三條線甚至還有正反饋。因此，只會在可獲得最大資源的前提下，用最高效的算法/工程手段，壓榨出最大的模型能力提升。而不會因為效率提升而減少投入，個人認為這是個偽邏輯。

　　對于推理，不必多說了，一定是上升。引用下星球內洪博的評論：DeepSeek-V3的出現（可能還包括輕量版V3-Lite），將支持私有部署和自主微調，為下游應用提供遠大于閉源模型時代的發展空間。未來一兩年，大概率將見證更豐富的推理芯片產品、更繁榮的LLM應用生態。

　　文章來源：信息平權，原文標題：《訓練算力真的下降了嗎？》

你可能想看：

孫繼海：若僅靠踢球時收入，早用完了，還給中國足球的遠超獲得的

國產之光DeepSeek把AI大佬全炸出來了！671B大模型訓練只需此前算力1/10，細節全公開

DeepSeek引熱議之際 “ChatGPT之父”發文感謝團隊：復制容易創新很難

胡延平：為什么DeepSeek-V3的火爆不宜過高評價？

沒完了？拜登政府被曝將指定谷歌、微軟等企業充當“看門人”，打壓中國芯片行業

轉載請注明來自湖南力馳機械設備有限公司，本文標題：《DeepSeek火出圈，英偉達完了嗎？》

施冷雪 28篇文章站點微博

每一天，每一秒，你所做的決定都會改變你的人生！