炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
【睿見】胡延平:為什么DeepSeek-V3的火爆不宜過高評價?
來源:盤古智庫
周末實測下來基本可以,數學正確率較高,代碼是強項,考驗模型的一些經典問題,回答正確與錯誤參半,還沒遇到其他用戶反饋的不穩定、思路循環紊亂問題。
本文系盤古智庫學術委員、DCCI-未來智庫與FutureLabs-未來實驗室首席專家,信息社會50人論壇成員胡延平接受采訪內容。文章來源于“胡延平EarthRambler”微博。
本文大約3000字,讀完約7分鐘。
周末實測下來基本可以,數學正確率較高,代碼是強項,考驗模型的一些經典問題,回答正確與錯誤參半,還沒遇到其他用戶反饋的不穩定、思路循環紊亂問題。也隨手生成兩個對其來說小兒科的python小游戲。但為什么說甚至已經被某些博主又上升到厲害了我的國的這款模型,不宜過高評價?7點探討:
1.效率方法淋漓盡致,沒有底層原理創新。合成數據、知識蒸餾、FP8低精度、稀疏模型、MoE甚至包括多頭注意力機制都是已有已知技術,但其清晰把握所有“已知”并且最大程度壓縮算力邊界,并且非常精巧地把不同已知原理組合起來,在資源和性能之間調優,取得最佳平衡,這是DeepSeek-V3的成功之處。實質上又一次呈現了“非常中國”的“工程”能力。
2.大模型現在是兩條曲線交織的雙螺旋進化。向上走的曲線,追求整理感知理解行為能力的通用智能,拼整體理解意義上的腦能力,思考和監督思考,視覺在內的整體理解,空間智能等現實模型,物理等科學模型,多模態更不在話下。思維鏈、皮層計算、不同模型原理探索是當下前沿探索的核心。向下走的曲線,提升數據質量,訓練意義上的量效比,算力能效比,大幅降低推理成本。DeepSeek在這個雙螺旋里向下有余向上不足。
3.LLM是基礎,但要從LLM里走出來。非LLM實質上也需要結合LLM的能力才能與人交互,但LLM是大模型的古典時代,就像token只是所有表征里的其中一種表征(但說Token已死也是故做驚人之語,LCM復雜連續的概念向量的確是對Token的高維消解但重新定義的token以及轉向patch的非token仍有“元”價值,不過說Token已死至少看到了趨勢,還是比國內某企業前不久把“預測下一個Token”這種老掉牙的思維拿出來當傳播主題強),Transformer是基礎架構但不是架構的全部,更不是終極形態。在第2第3點所述角度,DeepSeek沒有展現分毫對未來的思考和探索。實質上依然處在追趕階段。DeepSeek不僅處于古典LLM范疇,呈現的其實再一次以及又一次是“我們一直最擅長的”性價比。
4.從訓練到推理,量大管夠、豐儉由人但限量消費,是其產品邏輯,也是DeepSeek-V3呈現較高費效比的關鍵(局部不穩定因此也是必然)。14.8T高質量token打底,基本水準差不了,671B的MoE把參數拉到頂,實際使用過程中每token靈活調用256個專家里的8個左右專家模型,37B的激活參數相當節約推理算力資源。價格又打得很低,但多模態等通通沒有,妥妥的大戶型經濟適用房即視感。團隊核心人員稱“我們確實押注了三個方向。一是數學和代碼,二是多模態,三是自然語言本身”。從這一點看,接下來一段時間其基本盤還是在古典LLM范疇。
5.一直在品DeepSeek-V3像什么味道,忽然想到,竟然像極了小米SU7讓車評人陳震撇嘴以至于被米粉攻陷評論區的那些原因:神似某捷的外型、單層的玻璃、民用級剎車卡鉗、大概其的隔音......雖然一上賽道跑幾圈剎車就嚴重衰減,雖然里里外外都是蔚小理玩過的東西,沒有技術和形態突破,但這東西它就是短平快造出來了總體性價比還可以而且很有流量而且竟然有原廠手機支架這你受得了嗎?
6.DeepSeek-V3能不能持續有流量不太好說,幻方也沒有小米的生態和流量能力,這領域格局變得快,一夜顛覆的情況太多了。不過據說更扎實的新版本在路上了,幾個月后亮相,相當于SU7的Ultra版。V3只是訓練出來覺得還可以,就和盤托出來了。希望那個時候,能稱得上是全面創新,目前真不是。
7.由此顛覆了模型與算力關系更說不上。接下來大家會越來越清楚地看到,這個領域有捷徑但沒有彎道超車,有后發成本優勢但沒有后發領先優勢,AGI路線更是只能取巧沒有投機。比如即使L3+級別的智能駕駛,端到端向VLA進化,車輛SoC算力1000TOPS起才勉強可玩,2000-3000TOPS會稀松平常,即使如此,短期內也未必能夠到真正的L4。向上曲線的模型思考長度速度整體度、多模態、感知思考與行為能力合一等方向,只可能將算力需求拉升到新高度。向下曲線對成本效率有改變,但對捧得AGI圣杯的貢獻可以忽略?!?/p>
還沒有評論,來說兩句吧...