大模型性價(jià)比之王來(lái)了！訓(xùn)練2個(gè)月、花費(fèi)558萬(wàn)美元性能匹敵GPT-4o

穆孤容 2024-12-27 相關(guān)科技 42 次瀏覽 2個(gè)評(píng)論

　　來(lái)源：財(cái)聯(lián)社

　　《科創(chuàng)板日?qǐng)?bào)》12月27日訊（編輯宋子喬） 12月26日晚，幻方量化宣布，全新系列模型DeepSeek-V3上線并同步開(kāi)源，API服務(wù)已同步更新，接口配置無(wú)需改動(dòng)。

　　其上一代模型DeepSeek-V2.5于9月6日正式發(fā)布，迭代速速不可謂不快。

　　據(jù)介紹，DeepSeek-V3為自研MoE模型，生成速度相比V2.5模型實(shí)現(xiàn)了3倍的提升，但暫不支持多模態(tài)輸入輸出。（小K注：MoE模型全稱Mixture of Experts，混合專家模型，是一種機(jī)器學(xué)習(xí)架構(gòu)，通過(guò)組合多個(gè)專家模型，在處理復(fù)雜任務(wù)時(shí)顯著提高效率和精度）。

參數(shù)和性能：DeepSeek-V3擁有6710億參數(shù)，其中激活參數(shù)為370億，在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練。

生成速度：相比V2.5版本，DeepSeek-V3的生成速度提升至3倍，每秒吞吐量高達(dá)60 token。

開(kāi)源和可用性：DeepSeek-V3完全開(kāi)源。

多語(yǔ)言處理能力：雖然當(dāng)前版本暫不支持多模態(tài)輸入輸出，但在多語(yǔ)言處理方面表現(xiàn)出色，尤其在算法代碼和數(shù)學(xué)方面。

　　另外，在多項(xiàng)基準(zhǔn)測(cè)試中，DeepSeek-V3的成績(jī)超越了Qwen2.5-72 B和Llama-3.1-405 B等其他開(kāi)源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

　　其中，在數(shù)學(xué)能力方面，DeepSeek-V3大幅超過(guò)了所有開(kāi)源閉源模型。（小K注：以2024年美國(guó)數(shù)學(xué)競(jìng)賽和全國(guó)高中數(shù)學(xué)聯(lián)賽題庫(kù)進(jìn)行測(cè)試）

　　值得注意的是，幻方量化在已開(kāi)源的論文中強(qiáng)調(diào)其訓(xùn)練成本極低——通過(guò)對(duì)算法、框架和硬件的優(yōu)化協(xié)同設(shè)計(jì)，假設(shè)H800GPU的租用價(jià)格為每塊GPU2美元/小時(shí)，DeepSeek-V3的全部訓(xùn)練成本總計(jì)僅為557.6萬(wàn)美元（注：該成本僅包括DeepSeek-V3的正式訓(xùn)練，不包括與先前在架構(gòu)、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)的成本）：

　　在預(yù)訓(xùn)練階段，模型每訓(xùn)練1萬(wàn)億token僅需要180K個(gè)GPU小時(shí)，即在配備2048個(gè)GPU的集群上只需3.7天，也就是說(shuō)，該階段團(tuán)隊(duì)使用2048塊H800 GPU訓(xùn)練了模型不到2個(gè)月便達(dá)成目標(biāo)；

　　另外，加上上下文長(zhǎng)度scaling所需的119K GPU小時(shí)和后訓(xùn)練的5K GPU小時(shí)，DeepSeek-V3完整訓(xùn)練僅消耗2.788M個(gè)GPU小時(shí)。

　　技術(shù)大牛Andrej Karpathy發(fā)文稱贊道：作為參考，要達(dá)到這種級(jí)別的能力，通常需要約1.6萬(wàn)個(gè)GPU的計(jì)算集群。不僅如此，當(dāng)前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達(dá)到了10萬(wàn)個(gè)GPU。比如，Llama 3 405B消耗了3080萬(wàn)GPU小時(shí)，而看起來(lái)更強(qiáng)大的DeepSeek-V3卻只用了280萬(wàn)GPU小時(shí)（計(jì)算量減少了約11倍）。（小K注：Karpathy是OpenAI的聯(lián)合創(chuàng)始人之一，并且曾擔(dān)任特斯拉的AI總監(jiān)）

　　Stability AI前CEO表示，以每秒60個(gè)token（相當(dāng)于人類閱讀速度5倍）的速度全天候運(yùn)行DeepSeek-V3，每天僅需要2美元。

　　API服務(wù)定價(jià)上調(diào)2倍有余

　　DeepSeek-V3的發(fā)布標(biāo)志著DeepSeek AI在自然語(yǔ)言處理和AI領(lǐng)域的又一重要進(jìn)步，預(yù)計(jì)將為開(kāi)發(fā)者、企業(yè)和研究人員提供強(qiáng)大的工具和資源。其應(yīng)用場(chǎng)景主要包括：

聊天和編碼場(chǎng)景：為開(kāi)發(fā)者設(shè)計(jì)，能夠理解和生成代碼，提高編程效率。

多語(yǔ)言自動(dòng)翻譯：支持多達(dá)20種語(yǔ)言的實(shí)時(shí)翻譯和語(yǔ)音識(shí)別，適合需要處理多種語(yǔ)言內(nèi)容的企業(yè)用戶。

圖像生成和AI繪畫：整合視覺(jué)理解技術(shù)，允許用戶通過(guò)簡(jiǎn)單的文本描述生成高質(zhì)量圖像，豐富應(yīng)用場(chǎng)景和用戶創(chuàng)意表達(dá)的自由度。

　　性能更強(qiáng)、速度更快的DeepSeek-V3上線，幻方量化給出的定價(jià)是多少呢？新版本模型價(jià)格比上一代貴了2倍有余。

　　幻方量化表示DeepSeek-V3的API服務(wù)定價(jià)將上調(diào)為每百萬(wàn)輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬(wàn)輸出tokens 8元，按緩存未命中的輸入價(jià)格計(jì)，加總成本是10元人民幣。

　　上一代模型Deepseek-V2.5的價(jià)格是，輸入：0.14美元/百萬(wàn)Token，輸出為：0.28美元/百萬(wàn)Token，加總成本是0.14+0.28=0.42美元，大約3元人民幣。

　　這里的Token是大模型在處理數(shù)據(jù)時(shí)的最小單元，一般而言，100萬(wàn)Token相當(dāng)于70萬(wàn)-100萬(wàn)英文單詞，或接近100萬(wàn)中文漢字。列夫?托爾斯泰的名著《戰(zhàn)爭(zhēng)與和平》的英文版大約是大約有1200-1500頁(yè)、58萬(wàn)英文單詞，把它翻譯為中文，大約有100-130萬(wàn)字，讓DeepSeek-V3讀完全文只需要2元左右。

　　盡管提價(jià)，但與同類型模型相比，DeepSeek-V3依舊極具性價(jià)比。比如OpenAI的GPT 4o定價(jià)相當(dāng)高，輸入：5美元/百萬(wàn)Token，輸出：15美元/百萬(wàn)Token，加總成本是20美元，約合人民幣140元。

你可能想看：

國(guó)產(chǎn)之光DeepSeek把AI大佬全炸出來(lái)了！671B大模型訓(xùn)練只需此前算力1/10，細(xì)節(jié)全公開(kāi)

百勝中國(guó)11月22日斥資240.01萬(wàn)美元回購(gòu)5.11萬(wàn)股

阿里巴巴-W1月2日斥資3998.69萬(wàn)美元回購(gòu)377.36萬(wàn)股

交易員對(duì)日元的看漲情緒達(dá)到一個(gè)月來(lái)最低此前日本央行按兵不動(dòng)

不到2個(gè)月的短命首相，坦言中國(guó)變了，只有2個(gè)方法才能對(duì)付中國(guó)

錢金波：開(kāi)發(fā)行業(yè)垂直大模型困難重重，但必須邁出這一步

MicroStrategy盤前漲逾4% 分析師稱比特幣兩年內(nèi)漲至22.5萬(wàn)美元

Siri被指控“偷聽(tīng)”，蘋果公司同意支付9500萬(wàn)美元和解

“退市妖股”左江科技3個(gè)月暴漲4倍，因虛假記載收千萬(wàn)級(jí)罰單

招商證券：股票資產(chǎn)相對(duì)債券的性價(jià)比進(jìn)一步提升