來(lái)源:財(cái)聯(lián)社
《科創(chuàng)板日?qǐng)?bào)》12月27日訊(編輯 宋子喬) 12月26日晚,幻方量化宣布,全新系列模型DeepSeek-V3上線并同步開(kāi)源,API服務(wù)已同步更新,接口配置無(wú)需改動(dòng)。
其上一代模型DeepSeek-V2.5于9月6日正式發(fā)布,迭代速速不可謂不快。
據(jù)介紹,DeepSeek-V3為自研MoE模型,生成速度相比V2.5模型實(shí)現(xiàn)了3倍的提升,但暫不支持多模態(tài)輸入輸出。(小K注:MoE模型全稱Mixture of Experts,混合專家模型,是一種機(jī)器學(xué)習(xí)架構(gòu),通過(guò)組合多個(gè)專家模型,在處理復(fù)雜任務(wù)時(shí)顯著提高效率和精度)。
參數(shù)和性能:DeepSeek-V3擁有6710億參數(shù),其中激活參數(shù)為370億,在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練。
生成速度:相比V2.5版本,DeepSeek-V3的生成速度提升至3倍,每秒吞吐量高達(dá)60 token。
開(kāi)源和可用性:DeepSeek-V3完全開(kāi)源。
多語(yǔ)言處理能力:雖然當(dāng)前版本暫不支持多模態(tài)輸入輸出,但在多語(yǔ)言處理方面表現(xiàn)出色,尤其在算法代碼和數(shù)學(xué)方面。
另外,在多項(xiàng)基準(zhǔn)測(cè)試中,DeepSeek-V3的成績(jī)超越了Qwen2.5-72 B和Llama-3.1-405 B等其他開(kāi)源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
其中,在數(shù)學(xué)能力方面,DeepSeek-V3大幅超過(guò)了所有開(kāi)源閉源模型。(小K注:以2024年美國(guó)數(shù)學(xué)競(jìng)賽和全國(guó)高中數(shù)學(xué)聯(lián)賽題庫(kù)進(jìn)行測(cè)試)
值得注意的是,幻方量化在已開(kāi)源的論文中強(qiáng)調(diào)其訓(xùn)練成本極低——通過(guò)對(duì)算法、框架和硬件的優(yōu)化協(xié)同設(shè)計(jì),假設(shè)H800GPU的租用價(jià)格為每塊GPU2美元/小時(shí),DeepSeek-V3的全部訓(xùn)練成本總計(jì)僅為557.6萬(wàn)美元(注:該成本僅包括DeepSeek-V3的正式訓(xùn)練,不包括與先前在架構(gòu)、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)的成本):
在預(yù)訓(xùn)練階段,模型每訓(xùn)練1萬(wàn)億token僅需要180K個(gè)GPU小時(shí),即在配備2048個(gè)GPU的集群上只需3.7天,也就是說(shuō),該階段團(tuán)隊(duì)使用2048塊H800 GPU訓(xùn)練了模型不到2個(gè)月便達(dá)成目標(biāo);
另外,加上上下文長(zhǎng)度scaling所需的119K GPU小時(shí)和后訓(xùn)練的5K GPU小時(shí),DeepSeek-V3完整訓(xùn)練僅消耗2.788M個(gè)GPU小時(shí)。
技術(shù)大牛Andrej Karpathy發(fā)文稱贊道:作為參考,要達(dá)到這種級(jí)別的能力,通常需要約1.6萬(wàn)個(gè)GPU的計(jì)算集群。不僅如此,當(dāng)前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達(dá)到了10萬(wàn)個(gè)GPU。比如,Llama 3 405B消耗了3080萬(wàn)GPU小時(shí),而看起來(lái)更強(qiáng)大的DeepSeek-V3卻只用了280萬(wàn)GPU小時(shí)(計(jì)算量減少了約11倍)。(小K注:Karpathy是OpenAI的聯(lián)合創(chuàng)始人之一,并且曾擔(dān)任特斯拉的AI總監(jiān))
Stability AI前CEO表示,以每秒60個(gè)token(相當(dāng)于人類閱讀速度5倍)的速度全天候運(yùn)行DeepSeek-V3,每天僅需要2美元。
API服務(wù)定價(jià)上調(diào)2倍有余
DeepSeek-V3的發(fā)布標(biāo)志著DeepSeek AI在自然語(yǔ)言處理和AI領(lǐng)域的又一重要進(jìn)步,預(yù)計(jì)將為開(kāi)發(fā)者、企業(yè)和研究人員提供強(qiáng)大的工具和資源。其應(yīng)用場(chǎng)景主要包括:
聊天和編碼場(chǎng)景:為開(kāi)發(fā)者設(shè)計(jì),能夠理解和生成代碼,提高編程效率。
多語(yǔ)言自動(dòng)翻譯:支持多達(dá)20種語(yǔ)言的實(shí)時(shí)翻譯和語(yǔ)音識(shí)別,適合需要處理多種語(yǔ)言內(nèi)容的企業(yè)用戶。
圖像生成和AI繪畫:整合視覺(jué)理解技術(shù),允許用戶通過(guò)簡(jiǎn)單的文本描述生成高質(zhì)量圖像,豐富應(yīng)用場(chǎng)景和用戶創(chuàng)意表達(dá)的自由度。
性能更強(qiáng)、速度更快的DeepSeek-V3上線,幻方量化給出的定價(jià)是多少呢?新版本模型價(jià)格比上一代貴了2倍有余。
幻方量化表示DeepSeek-V3的API服務(wù)定價(jià)將上調(diào)為每百萬(wàn)輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬(wàn)輸出tokens 8元,按緩存未命中的輸入價(jià)格計(jì),加總成本是10元人民幣。
上一代模型Deepseek-V2.5的價(jià)格是,輸入:0.14美元/百萬(wàn)Token,輸出為:0.28美元/百萬(wàn)Token,加總成本是0.14+0.28=0.42美元,大約3元人民幣。
這里的Token是大模型在處理數(shù)據(jù)時(shí)的最小單元,一般而言,100萬(wàn)Token相當(dāng)于70萬(wàn)-100萬(wàn)英文單詞,或接近100萬(wàn)中文漢字。列夫?托爾斯泰的名著《戰(zhàn)爭(zhēng)與和平》的英文版大約是大約有1200-1500頁(yè)、58萬(wàn)英文單詞,把它翻譯為中文,大約有100-130萬(wàn)字,讓DeepSeek-V3讀完全文只需要2元左右。
盡管提價(jià),但與同類型模型相比,DeepSeek-V3依舊極具性價(jià)比。比如OpenAI的GPT 4o定價(jià)相當(dāng)高,輸入:5美元/百萬(wàn)Token,輸出:15美元/百萬(wàn)Token,加總成本是20美元,約合人民幣140元。
國(guó)產(chǎn)之光DeepSeek把AI大佬全炸出來(lái)了!671B大模型訓(xùn)練只需此前算力1/10,細(xì)節(jié)全公開(kāi)
百勝中國(guó)11月22日斥資240.01萬(wàn)美元回購(gòu)5.11萬(wàn)股
阿里巴巴-W1月2日斥資3998.69萬(wàn)美元回購(gòu)377.36萬(wàn)股
交易員對(duì)日元的看漲情緒達(dá)到一個(gè)月來(lái)最低 此前日本央行按兵不動(dòng)
不到2個(gè)月的短命首相,坦言中國(guó)變了,只有2個(gè)方法才能對(duì)付中國(guó)
錢金波:開(kāi)發(fā)行業(yè)垂直大模型困難重重,但必須邁出這一步
MicroStrategy盤前漲逾4% 分析師稱比特幣兩年內(nèi)漲至22.5萬(wàn)美元
Siri被指控“偷聽(tīng)”,蘋果公司同意支付9500萬(wàn)美元和解
流浪地球展現(xiàn)了中國(guó)科幻電影的崛起,視覺(jué)效果震撼,劇情緊湊,引人入勝。