反轉(zhuǎn)！Claude 3.5超大杯沒有訓(xùn)練失敗，最新爆料：內(nèi)部自留，用于合成數(shù)據(jù)和RL訓(xùn)練

靳媛 2024-12-12 相關(guān)科技 69 次瀏覽 2個(gè)評(píng)論

　　來源：華爾街見聞

　　semianalysis分析師爆料，Claude 3.5超大杯被藏起來，只用于內(nèi)部數(shù)據(jù)合成以及強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)建模。Claude 3.5 Sonnet就是如此訓(xùn)練而來。不發(fā)布的原因，是因?yàn)椤安粍澦恪薄?/p>

　　傳聞反轉(zhuǎn)了，Claude 3.5 Opus沒有訓(xùn)練失敗。

　　只是Anthropic訓(xùn)練好了，暗中壓住不公開。

　　semianalysis分析師爆料，Claude 3.5超大杯被藏起來，只用于內(nèi)部數(shù)據(jù)合成以及強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)建模。

　　Claude 3.5 Sonnet就是如此訓(xùn)練而來。

　　使用這種方法，推理成本沒有明顯提升，但是模型性能更好了。

　　這么好用的模型，為啥不發(fā)布？

　　不劃算。

　　semianalysis分析，相較于直接發(fā)布，Anthropic更傾向于用最好的模型來做內(nèi)部訓(xùn)練，發(fā)布Claude 3.5 Sonnet就夠了。

　　這多少讓人不敢相信。

　　但是文章作者之一Dylan Patel也曾是最早揭秘GPT-4架構(gòu)的人。

　　除此之外，文章還分析了最新發(fā)布的o1 Pro、神秘Orion的架構(gòu)以及這些先進(jìn)模型中蘊(yùn)藏的新規(guī)律。

　　比如它還指出，搜索是Scaling的另一維度，o1沒有利用這個(gè)維度，但是o1 Pro用了。

　　網(wǎng)友：它暗示了o1和o1 Pro之間的區(qū)別，這也是之前沒有被披露過的。

　　新舊范式交迭，大模型還在加速

　　總體來看，semianalysis的最新文章分析了當(dāng)前大模型開發(fā)在算力、數(shù)據(jù)、算法上面臨的挑戰(zhàn)與現(xiàn)狀。

　　核心觀點(diǎn)簡單粗暴總結(jié)，就是新范式還在不斷涌現(xiàn)，AI進(jìn)程沒有減速。

　　文章開篇即點(diǎn)明，Scaling law依舊有效。

　　盡管有諸多聲音認(rèn)為，隨著新模型在基準(zhǔn)測(cè)試上的提升不夠明顯，現(xiàn)有訓(xùn)練數(shù)據(jù)幾乎用盡以及摩爾定律放緩，大模型的Scaling Law要失效了。

　　但是頂尖AI實(shí)驗(yàn)室、計(jì)算公司還在加速建設(shè)數(shù)據(jù)中心，并向底層硬件砸更多錢。

　　比如AWS斥巨資自研了Trainium2芯片，花費(fèi)65億美元為Anthropic準(zhǔn)備40萬塊芯片。

　　Meta也計(jì)劃在2026年建成耗電功率200萬千瓦的數(shù)據(jù)中心。

　　很明顯，最能深刻影響AI進(jìn)程的人們，依舊相信Scaling Law。

　　為什么呢？

　　因?yàn)樾路妒皆诓粩嘈纬桑⑶矣行?。這使得AI開發(fā)還在繼續(xù)加速。

　　首先在底層計(jì)算硬件上，摩爾定律的確在放緩，但是英偉達(dá)正在引領(lǐng)新的計(jì)算定律。

　　8年時(shí)間，英偉達(dá)的AI芯片計(jì)算性能已經(jīng)提升了1000倍。

　　同時(shí)，通過芯片內(nèi)部和芯片之間的并行計(jì)算，以及構(gòu)建更大規(guī)模的高帶寬網(wǎng)絡(luò)域可以使得芯片更好在網(wǎng)絡(luò)集群內(nèi)協(xié)同工作，特別是推理方面。

　　其次在數(shù)據(jù)方面也出現(xiàn)了新的范式。

　　已有公開數(shù)據(jù)消耗殆盡后，合成數(shù)據(jù)提供了新的解決途徑。

　　比如用GPT-4合成數(shù)據(jù)訓(xùn)練其他模型是很多實(shí)驗(yàn)團(tuán)隊(duì)都在使用的技術(shù)方案。

　　而且模型越好，合成數(shù)據(jù)質(zhì)量就越高。

　　也就是在這里，Claude 3.5 Opus不發(fā)布的內(nèi)幕被曝光。

　　它承擔(dān)了為Claude 3.5 Sonnet合成訓(xùn)練數(shù)據(jù)、替代人類反饋的工作。

　　事實(shí)證明，合成數(shù)據(jù)越多，模型就越好。更好的模型能提供更好的合成數(shù)據(jù)，也能提供更好的偏好反饋，這能推動(dòng)人類開發(fā)出更好的模型。

　　具體來看，semianalysisi還舉了更多使用綜合數(shù)據(jù)的例子。

　　包括拒絕采樣、模式判斷、長上下文數(shù)據(jù)集幾種情況。

　　比如Meta將Python代碼翻譯成PHP，并通過語法解析和執(zhí)行來確保數(shù)據(jù)質(zhì)量，將這些額外的數(shù)據(jù)輸入SFT數(shù)據(jù)集，解釋為何缺少公共PHP代碼。

　　比如Meta還使用Llama 3作為拒絕采樣器，判斷偽代碼，并給代碼進(jìn)行評(píng)級(jí)。一些時(shí)候，拒絕抽樣和模式判斷一起使用。這種方式成本更低，不過很難實(shí)現(xiàn)完全自動(dòng)化。

　　在所有拒絕抽樣方法中，“判官”模型越好，得到數(shù)據(jù)集的質(zhì)量就越高。

　　這種模式，Meta今年剛剛開始用，而OpenAI、Anthropic已經(jīng)用了一兩年。

　　在長上下文方面，人類很難提供高質(zhì)量的注釋，AI處理成為一種更有效的方法。

　　然后在RLHF方面，專門收集大量的偏好數(shù)據(jù)難且貴。

　　對(duì)于Llama 3，DPO（直接偏好優(yōu)化）比PPO（最近策略優(yōu)化）更有效且穩(wěn)定，使用的計(jì)算也少。但是使用DPO就意味著偏好數(shù)據(jù)集是非常關(guān)鍵的。

　　如OpenAI等大型公司想到的一種辦法是從用戶側(cè)收集，有時(shí)ChatGPT會(huì)給出2個(gè)回答并要求用戶選出更喜歡的一個(gè)，因此免費(fèi)收集了很多反饋。

　　還有一種新的范式是讓AI替人類進(jìn)行反饋——RLAIF。

　　它主要分為兩個(gè)階段。第一階段模型先根據(jù)人類編寫的標(biāo)準(zhǔn)對(duì)自己的輸出進(jìn)行修改，然后創(chuàng)建出一個(gè)修訂-提示對(duì)的數(shù)據(jù)集，使用這些數(shù)據(jù)集通過SFT進(jìn)行微調(diào)。

　　第二階段類似于RLHF，但是這一步完全沒有人類偏好數(shù)據(jù)。

　　這種方法最值得關(guān)注的一點(diǎn)是，它可以在許多不同領(lǐng)域擴(kuò)展。

　　最后，值得重點(diǎn)關(guān)注的一個(gè)新范式是通過搜索來擴(kuò)展推理計(jì)算。

　　文章中表明，搜索是擴(kuò)展的另一個(gè)維度。OpenAI o1沒有利用這個(gè)維度，但是o1 Pro用了。

　　o1在測(cè)試時(shí)階段不評(píng)估多條推理路徑，也不進(jìn)行任何搜索。

　　Self-Consistency / Majority Vote就是一種搜索方法。

　　這種方法中，只需在模型中多次運(yùn)行提示詞，產(chǎn)生多個(gè)相應(yīng)，根據(jù)給定的樣本數(shù)量，從相應(yīng)中選出出現(xiàn)頻率最高的來作為正確答案。

　　除此之外，文章還進(jìn)一步分析了為什么說OpenAI的Orion訓(xùn)練失敗也是不準(zhǔn)確的。

　　本文作者：量子位，來源：量子位，原文標(biāo)題：《反轉(zhuǎn)！Claude 3.5超大杯沒有訓(xùn)練失敗，最新爆料：內(nèi)部自留，用于合成數(shù)據(jù)和RL訓(xùn)練》

　　風(fēng)險(xiǎn)提示及免責(zé)條款

　　市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

你可能想看：

別等了！上海最新通知：沒有！沒有！沒有！

美國重要數(shù)據(jù)來襲、小心黃金再遭拋售！歐元、英鎊、日元和黃金最新日內(nèi)交易分析

上市公司擬轉(zhuǎn)讓超6000平方米房產(chǎn)給董事長，作價(jià)2000萬元！最新回應(yīng)：優(yōu)化盤活現(xiàn)有資產(chǎn)

最新！黎真主黨精銳部隊(duì)已進(jìn)入敘利亞

云南3名女生因門鎖損壞被困民宿，錯(cuò)過考研最后一科！最新回應(yīng)

聯(lián)合國機(jī)構(gòu)稱發(fā)現(xiàn)約2萬具尸體，哥倫比亞總檢察長辦公室：檢查了27個(gè)機(jī)庫，沒有發(fā)現(xiàn)任何尸體痕跡

回顧中美關(guān)系，五個(gè)階段的真相告訴我們，我們真的沒有讀懂美國

股市"小作文"又來？與其打聽資金動(dòng)向，不如讓數(shù)據(jù)"說話"

轉(zhuǎn)載請(qǐng)注明來自湖南力馳機(jī)械設(shè)備有限公司，本文標(biāo)題：《反轉(zhuǎn)！Claude 3.5超大杯沒有訓(xùn)練失敗，最新爆料：內(nèi)部自留，用于合成數(shù)據(jù)和RL訓(xùn)練》

靳媛 32篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！