OpenAI的12天12場直播收官,離AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。
當地時間12月20日,和網友猜測的一樣,人工智能(AI)巨頭OpenAI發布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奧特曼(Sam Altman)就曾發文提到三個“o”暗示了o3的到來。
為何新模型跳過了o2直接命名o3?奧特曼表示是為了避免和英國電信運營商O2沖突,“按邏輯應該稱為o2,但我們起名字的能力實在太糟了,只能把它稱作o3”。
據介紹,在編碼測試SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces競技編程中得分為2727分,相當于位列第175名的人類選手,甚至超過了OpenAI的首席科學家(2655分);在數學競賽AIME 2024和專家級科學問題基準測試GPQA Diamond中成績都得到明顯提升;而在令很多AI和數學家都束手無策的最難數學和推理挑戰FrontierMath中,o3解決了25.2%的問題,其他模型均未超過2%。
不過,o3和o3-mini并未正式發布,安全研究人員目前可以注冊獲取o3-mini的預覽版,o3預覽版也將在之后的某個時間推出,OpenAI沒有給出具體時間。在直播的一開始,奧特曼也強調了此次并不是發布,只是宣布o3。他表示,計劃在1月底發布o3-mini,然后再發布o3。
據外媒報道,AI安全測試人員發現,與傳統的“非推理”模型相比,OpenAI此前發布的o1的推理能力使其試圖欺騙人類用戶的比例更高,同樣,Meta、Anthropic和谷歌的領先模型也是如此。而o3試圖欺騙用戶的比例可能比它的前身更高。
OpenAI在博客中表示,正在使用一種新技術“慎重對齊”(deliberative alignment),來使o3等模型符合其安全原則。
通過OpenAI所謂的“私人思維鏈”,o3被訓練成在做出反應之前先“思考”。可以對任務進行推理并提前規劃,在較長時間內執行一系列動作,幫助找出解決方案。
在實踐中,當收到一個提示時,o3會在做出反應之前暫停,考慮一些相關的提示,并沿途“解釋”其推理過程。一段時間后,模型會總結出它認為最準確的答案。o3 的新功能是“調整”推理時間,可以設置為低、中或高計算量(即思考時間),計算時間越長,執行任務時的表現就越好。
ARC-AGI(通用人工智能抽象與推理語料庫)發起者、Keras(用Python編寫的高級神經網絡API)之父弗朗索瓦·肖萊(Francois Chollet)在o3發布后公布了一篇測試報告。
報告顯示,o3在高計算量模式下獲得了87.5%的分數,在低計算量模式下,性能是o1的三倍。成本方面,低計算量模式下,每個任務需要花費20美元,而在高計算量模式中每個任務需要數千美元。
肖萊表示:“它非常昂貴,但并不只是‘蠻干’——這些能力是全新的領域,需要科學界的認真關注?!?/p>
肖萊認為,雖然o3給人留下了深刻印象,是邁向AGI的一個重要里程碑,但并不就是AGI,仍然有相當多非常簡單的ARC-AGI-1的任務是o3無法解決的,同時還有跡象表明ARC-AGI-2對o3來說仍極具挑戰性,“這表明在不涉及專業知識的情況下,創建對人類來說容易但對人工智能來說不可能的不飽和、有趣的基準仍然是可行的。當創建這樣的測試變得完全不可能時,我們將擁有AGI”。
當然,ARC-AGI只是AI領域的重要基準之一,對AGI的定義只是其中之一。
肖萊稱,主要需要解決的問題是o3背后技術的擴展瓶頸在哪。如果人類標注的CoT數據(Chain-of-Thought,思維鏈)是一個主要瓶頸,那么它的能力就會像大模型一樣迅速達到頂峰(直到下一個架構出現)。如果唯一的瓶頸是測試時間搜索(Test-Time Search),那么未來我們將看到持續的擴展。
值得一提的是,除了OpenAI,各家AI公司近期也紛紛發布推理模型。
11月16日,月之暗面(Moonshot AI)Kimi推出新一代數學推理模型k0-math;11月20日,DeepSeek發布了首個推理模型DeepSeek-R1-Lite預覽版。11月28日,阿里云通義團隊發布全新AI推理模型QwQ-32B-Preview;在當地時間12月19日,谷歌發布首個推理模型Gemini 2.0 Flash Thinking。
英偉達CEO黃仁勛在10月的一次訪談中曾表達了對于推理的看好。他認為:“現在我們在后訓練和推理階段看到了擴展,預訓練再也不被視為艱難,推理也變得復雜。推理方面即將因推理鏈的出現而大幅增長……這是一場智能生產的革命,推理的增長將達到億倍的規模,這就像上學是為了將來在社會中有所貢獻,訓練模型很重要,但最終的目標是推理”。
月之暗面Kimi創始人楊植麟也在11月表示,推理的占比必然會遠超訓練,AI產品包括AI技術接下來的發展,很重要的能力就是更加深度的推理,能夠把現在只是短鏈路的簡單的問答,變成更長鏈路的組合式任務的操作。