japanese55老妇成熟乱-japanese厨房乱tub偷-japanese黑人高清-japanese黑人极品高清-日韩欧美亚洲国产高清在线-日韩欧美亚洲

會員登錄 - 用戶注冊 - 設為首頁 - 加入收藏 - 網站地圖 “神秘的東方力量”出現,全球科技圈慌了?!

“神秘的東方力量”出現,全球科技圈慌了?

時間:2025-02-05 16:57:29 來源:班荊道舊網 作者:娛樂 閱讀:831次

  來源:中國新聞周刊 

  AI圈又領教了一回“神秘的神秘東方力量”。

  1月20日,量出國內人工智能技術企業深度求索(DeepSeek)官宣了其最新AI推理模型DeepSeek R1。現全該模型在數學、球科代碼和自然語言推理等任務上表現優異,技圈性能直接對標美國OpenAI最新的神秘推理模型o1。此時,量出距離o1的現全正式發布過去還不到半年。

  消息一出,球科AI圈幾近沸騰。技圈社交平臺X上,神秘有國外大廠工程師直白表示,量出其所在生成式模型研發部門“處于恐慌之中”。現全英偉達資深科學家Jim Fan給予R1極高評價,球科稱其不僅開源,技圈還分享了所有模型訓練細節,做了OpenAI“一直聲稱要做卻沒做到的事”。一時間,圈內掀起了測試和復刻R1的熱潮。1月27日,DeepSeek同時登頂蘋果中美兩區App免費榜。據媒體報道,這也是唯一一次中國應用能同期在中國和美區蘋果App Store占據第一位。

  多位業內人士指出,DeepSeek此次最大的貢獻,是向世界展示了快速、低成本實現o1同等模型能力的可能性。清華大學計算機科學與技術系副教授劉知遠告訴《中國新聞周刊》,“東方力量”其實就是工程創新加持下的追趕能力。在算力吃緊的情況下,DeepSeek打了一場以少勝多的仗。

DeepSeek R1手機端App下載界面 圖/視覺中國DeepSeek R1手機端App下載界面 圖/視覺中國

  低成本培養出的“數理天才”

  DeepSeek R1有多厲害?

  有測試者讓R1詳細解釋勾股定理,R1在不到30秒的時間內生成了完整的圖形動畫,給出了經典的證明過程,沒有出現差錯。另一個常用的測試問題是碰撞檢測,測試者要求大模型編寫一個程序,使得一顆小球在某個緩慢旋轉的幾何形狀內彈跳,并保持小球停留在形狀內。碰撞檢測十分考驗模型的推理能力,稍有不慎就會導致肉眼可見的物理錯誤。這項測試里,R1的表現明顯優于OpenAI o1 pro模式。

  OpenAI于2024年9月發布了推理模型o1,首次實現真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士級別”的科學問答環節上超越人類專家。新加坡南洋理工大學計算機學院助理教授劉子緯向《中國新聞周刊》解釋,傳統的ChatGPT模型屬于感知模型,擅長提取事件信息。但真實世界的很多任務不能僅靠感知完成,而是需要一定的決策推理,而且越復雜的任務決策成分越多,比如編程、數據分析等。因此,推理模型是業界公認的通往通用人工智能(AGI)不可或缺的模型形態。

  同為推理模型,在很多方面,R1都與o1的性能持平。在美國數學邀請賽AIME2024的測試中,R1取得了79.8%的成績,甚至略高于o1,甩開其他開源模型一大截。編碼類任務方面,R1也展現出專家級水平,在算法競賽平臺Codeforces上的表現超過了96.3%的人類參賽者。

  在DeepSeek公開的22頁技術報告中,有一個展示R1能力的直觀案例。在解決一道復雜數學表達式問題時,R1在解題步驟中突然停下來說“等等,這是個值得標記的啊哈時刻”,隨后自主修正了解題過程。“啊哈”類似于人類的頓悟,R1的這種行為完全是自發產生的,而非預先設定。這也意味著,它已經擁有了相當程度的思考和自悟能力。

  看上去R1已經走出了“題海戰術”,轉而進入了探究性學習的領域。事實上,這正是它的核心技術強化學習與傳統監督學習的差別。劉知遠指出,傳統大模型特別是o1以前的GPT系列模型,都采用監督學習的訓練方法,意味著模型學習的目標有標準答案。比如讓模型根據一篇文章的部分文字,去預測下一個詞。由于用于訓練的文章是完整的,因此這個詞是固定的,預測結果也有明確的對錯。人類就像嚴厲的老師,對模型的預測行為反復規訓。

  而強化學習則是在開放環境中進行的任務訓練,開發者只會告訴模型,它走出的每一步會得到外部環境怎樣的反饋。模型需要根據反饋,自己學會如何去接近最終目標。“這個世界沒有那么多純數學題,因此無法永遠通過給標準答案的方式,讓模型完成監督學習。”劉知遠說。從監督學習向強化學習的范式轉變,是實現推理模型的關鍵。

  劉子緯指出,o1可視作大模型強化學習的鼻祖,但其沒有公開技術文件,因此其強化學習的具體技術路線和占比,只能靠業內猜測,但可以確定其采用了預訓練、監督微調、強化學習的流程。預訓練類似“背書自學”基礎知識,監督微調類似學生模仿教師的示范來解例題,最后強化學習相當于“模擬考試”。而R1則拋棄了監督學習,也就是跳過了例題階段,僅憑基礎語言能力和數學規則,在持續解題試錯中自悟方法論,考出高分,這一點得到了絕大多數從業者的贊嘆。

  而除了性能外,R1更令人震撼的優點在于便宜。2024年底,DeepSeek推出V3模型,作為R1的前體,訓練成本僅為557.6萬美元,而2020年發布的GPT-3的訓練成本接近1200萬美元,GPT-4更是超1億美元。技術報告顯示,R1面向開發者的服務定價為每百萬輸入字符串(token)1—4元,這一價格只有o1的1/30左右。

  R1怎么能如此便宜?劉子緯認為,算力達到一定量級的情況下,可以通過工程創新把性能差距抹平。在堆算力的“大力出奇跡”路線進入瓶頸后,DeepSeek選擇了在底層算法、訓練模式和數據三個層面進行了工程迭代。基于混合專家模型、注意力機制等方面的創新,R1做到了“用50次運算達成別人做100次運算的效果”,效能提升明顯。而在拋棄監督學習后,計算資源的需求也大幅減少。

  由于超高性價比,1月27日,蘋果App Store中國區免費榜顯示,DeepSeek站上首位。同時,DeepSeek在美區蘋果App Store免費榜從昨日的第六位飆升至第一位。有業內人士稱,R1已經成為美國頂尖高校研究人員的首選模型。一位不愿具名的來自澳門大學的AI研究者向《中國新聞周刊》表示,R1完全可以取代日常科研對GPT模型的使用需求,在對科研文章的錯誤識別、修改潤色、語言轉換上都表現出色。

  商業化落地仍待探索

  盡管R1展現出了驚人的推理能力,但它的思維過程可能難以被人理解。技術報告指出,純強化學習訓練出來的模型存在可讀性差和語言混雜問題,有用戶反映多語言輸入可能會造成模型輸出混亂,有時中文的提問也可能得到英文的回答。這一現象更多出現在純強化學習的R1-Zero模型中。

  劉子緯也將R1形容為“有些偏科的數理天才”。R1在他眼中雖然很聰明,但給出的文字回復相比于o1缺乏流暢性和情緒價值,顯得笨拙。“公司定位會導致其偏重模型性能。”劉子緯說。由于DeepSeek還在提升模型能力,尚未開始優化用戶體驗,因此用戶親和度方面還有待提升。在這一點上,OpenAI涉足較早。

  但當創作任務涉及推演和類比時,R1的表現仍可圈可點。有測試者用簡單的幾個提示詞,就讓R1在極短時間內創作了一篇情節精彩的科幻小說。社交平臺上,有電影評論賬號喂給R1《出師表》,讓其仿照該文體創作一篇影評,R1給出了符合文言文規范,且“超越一般影評人”的洞見。劉子緯認為,模型的推理能力可以遷移到文學,令其產生通過邏輯思辨的方式創作議論文的能力。

  用戶使用R1的過程中,偶爾會得到錯誤答案,甚至有用戶發現詢問R1身份時,其可能自稱o1。這種混亂廣泛出現在現有大模型中,有業內人士認為,這源于大多數模型對OpenAI基礎模型的蒸餾。蒸餾即將訓練過的“教師模型”的知識傳遞給“學生模型”,從而在最大程度保存原模型性能的同時,大幅縮減計算資源消耗。“有模型做到了60分,我想迅速達到55分的水平,比較快的方式就是去蒸餾一個‘教師模型’,可以迅速拿到模型反饋,暴露思維過程,得到可貴的數據基礎。研發初期,許多企業都依靠或者部分依靠模型蒸餾。”劉子緯坦言。

  由于原模型只能提供60分的答案,要漲到70分就得靠模型努力找一條新路。因此蒸餾無法形成模型的真正迭代。劉知遠認為,強化學習是通向AGI的重要版圖之一,符合人類認知世界的方式,已成為大模型未來發展的業內共識,強化學習的技術成熟也需要時間。

  劉子緯指出,R1使用了一些GPT-4o產生的數據去做“熱啟動”,讓模型先形成對現有問題的基本認知,這也被稱為數據蒸餾。相比之下,完全通過“冷啟動”讓模型立刻進入強化學習狀態是非常困難的。“一個小學生學習知識也得先學課本,達到一定智力水平后,再進入實踐中學習。”用真實數據而非模型數據訓練模型是開發者的共識,但真實數據的篩選、清洗、降噪等工作并不容易。

  “即使用模型輸出數據也很難保證訓練結果,這取決于人類給模型創造了怎樣的問題,以及提供怎樣的答案。”劉子緯說。例如DeepSeek使用了大量代碼數據、數學題甚至奧數題用于訓練R1。“如何將這些數據喂給模型,需要大量創新。”

  從這個意義上說,R1的表現已足夠出色,而它的創造者的主業甚至不是AI。DeepSeek背后的投資公司為幻方量化,是一家依靠數學與計算機科學進行量化投資的基金公司。該公司從2016年起將深度學習模型應用于實盤交易,囤積了大量算力,正式成立大模型團隊DeepSeek的時間則是2023年。“也算是副業做得比主業出圈的典型了。”劉子緯說。

  大模型企業仍需審慎研判模型的商業價值,也就是能不能賺錢。劉知遠指出,國內外企業都還在尋找大模型的最佳變現方式。目前,市場上已有多家企業具備做出GPT水平大模型的能力,接下來要考慮區分度是什么,落地的用戶App是什么,以及在價格戰的前提下如何收回上億元的研發成本。這些問題的答案都還相對模糊。

  劉子緯認為,大模型已足夠強,但在垂類上跟用戶需求還沒有緊密貼合,未來AGI的核心交互形態也尚無定論。目前,國內外大模型企業一部分繼續高舉高打AGI,保證模型能力,通過用戶來試探落地方式。比如有學生用大模型來備考、寫論文等。另一部分企業則專注于做垂類應用,比如醫療領域。劉子緯預計,2025年會涌現一大批大模型應用,是真正的“強化學習之年”。

  多位業內人士表示,DeepSeek真正的價值,在于展示了工程實踐和理論創新之間的平衡點,開創了一條符合現實算力約束的技術迭代道路。“R1說明開源 AI 僅落后于閉源 AI 不到 6 個月。”在劉知遠看來,GPT階段也就是2023年初的時候, OpenAI模型發布之后,國內團隊需要一年的時間才能趕上。但是到了文生視頻模型Sora,以及后來的GPT-4o和o1,國內的追趕時間縮短到半年以內。 

  “DeepSeek的階段性成果釋放了一個信號,那就是通過芯片禁運等方式來遏制國內AI發展難以行通。這就是開源的力量。”劉知遠說。

  記者:周游(nolan.y.zhou@gmail.com)

點擊進入專題: DeepSeek“火”到海外

(責任編輯:探索)

推薦內容
  • 王菲春晚這首歌,總臺臺長對原歌詞有兩處改動
  • 更多歐美汽車工廠今年或將被關閉,“就像高壓鍋”
  • 韓媒:被逮捕總統尹錫悅已返回首爾拘留所
  • 以軍警告加沙民眾 停火生效后不要靠近其部署區域
  • 2025春節檔總票房破20億
  • 特朗普發虛擬幣,盤中暴漲1250%
主站蜘蛛池模板: 久久综合一区 | 乱一性一乱一交一视频 | 国产在线拍揄自揄视频不卡99 | 久久精品这里热有精品 | 伊人97| 2021国产精品视频 | 免费色网站| 99久久亚洲精品影院 | 四虎| 亚洲精品成人久久久影院 | 精品哟哟哟国产在线观看不卡 | 亚洲国产情侣偷自在线二页 | 亚洲欧美国产精品 | 免费va国产高清不卡大片 | 四虎精品影院2022 | 成年美女黄网站色大 | 精品在线视频免费 | 国产成人综合洲欧美在线 | 91精品国产免费青青碰在线观看 | 精子网久久国产精品 | 99re66热这里只有精品免费观看 | 污视频推荐 | 五月六月婷婷 | 婷婷在线免费视频 | 99视频有精品视频免费观看 | 手机在线欧美 | 久久精品国产只有精品66 | 久久国产亚洲 | 色综合天天综合网国产成人网 | 性开放视频 | 毛片三| 国产1区2区3区在线观看 | 91麻豆传传媒波多野衣久久看 | 天天干天天谢 | 色视频在线| 中文字幕亚洲图片 | 好紧我太爽了视频免费国产 | 日本视频在线免费播放 | 欧美色视频日本片免费高清 | 91麻豆国产| 国产在线视频在线 |