OpenAI 透露強化學習秘密，中國 AI 公司競爭激烈

OpenAI 發布推理模型研究
2 月 12 日消息，在中國 AI 公司的影響下，OpenAI 公開了 O 系列強化學習的秘密。OpenAI 發布了關於推理模型在競技編程中應用的研究論文報告《Competitive Programming with Large Reasoning Models》，文中展示了 OpenAI 的三個推理模型：o1、o1-ioi、o3 在 IOI（國際信息學奧林匹克競賽）和 CodeForces（全球知名在線編程競賽）中的成績。論文顯示，在 IOI 2024 中，o3 在嚴格規則下拿到 395.64 分，達成金牌成就，並且在 CodeForces 上的表現與人類精英選手相當。
中國 AI 公司的突破
論文中還提到，中國的 DeepSeek-R1 和 Kimi k1.5 透過獨立研究顯示，利用思維鏈學習（COT）方法，可顯著提升模型在數學解題與編程挑戰中的綜合表現。R1、k1.5 是 DeepSeek 和 Kimi 在 1 月 20 日同時發布的新型推理模型。這些模型的發布標誌著中國 AI 公司在國際競爭中取得了重要突破。
強化學習的性能提升
該論文通過強化學習（RL）訓練的大型語言模型在複雜編碼和推理任務上的性能提升，比較了通用推理模型與針對特定領域優化的系統在競技編程中的表現。研究結果表明，增加強化學習訓練計算和測試時計算可顯著提升模型性能，使其接近世界頂尖人類選手。這些模型將在科學、編碼、數學等領域的 AI 應用中解鎖新的應用體驗。
未來展望
OpenAI 和中國 AI 公司在推理模型和強化學習領域的競爭，推動了 AI 技術的快速發展。隨著這些技術的不斷進步，未來我們可以期待更多 AI 在科學研究、編程競賽和數學解題等領域的應用，帶來更高效和智能的解決方案。這場 AI 技術的競賽不僅為行業帶來了創新，也為全球用戶提供了更多選擇和可能性。
結論
OpenAI 公開 O 系列強化學習的秘密，展示了其在競技編程中的卓越表現，同時也顯示了中國 AI 公司在這一領域的快速崛起。通過強化學習和思維鏈學習方法，模型性能得到了顯著提升，為 AI 在科學、編碼和數學等領域的應用開闢了新的前景。未來，隨著技術的不断进步，AI 將在更多領域中展現其強大的潛力和應用價值。