OpenAI 公开强化学习秘密，中国 AI 公司竞争激烈

OpenAI 发布推理模型研究

2 月 12 日消息，在中国 AI 公司的影响下，OpenAI 公开了 O 系列强化学习的秘密。OpenAI 发布了关于推理模型在竞技编程中应用的研究论文报告《Competitive Programming with Large Reasoning Models》，文中展示了 OpenAI 的三个推理模型：o1、o1-ioi、o3 在 IOI（国际信息学奥林匹克竞赛）和 CodeForces（全球知名在线编程竞赛）中的成绩。论文显示，在 IOI 2024 中，o3 在严格规则下拿到 395.64 分，达成金牌成就，并且在 CodeForces 上的表现与人类精英选手相当。

中国 AI 公司的突破

论文中还提到，中国的 DeepSeek-R1 和 Kimi k1.5 通过独立研究显示，利用思维链学习（COT）方法，可显著提升模型在数学解题与编程挑战中的综合表现。R1、k1.5 是 DeepSeek 和 Kimi 在 1 月 20 日同时发布的新型推理模型。这些模型的发布标志着中国 AI 公司在国际竞争中取得了重要突破。

强化学习的性能提升

该论文通过强化学习（RL）训练的大型语言模型在复杂编码和推理任务上的性能提升，比较了通用推理模型与针对特定领域优化的系统在竞技编程中的表现。研究结果表明，增加强化学习训练计算和测试时计算可显著提升模型性能，使其接近世界顶尖人类选手。这些模型将在科学、编码、数学等领域的 AI 应用中解锁新的应用体验。

未来展望

OpenAI 和中国 AI 公司在推理模型和强化学习领域的竞争，推动了 AI 技术的快速发展。随着这些技术的不断进步，未来我们可以期待更多 AI 在科学研究、编程竞赛和数学解题等领域的应用，带来更高效和智能的解决方案。这场 AI 技术的竞赛不仅为行业带来了创新，也为全球用户提供了更多选择和可能性。

结论

OpenAI 公开 O 系列强化学习的秘密，展示了其在竞技编程中的卓越表现，同时也显示了中国 AI 公司在这一领域的快速崛起。通过强化学习和思维链学习方法，模型性能得到了显著提升，为 AI 在科学、编码和数学等领域的应用开辟了新的前景。未来，随着技术的不断进步，AI 将在更多领域中展现其强大的潜力和应用价值。