OpenAI раскрывает секреты обучения с подкреплением, усиленная конкуренция среди китайских AI-компаний

OpenAI публикует исследование моделей вывода
12 февраля OpenAI раскрыла секреты своего O-сериала обучения с подкреплением, под влиянием китайских AI-компаний. OpenAI опубликовала исследовательскую статью под названием «Competitive Programming with Large Reasoning Models», в которой демонстрируются результаты трех моделей вывода OpenAI: o1, o1-ioi и o3 в IOI (Международной олимпиаде по информатике) и CodeForces (мировом онлайн-конкурсе по программированию). В статье говорится, что на IOI 2024 модель o3 получила золотую медаль, набрав 395,64 балла при строгих правилах, а ее результаты на CodeForces были сопоставимы с результатами лучших человеческих участников.
Прорывы китайских AI-компаний
В статье также отмечается, что китайские компании DeepSeek-R1 и Kimi k1.5 в ходе независимых исследований показали, что использование метода Chain-of-Thought (COT) значительно улучшает результаты моделей при решении математических задач и программировании. Модели R1 и k1.5 были одновременно выпущены компаниями DeepSeek и Kimi 20 января. Эти новые модели вывода стали важным прорывом китайских AI-компаний в международной конкуренции.
Повышение производительности с помощью обучения с подкреплением
Статья сравнивает производительность крупных языковых моделей, обученных с использованием обучения с подкреплением (RL), в сложных задачах кодирования и вывода. Исследования показали, что добавление вычислений обучения с подкреплением и тестирования значительно повышает производительность моделей, приближая их к лучшим человеческим участникам. Эти модели откроют новые возможности для применения AI в таких областях, как наука, программирование и математика.
Будущее
Конкуренция между OpenAI и китайскими AI-компаниями в области моделей вывода и обучения с подкреплением ускоряет развитие технологий AI. С развитием этих технологий можно ожидать появления большего числа приложений AI в научных исследованиях, конкурсах по программированию и решении математических задач, что приведет к более эффективным и интеллектуальным решениям. Этот технологический конкурс в области AI не только привел к инновациям в отрасли, но и открыл больше возможностей для пользователей по всему миру.
Заключение
Публикация секретов обучения с подкреплением в серии O от OpenAI демонстрирует его успех в конкурентном программировании и подчеркивает быстрый рост китайских AI-компаний в этой области. С помощью обучения с подкреплением и метода Chain-of-Thought производительность моделей была значительно улучшена, открывая новые перспективы для применения AI в науке, программировании и математике. По мере дальнейшего прогресса технологий AI будет демонстрировать свой огромный потенциал и ценность применения в различных областях.