OpenAI revela segredos de aprendizado por reforço, competição acirrada entre empresas de IA chinesas
OpenAI publica pesquisa sobre modelos de inferência
Em 12 de fevereiro, a OpenAI revelou os segredos de sua série O de aprendizado por reforço, influenciada pelas empresas de IA chinesas. A OpenAI publicou o artigo de pesquisa intitulado "Competitive Programming with Large Reasoning Models", que mostrou o desempenho de três modelos de inferência da OpenAI: o1, o1-ioi e o3 nas competições IOI (Olimpíada Internacional de Informática) e CodeForces (competição global de programação online). O artigo mostrou que, na IOI de 2024, o modelo o3 obteve a medalha de ouro com 395,64 pontos, cumprindo as regras rigorosas, e teve desempenho semelhante ao dos melhores competidores humanos na CodeForces.
Avanços das empresas chinesas de IA
O artigo também menciona que as empresas chinesas DeepSeek-R1 e Kimi k1.5, por meio de pesquisas independentes, demonstraram que o uso do método Chain-of-Thought (COT) pode melhorar significativamente o desempenho dos modelos na resolução de problemas matemáticos e desafios de programação. O R1 e o k1.5 são novos modelos de inferência lançados simultaneamente pelas empresas DeepSeek e Kimi em 20 de janeiro. O lançamento desses modelos marca um avanço significativo das empresas de IA chinesas na competição internacional.
Melhoria de desempenho por meio de aprendizado por reforço
O artigo comparou o desempenho de modelos de linguagem de grande escala treinados com aprendizado por reforço (RL) em tarefas complexas de codificação e inferência. Os resultados mostraram que adicionar cálculos e testes de aprendizado por reforço pode melhorar significativamente o desempenho dos modelos, aproximando-os dos melhores competidores humanos. Esses modelos desbloquearão novas experiências em aplicações de IA em ciência, codificação e matemática.
Perspectivas futuras
A competição entre a OpenAI e as empresas de IA chinesas nos campos de modelos de inferência e aprendizado por reforço está acelerando o rápido desenvolvimento da tecnologia de IA. À medida que essas tecnologias continuam a avançar, podemos esperar mais aplicativos de IA em pesquisa científica, competições de programação e resolução de problemas matemáticos, trazendo soluções mais eficientes e inteligentes. Essa competição tecnológica de IA não só trouxe inovações para a indústria, mas também forneceu mais opções e possibilidades para usuários globais.
Conclusão
A revelação dos segredos de aprendizado por reforço da série O da OpenAI demonstra seu desempenho excelente em programação competitiva, além de destacar o rápido crescimento das empresas de IA chinesas nesse campo. Por meio do aprendizado por reforço e da técnica Chain-of-Thought, o desempenho dos modelos foi significativamente melhorado, abrindo novas perspectivas para a aplicação de IA em ciência, codificação e matemática. Com o contínuo avanço da tecnologia, espera-se que a IA mostre seu grande potencial e valor de aplicação em diversos campos.