Cartão do Sistema OpenAI o1

Resumo

A série de modelos o1 é treinada com aprendizado por reforço em larga escala para raciocinar usando cadeias de pensamento. Essas capacidades avançadas de raciocínio abrem novas possibilidades para melhorar a segurança e robustez de nossos modelos. Em particular, nossos modelos podem raciocinar sobre nossas políticas de segurança em contexto ao responder a estímulos potencialmente inseguros, por meio de alinhamento deliberativo. Isso resulta em desempenho de ponta em determinados benchmarks de riscos, como gerar conselhos ilícitos, escolher respostas estereotipadas e sucumbir a jailbreaks conhecidos. Treinar modelos para incorporar uma cadeia de pensamento antes de responder tem o potencial de desbloquear benefícios substanciais, ao mesmo tempo em que aumenta os riscos potenciais decorrentes de uma inteligência mais elevada. Nossos resultados destacam a necessidade de desenvolver métodos de alinhamento robustos, testar extensivamente sua eficácia e manter protocolos meticulosos de gerenciamento de riscos. Este relatório delineia o trabalho de segurança realizado para os modelos OpenAI o1 e OpenAI o1-mini, incluindo avaliações de segurança, testes externos de equipe vermelha e avaliações do Framework de Prontidão.

English

The o1 model series is trained with large-scale reinforcement learning to reason using chain of thought. These advanced reasoning capabilities provide new avenues for improving the safety and robustness of our models. In particular, our models can reason about our safety policies in context when responding to potentially unsafe prompts, through deliberative alignment. This leads to state-of-the-art performance on certain benchmarks for risks such as generating illicit advice, choosing stereotyped responses, and succumbing to known jailbreaks. Training models to incorporate a chain of thought before answering has the potential to unlock substantial benefits, while also increasing potential risks that stem from heightened intelligence. Our results underscore the need for building robust alignment methods, extensively stress-testing their efficacy, and maintaining meticulous risk management protocols. This report outlines the safety work carried out for the OpenAI o1 and OpenAI o1-mini models, including safety evaluations, external red teaming, and Preparedness Framework evaluations.

Cartão do Sistema OpenAI o1

OpenAI o1 System Card

Resumo

Summary

Support