적대적 강인성을 위해 추론 시간 계산을 교환하기
Trading Inference-Time Compute for Adversarial Robustness
January 31, 2025
저자: Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese
cs.AI
초록
우리는 추론 모델(구체적으로 OpenAI o1-preview 및 o1-mini)의 적대적 공격에 대한 견고성에 미치는 추론 시간 컴퓨팅 증가의 영향에 대한 실험을 수행합니다. 다양한 공격을 통해, 추론 시간 컴퓨팅 증가가 견고성을 향상시키는 것을 발견했습니다. 중요한 예외를 제외하고, 공격이 성공하는 모델 샘플의 비율은 테스트 시간 컴퓨팅 양이 증가함에 따라 거의 제로에 수렴하는 경향이 있습니다. 우리는 연구 대상 작업에 대해 적대적 훈련을 수행하지 않으며, 공격 형태와는 독립적으로 모델이 추론에 더 많은 컴퓨팅을 사용하도록 함으로써 추론 시간 컴퓨팅을 증가시킵니다. 우리의 결과는 추론 시간 컴퓨팅이 대형 언어 모델의 적대적 견고성을 향상시킬 수 있는 잠재력이 있다는 것을 시사합니다. 또한 추론 모델을 향한 새로운 공격을 탐구하고, 추론 시간 컴퓨팅이 신뢰성을 향상시키지 않는 상황 및 그 이유와 이를 해결하는 방법에 대해 고찰합니다.
English
We conduct experiments on the impact of increasing inference-time compute in
reasoning models (specifically OpenAI o1-preview and o1-mini) on their
robustness to adversarial attacks. We find that across a variety of attacks,
increased inference-time compute leads to improved robustness. In many cases
(with important exceptions), the fraction of model samples where the attack
succeeds tends to zero as the amount of test-time compute grows. We perform no
adversarial training for the tasks we study, and we increase inference-time
compute by simply allowing the models to spend more compute on reasoning,
independently of the form of attack. Our results suggest that inference-time
compute has the potential to improve adversarial robustness for Large Language
Models. We also explore new attacks directed at reasoning models, as well as
settings where inference-time compute does not improve reliability, and
speculate on the reasons for these as well as ways to address them.Summary
AI-Generated Summary