금지된 과학: 이중용도 AI 도전 벤치마크 및 과학적 거부 테스트
Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
February 8, 2025
저자: David Noever, Forrest McKee
cs.AI
초록
대형 언어 모델의 견고한 안전 기준 개발을 위해서는 유해 콘텐츠의 적절한 거부와 합법적인 과학적 논의의 잠재적 과도한 제한을 측정할 수 있는 공개되고 재현 가능한 데이터셋이 필요합니다. 우리는 주로 통제된 물질 쿼리를 통해 LLM 안전 메커니즘을 평가하기 위한 오픈 소스 데이터셋과 테스트 프레임워크를 제시합니다. 우리의 결과는 다음과 같습니다: Claude-3.5-sonnet은 73%의 거부와 27%의 허용으로 가장 보수적인 접근을 보여주었으며, Mistral은 쿼리의 100%에 답변하려고 시도했습니다. GPT-3.5-turbo는 10%의 거부와 90%의 허용을 보여주며, Grok-2는 20%의 거부와 80%의 허용을 등록했습니다. 테스트 프롬프트 변화 전략은 단일 프롬프트에서 85%에서 다섯 가지 변화로 감소하는 응답 일관성을 보여주었습니다. 이 공개적으로 이용 가능한 벤치마크는 필요한 안전 제한과 합법적인 과학적 조사의 잠재적 과도한 검열 사이의 중요한 균형을 체계적으로 평가할 수 있도록 하며, AI 안전 구현의 진전을 측정하기 위한 기초를 제공합니다. 사고 연쇄 분석은 안전 메커니즘의 잠재적 취약성을 드러내며, 바람직하고 타당한 과학적 논의를 지나치게 제한하지 않고 견고한 보호장치를 구현하는 복잡성을 강조합니다.
English
The development of robust safety benchmarks for large language models
requires open, reproducible datasets that can measure both appropriate refusal
of harmful content and potential over-restriction of legitimate scientific
discourse. We present an open-source dataset and testing framework for
evaluating LLM safety mechanisms across mainly controlled substance queries,
analyzing four major models' responses to systematically varied prompts. Our
results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the
most conservative approach with 73% refusals and 27% allowances, while Mistral
attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction
with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and
80% allowances. Testing prompt variation strategies revealed decreasing
response consistency, from 85% with single prompts to 65% with five variations.
This publicly available benchmark enables systematic evaluation of the critical
balance between necessary safety restrictions and potential over-censorship of
legitimate scientific inquiry, while providing a foundation for measuring
progress in AI safety implementation. Chain-of-thought analysis reveals
potential vulnerabilities in safety mechanisms, highlighting the complexity of
implementing robust safeguards without unduly restricting desirable and valid
scientific discourse.Summary
AI-Generated Summary