언어모델은 안전성 검사, 즉 유해할수 있는 결과를 생성해낼 가능성이 있다면 배포될 수 없다. 이러한 검사는 human annotator에 의해 손수작성된 테스트 케이스를 사용하는데 이는 비싸다 이를 위해 우리는 target LM(배포할려는 모델)이 부적절하게 행동하는, 테스트케이스를 생성함으로써(red-teaming) 경우를 다른 LM을 통해 자동화해서 찾는다 우리는 생성된 테스트 질문(red lm)에 대한 target LM의 응답을 분류기(red clf)를 사용하여 평가하며, 이 분류기는 공격적인 콘텐츠를 감지하도록 훈련되었다. 이를 통해 2800억 매개변수의 LM 챗봇(target lm)에서 수만 개의 공격적인 응답을 발견했다. 우리는 다양한 수준의 다양성과 난이도를 가진 테스트 사례를 생성하기 위해..