inference-time, RLHF/red-team

Red Teaming Language Models with Language Model 2022/2/7

jinuklee 2024. 6. 29. 02:23

언어모델은 안전성 검사, 즉 유해할수 있는 결과를 생성해낼 가능성이 있다면 배포될 수 없다. 

이러한 검사는 human annotator에 의해 손수작성된 테스트 케이스를 사용하는데 이는 비싸다

 이를 위해 우리는 target LM(배포할려는 모델)이 부적절하게 행동하는, 테스트케이스를 생성함으로써(red-teaming) 경우를 다른 LM을 통해 자동화해서 찾는다

 

우리는 생성된 테스트 질문(red lm)에 대한 target LM의 응답을 분류기(red clf)를 사용하여 평가하며, 이 분류기는 공격적인 콘텐츠를 감지하도록 훈련되었다. 이를 통해 2800억 매개변수의 LM 챗봇(target lm)에서 수만 개의 공격적인 응답을 발견했다. 우리는 다양한 수준의 다양성과 난이도를 가진 테스트 사례를 생성하기 위해 zero-shot 생성부터 강화 학습에 이르는 여러 방법을 탐구했습니다. 또한, 프롬프트 엔지니어링을 사용하여 LM이 생성한 테스트 사례를 제어하여 다양한 다른 해악을 발견했습니다. 이 과정에서 챗봇이 공격적으로 논의하는 사람들 그룹을 자동으로 찾고, 챗봇 자신의 contact 정보로 생성된 개인 및 병원의 전화번호, 생성된 텍스트에서의 private training 데이터 유출, 그리고 대화 과정에서 발생하는 harm등을 발견했습니다. 전반적으로, LM 기반의 red-team 활동은 사용자에게 영향을 미치기 전에 다양한 바람직하지 않은 LM 행동을 찾고 수정하는 데 필요한 많은 도구 중 하나로 유망한 도구