이진욱님의 블로그

  • 홈
  • 태그
  • 방명록
  • 빅테크 리포트
  • LLM
  • 멀티모달
  • 디퓨전 모델

inference-time, RLHF/red-team 1

Red Teaming Language Models with Language Model 2022/2/7

언어모델은 안전성 검사, 즉 유해할수 있는 결과를 생성해낼 가능성이 있다면 배포될 수 없다. 이러한 검사는 human annotator에 의해 손수작성된 테스트 케이스를 사용하는데 이는 비싸다 이를 위해 우리는 target LM(배포할려는 모델)이 부적절하게 행동하는, 테스트케이스를 생성함으로써(red-teaming) 경우를 다른 LM을 통해 자동화해서 찾는다 우리는 생성된 테스트 질문(red lm)에 대한 target LM의 응답을 분류기(red clf)를 사용하여 평가하며, 이 분류기는 공격적인 콘텐츠를 감지하도록 훈련되었다. 이를 통해 2800억 매개변수의 LM 챗봇(target lm)에서 수만 개의 공격적인 응답을 발견했다. 우리는 다양한 수준의 다양성과 난이도를 가진 테스트 사례를 생성하기 위해..

inference-time, RLHF/red-team 2024.06.29
이전
1
다음
더보기
프로필사진

이진욱님의 블로그

ai research memo for reference

  • 분류 전체보기 (287) N
    • inference-time, RLHF (41)
      • STaR, ReST (4)
      • STaR, ResT - LMM (17)
      • search (language) (10)
      • search (multimodal) (2)
      • Process reward model (6)
      • scalable oversight (1)
      • red-team (1)
    • VLM (5)
    • RLFH (2)
    • 프롬프팅 (3)
    • interpretability (2)
    • agent (23)
      • on-device agent (1)
      • multi - agent (17)
      • 멀티 에이젼트 결과 (2)
    • PEFT (1)
      • LoRA (1)
    • multi-step reasoning(수학, 코딩.. (7)
      • 멀티모달 cot (5)
    • 한계 limitation (1)
    • 데이터셋 (3)
      • 합성데이터 (1)
    • 3D, real world, game, VR (2)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바