이진욱님의 블로그

  • 홈
  • 태그
  • 방명록
  • 빅테크 리포트
  • LLM
  • 멀티모달
  • 디퓨전 모델

데이터셋/합성데이터 1

Scaling Synthetic Data Creation with 1,000,000,000 Personas 논문 (합성데이터)

페르소나 hub라는 합성데이터 방법론을 제시한다.간단한 정의 - 웹데이터로부터 10억개의 페르소나를 통해 자동으로 조정된(curated) 모음이 페르소나 hub를 통해 합성데이터 생성시 다양한 시나리오에서 다양한 합성데이터의 생성을 가능하게 한다.또한 이 방법을 통해 생성해낸 수학, 논리적인 추론 문제, instruction 등에 대한 유스케이스를 통해 얼마나 효과적인지에 대한 평가 또한 제공한다. 기본적으로 sampling(llm의 temperature 같은) 없이 합성데이터를 만들 때 프롬프트 한개당  LLM은 하나의 인스턴스만을 생성할수 있다.(애초에 기존의 sampling 같은경우 본질적인 한계로 다양한 데이터를 생성해내지 못한다) 따라서 합성데이터를 만들기 위해서 매우 많은 양의 다양한 프롬프트..

데이터셋/합성데이터 2024.07.06
이전
1
다음
더보기
프로필사진

이진욱님의 블로그

ai research memo for reference

  • 분류 전체보기 (287)
    • inference-time, RLHF (41)
      • STaR, ReST (4)
      • STaR, ResT - LMM (17)
      • search (language) (10)
      • search (multimodal) (2)
      • Process reward model (6)
      • scalable oversight (1)
      • red-team (1)
    • VLM (5)
    • RLFH (2)
    • 프롬프팅 (3)
    • interpretability (2)
    • agent (23)
      • on-device agent (1)
      • multi - agent (17)
      • 멀티 에이젼트 결과 (2)
    • PEFT (1)
      • LoRA (1)
    • multi-step reasoning(수학, 코딩.. (7)
      • 멀티모달 cot (5)
    • 한계 limitation (1)
    • 데이터셋 (3)
      • 합성데이터 (1)
    • 3D, real world, game, VR (2)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바