페르소나 hub라는 합성데이터 방법론을 제시한다.간단한 정의 - 웹데이터로부터 10억개의 페르소나를 통해 자동으로 조정된(curated) 모음이 페르소나 hub를 통해 합성데이터 생성시 다양한 시나리오에서 다양한 합성데이터의 생성을 가능하게 한다.또한 이 방법을 통해 생성해낸 수학, 논리적인 추론 문제, instruction 등에 대한 유스케이스를 통해 얼마나 효과적인지에 대한 평가 또한 제공한다. 기본적으로 sampling(llm의 temperature 같은) 없이 합성데이터를 만들 때 프롬프트 한개당 LLM은 하나의 인스턴스만을 생성할수 있다.(애초에 기존의 sampling 같은경우 본질적인 한계로 다양한 데이터를 생성해내지 못한다) 따라서 합성데이터를 만들기 위해서 매우 많은 양의 다양한 프롬프트..