Q*
https://arxiv.org/abs/2406.14283LLM의 auto regressive 과정은 '시스템 1' 로 특징지을 수 있는데이는 빠르고 본능적이지만 정확도가 떨어지는 사고 방식으로 최근의 연구들은 주로 프롬프팅, 파라미터 조정, reward 모델 훈련으로 LLM의 '시스템 1' 능력을 향상시키는 데 초점을 맞추고 있다: 반면, 복잡한 추론 문제를 해결하기 위해서는 더 심층적이고 신중하며 논리적인 사고 단계, 즉 '시스템 2' 모드가 필요하다. 수학 문제 해결을 예로 들면, 잘못된 중간 추론 단계 (예: 계산 오류, 잘못된 해석)는 잠재적으로 최종 답변의 오류로 이어질 수 있다. '시스템 2' 추론 능력을 향상시키기 위한 이전의 시도 에는 기본적인 트리 검색 알고리즘 (ToT), MCTS..