분류 전체보기 250

On scalable oversight with weak LLMs judgingstrong LLMs 논문 리뷰

https://arxiv.org/pdf/2407.04622출발점두 AI 사이의 토론을 통해 judge model에 올바른 대답을 선택하게 한다는 아이디어( AI safety via debate arxiv)에서 출발토론에서의 nash equilibria 와 같이 두 AI 모두 가장 convincing(설득력 잇는) 방식으로 judge(심판) AI에게 진실을 말할 것이라는 hope1. Introduction유형 1. Extractive질문과 그에 따른 답변 선택지 2개, 그리고 원본 source article하지만 judge model can't see the article -> information-asymmetry2. closed질문과 그에 따른 답변 선택지 2개만 존재3. multimodal 이미지 포..

Weak-to-Strong Reasoning 논문리뷰 (Llama3-8b-instruct 로 Llama3-70b 훈련할때 supervise)

Full Weak FT” refers to the results of the baseline where the strong model is naively fine-tuned on the full dataset generated by the weak model강한 모델이 약한 모델에 의해 파인튜닝됨현재 약한 모델에서 강한 모델로의 추론 프레임워크( weak-to-strong reasoning framework )내에서, 단순한 미세 조정을 넘어서 약한 오류의 과적합을 방지하고 강한 모델의 본질적인 추론 능력을 더욱 끌어내기 위한 효과적인 방법이 부족한 상황입니다 첫 번째 단계에서, 더 정확할 가능성이 높은 적은 양의 데이터를 활용하는 것이 더 유리하다고 가정약한 모델이 생성한 데이터 강한 모델이 ICL을 ..

카테고리 없음 2024.07.22

The Prompt Report: A Systematic Survey of Prompting Techniques 논문 리뷰 (프롬프팅 기법에 관해)

https://arxiv.org/abs/2406.06608 The Prompt Report: A Systematic Survey of Prompting TechniquesGenerative Artificial Intelligence (GenAI) systems are being increasingly deployed across all parts of industry and research settings. Developers and end users interact with these systems through the use of prompting or prompt engineering. While promptingarxiv.orgThe Prompt Report: A Systematic Survey ..

프롬프팅 2024.07.22

Q*

https://arxiv.org/abs/2406.14283LLM의 auto regressive 과정은 '시스템 1' 로 특징지을 수 있는데이는 빠르고 본능적이지만 정확도가 떨어지는 사고 방식으로 최근의 연구들은 주로  프롬프팅, 파라미터 조정, reward 모델 훈련으로 LLM의 '시스템 1' 능력을 향상시키는 데 초점을 맞추고 있다:  반면, 복잡한 추론 문제를 해결하기 위해서는 더 심층적이고 신중하며 논리적인 사고 단계, 즉 '시스템 2' 모드가 필요하다. 수학 문제 해결을 예로 들면, 잘못된 중간 추론 단계 (예: 계산 오류, 잘못된 해석)는 잠재적으로 최종 답변의 오류로 이어질 수 있다. '시스템 2' 추론 능력을 향상시키기 위한 이전의 시도 에는 기본적인 트리 검색 알고리즘 (ToT), MCTS..

카테고리 없음 2024.07.19

graph of thought 논문 리뷰 (GoT)

기존의 related workCoT- SC (여러개의 CoT 생성후 best를 선택)ToT (LLM의 reasoning 과정을 tree형태로 모델링) GoT---------------------사고의 다양한 과정을 사용, 또한 이전의 사고(thought)으로 backtrack도 가능하게함 하지만 사고라는 과정 자체를 rigid한 tree 구조에만 제한했다는 한계가 존재 이 연구에서 우리는 LLM의 사고가 임의의 그래프 구조를 형성할 수 있게 함으로써 근본적으로 더 강력한 프롬프팅을 달성할 수 있다고 주장 e.g)이는 인간의 추론, 뇌 구조, 또는 알고리즘 실행과 같은 다양한 현상에서 동기를 얻었다. 새로운 아이디어를 작업할 때, 인간은 단순히 사고의 연쇄(CoT에서처럼)를 따르거나 서로 다른 별개의 사고..

speculative RAG

TriviaQA, MuSiQue, PubHealth,  ARC-Challenge 벤치마크에서 SOTA 달성 RAG 시스템에 대한 기존 연구는 주로 retrieval 결과의 contextual 정보 품질을 향상시키는 데 집중하고 있지만, 이러한 시스템과 관련된 latency 지연관련 문제는 종종 무시한다Query rewriting in retrieval-augmented large language modelsCorrective RAGself RAG보통 refinement 반복과 별로의 instruction-tuning 등에 의존하기에 부가적인 훈련, 지연시간 증가를 필요로 하게 되는 것 따라서 speculative decoding(작은 draft 모델)에 영감을 받은 RAG 프레임워크를 소개   SPECU..

카테고리 없음 2024.07.17

Quiet-STaR : AI 논문리뷰

기존의 연구들은 특정 reasoning 과제를 제공하거나 경우에 따라 reasoning 자체를 제공하기 위해 신중하게 선별된 데이터셋에 의존합니다.여기서 의문점이 만약 reasoning이 모든 텍스트에 내재되어 있다면, reasoning을 가르치기 위해 언어 모델링이라는 과제에 leverage 하지 말아야 할 이유가 있을까이다 1. Parallel rationale generation (think,2. Mixing post-rationale and base predictions (talk,3. Optimizing rationale generation (learn

video-STaR

Q* - part 2Video-STaR - 2024년 7월 8일자 논문https://arxiv.org/abs/2407.06189visual-language alignment , instruction tuning를 통한 LVLM에서향상된 instruction 데이터 생성이 목표 (라벨링된 어느 비디오 데이터든 적용 가능함)----------Self-Taught Reasoners (STaR)LLM에 프롬프트를 통해 요청하여 CoT 형태로 답변 생성(rationalized), 올바른 답변된 질문만을 추가 훈련에 사용하는 방식----------verifier를 통해 label 에 포함된 단어가 있는 답변만 통과되는 형식 등 사용해 self training with augmented Reasoning(STaR)를..

카테고리 없음 2024.07.15