전체 글 286

Q*

https://arxiv.org/abs/2406.14283LLM의 auto regressive 과정은 '시스템 1' 로 특징지을 수 있는데이는 빠르고 본능적이지만 정확도가 떨어지는 사고 방식으로 최근의 연구들은 주로  프롬프팅, 파라미터 조정, reward 모델 훈련으로 LLM의 '시스템 1' 능력을 향상시키는 데 초점을 맞추고 있다:  반면, 복잡한 추론 문제를 해결하기 위해서는 더 심층적이고 신중하며 논리적인 사고 단계, 즉 '시스템 2' 모드가 필요하다. 수학 문제 해결을 예로 들면, 잘못된 중간 추론 단계 (예: 계산 오류, 잘못된 해석)는 잠재적으로 최종 답변의 오류로 이어질 수 있다. '시스템 2' 추론 능력을 향상시키기 위한 이전의 시도 에는 기본적인 트리 검색 알고리즘 (ToT), MCTS..

카테고리 없음 2024.07.19

graph of thought 논문 리뷰 (GoT)

기존의 related workCoT- SC (여러개의 CoT 생성후 best를 선택)ToT (LLM의 reasoning 과정을 tree형태로 모델링) GoT---------------------사고의 다양한 과정을 사용, 또한 이전의 사고(thought)으로 backtrack도 가능하게함 하지만 사고라는 과정 자체를 rigid한 tree 구조에만 제한했다는 한계가 존재 이 연구에서 우리는 LLM의 사고가 임의의 그래프 구조를 형성할 수 있게 함으로써 근본적으로 더 강력한 프롬프팅을 달성할 수 있다고 주장 e.g)이는 인간의 추론, 뇌 구조, 또는 알고리즘 실행과 같은 다양한 현상에서 동기를 얻었다. 새로운 아이디어를 작업할 때, 인간은 단순히 사고의 연쇄(CoT에서처럼)를 따르거나 서로 다른 별개의 사고..

speculative RAG

TriviaQA, MuSiQue, PubHealth,  ARC-Challenge 벤치마크에서 SOTA 달성 RAG 시스템에 대한 기존 연구는 주로 retrieval 결과의 contextual 정보 품질을 향상시키는 데 집중하고 있지만, 이러한 시스템과 관련된 latency 지연관련 문제는 종종 무시한다Query rewriting in retrieval-augmented large language modelsCorrective RAGself RAG보통 refinement 반복과 별로의 instruction-tuning 등에 의존하기에 부가적인 훈련, 지연시간 증가를 필요로 하게 되는 것 따라서 speculative decoding(작은 draft 모델)에 영감을 받은 RAG 프레임워크를 소개   SPECU..

카테고리 없음 2024.07.17

Quiet-STaR : AI 논문리뷰

기존의 연구들은 특정 reasoning 과제를 제공하거나 경우에 따라 reasoning 자체를 제공하기 위해 신중하게 선별된 데이터셋에 의존합니다.여기서 의문점이 만약 reasoning이 모든 텍스트에 내재되어 있다면, reasoning을 가르치기 위해 언어 모델링이라는 과제에 leverage 하지 말아야 할 이유가 있을까이다 1. Parallel rationale generation (think,2. Mixing post-rationale and base predictions (talk,3. Optimizing rationale generation (learn

video-STaR

Q* - part 2Video-STaR - 2024년 7월 8일자 논문https://arxiv.org/abs/2407.06189visual-language alignment , instruction tuning를 통한 LVLM에서향상된 instruction 데이터 생성이 목표 (라벨링된 어느 비디오 데이터든 적용 가능함)----------Self-Taught Reasoners (STaR)LLM에 프롬프트를 통해 요청하여 CoT 형태로 답변 생성(rationalized), 올바른 답변된 질문만을 추가 훈련에 사용하는 방식----------verifier를 통해 label 에 포함된 단어가 있는 답변만 통과되는 형식 등 사용해 self training with augmented Reasoning(STaR)를..

카테고리 없음 2024.07.15

self-refine Iterative Refinement with Self-Feedback 논문리뷰

25 May 2023 주안점 self-provided feedbackgenerate an initial output using an LLM; then, the same LLM provides feedback for its output and uses it to refine itself, iteratively  until a stopping condition is met. The stopping condition stop(f bt, t) either stops at a specified timestep t, or extracts a stopping indicator (e.g. a scalar stop score) from the feedback. To inform the model about the pre..

프롬프팅 2024.07.14

flashattention v3

flashattention v3 - 2024/ 7/ 11https://pytorch.org/blog/flashattention-3/엔비디아 H100 의 이론적으로 처리가능한 최대 FLOPS 의 75% 달성flashattention v2에 비해 16bit에서 2배 빠름용어정리 - Claude 피셜WGMMAWarp-level General Matrix Multiply Accumulate의 약자입니다.NVIDIA의 최신 GPU 아키텍처에서 도입된행렬 곱셈 연산을 위한 특수 명령어TMA엔비디아 H100 (Hopper 아키텍쳐)의비동기 실행(async)에는 글로벌 메모리와 공유 메모리 간에대용량 데이터를 효율적으로 전송할 수 있는 Tensor 메모리 가속기(TMA) 장치가 포함되어 있음GEMM General Ma..

카테고리 없음 2024.07.12

Internet of Agents 논문 리뷰 - 2024 / 7 / 9

multi agent - part 4IoA(Internet of Agents) - 2024 / 7 / 9 https://arxiv.org/pdf/2407.07061인터넷에 영감을 받아 만든 멀티에이젼트 프레임워크 인터넷의 발전으로 위키피디아, Linux OS 같은 사람간의 협력이 어떤 결과물로 나온것처럼 AI agent를 이와 같은 환경에 둘수 없을까? 1. 제한된 환경(ecosystem)대부분의 프레임워크는 자체 시스템(ecosystem) 내에서 정의된 에이전트만을 고려하기 때문에,다양한 서드파티 agent 의 통합을 차단하고 에이전트 기능의 다양성과 platform의 generality 을 제한할 수 있다 (2) 단일 device 시뮬레이션거의 모든 멀티에이전트 프레임워크는단일 기기에서 다중 에이전트..

카테고리 없음 2024.07.12