이진욱님의 블로그

  • 홈
  • 태그
  • 방명록
  • 빅테크 리포트
  • LLM
  • 멀티모달
  • 디퓨전 모델

agent/on-device agent 1

octo-planner 논문리뷰

nvidia A100 gpu 1개 사용 planner-action 프레임워크두개의 요소로 나눠진다1. planner agent엣지 디바이스를 위해 최적화된 octo-planner2. action agentfunction 실행을 위한 octupus 모델을 사용한 action agent 서브 스텝들(sub-steps)의 시퀸스로 나눠진 task의 질문(query)에 대한 응답을 planner가 생성하고 이를 실제로 실행하는 과정으로 이루어진다리소스가 제한된 환경에서 실행(성능 최적화 및, 컴퓨팅 최적화)시키기 위해 in-context 능력에 집중하기 보단(스케일링의 증가로 나타남) finetuning을 통한 모델을 사용한다.실제 데스크탑에서 12퍼센트 모바일 앱에서 46퍼였던 성능이 파인튜닝이후 훈련 데이터..

agent/on-device agent 2024.07.05
이전
1
다음
더보기
프로필사진

이진욱님의 블로그

ai research memo for reference

  • 분류 전체보기 (287)
    • inference-time, RLHF (41)
      • STaR, ReST (4)
      • STaR, ResT - LMM (17)
      • search (language) (10)
      • search (multimodal) (2)
      • Process reward model (6)
      • scalable oversight (1)
      • red-team (1)
    • VLM (5)
    • RLFH (2)
    • 프롬프팅 (3)
    • interpretability (2)
    • agent (23)
      • on-device agent (1)
      • multi - agent (17)
      • 멀티 에이젼트 결과 (2)
    • PEFT (1)
      • LoRA (1)
    • multi-step reasoning(수학, 코딩.. (7)
      • 멀티모달 cot (5)
    • 한계 limitation (1)
    • 데이터셋 (3)
      • 합성데이터 (1)
    • 3D, real world, game, VR (2)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바