multi-step reasoning(수학, 코딩, 계획) 7

MAVIS: Mathematical Visual Instruction Tuning 논문리뷰

https://arxiv.org/pdf/2407.08739 Multi-modal Large Language Models (MLLMs) have recently emerged as a significant focus in academia and industry. Despite their proficiency in general multi-modal scenarios, the mathematical problem-solving capabilities in visual contexts remain insufficiently explored. We identify three key areas within MLLMs that need to be improved: visual encoding of math diag..

IMPROVE VISION LANGUAGE MODEL CHAIN-OFTHOUGHT REASONING 논문리뷰

https://arxiv.org/pdf/2410.16198https://github.com/RifleZhang/LLaVA-Reasoner-DPO GitHub - RifleZhang/LLaVA-Reasoner-DPOContribute to RifleZhang/LLaVA-Reasoner-DPO development by creating an account on GitHub.github.comChain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes lack robust CoT r..

ToRA ( A TOOL-INTEGRATED REASONING AGENTFOR MATHEMATICAL PROBLEM SOLVING) 논문리뷰

https://openreview.net/pdf?id=Ep0TtjVoapa 는 CoT, b는 PAL ,c는 ToRA의 tool(PAL)을 통합한 rationale(CoT)을 활용imitation learningGPT4 같은 모델을 써서 만든 ToRA corpus로 모델 M 학습진행 output space shaping 모델 M의 ToRA를 샘플링 후 이를 teacher model에 evaluate, validate 후 수정된 trajectory 를 corpus로 사용

LLM Agents can Autonomously Hack Websites

데이터베이스 스키마 추출, 이 스키마에 기반한 데이터베이스 정보 추출, 최종 해킹 수행 등 다단계 프로세스(38단계)가 포함된 복잡한 SQL 유니온 공격을 수행 가능 예시)  프론트엔드에서 크로스 사이트 스크립팅(XSS) 공격으로 원하지않는 스크립트, 백엔드 로직을 악용해 SQL injection을 통한 데이터베이스 정보 훔치기 등의 취약성 테스트를 AI를 통해 자동으로 진행 후 문제가 있는지 확인