1. introduction스케일링의 증가로 인하로 인한 대규모 모델의 multi-task에서의 능력, grokking등 다양한 능력이 나타나고 있지만 이를 downstream task를 위한 fine tuning 혹은 훈련과정의 비용이 매우 막대하다이를 위한 PEFT 중 LoRA가 널리 사용되지만 이는 단일 task가 아닌 multi-task에서는 약한 모습을 보인다Full 파인튜닝과 LoRA의 가장 큰 차이는 SVD(singular vector decomposition)에 있다.LoRA는 소수의 top singular vector 가 매우 우세한데(dominated) fine-tuning 나머지 가중치도 업데이트하기에 더 democratic하다 이를 보완하기 위해 수평적으로(horizontally) ..