interpretability 2

induction head

XAI , Interpretable AI1. AI 뿐 아니라 인간의 뉴런도 superposition hypothesis에 기반해 활성화될 것이 아닐까?2. LLM의 In-context learning(프롬프팅)이 가능한 이유3. chatgpt, Claude 의 뉴런서킷을 학습이 아닌 외부에서 직접 조정https://seongland.medium.com 요약 뉴럴넷에서 하나의 기능(feature)이 여러 뉴런에 나뉘어 존재하고 또, 하나의 뉴런이 여러 개의 기능을 담당하는 현상 = superposition hypothesis 여러 뉴런에 여러 기능이 있는 이유?뉴런 개수 > 기능의 개수?->?? (선형 대수의 관점)차원 개수보다 많은 기능이 존재한다는 게 말이 되는가? (e.g xy그래프에는 x와 y 값만..

interpretability 2024.07.11

해석가능한 ai (claude sonet)

뉴럴넷이 작동하는 원리 - 1해석가능한 AIhttps://transformer-circuits.pub/2024/scaling-monosemanticity/index.html Scaling Monosemanticity간단한 feature 예시영어를 학습시켜면 한국어에 대한 능력이 올라간다코드 입력값을 받았을 때 버그가 있다면 변수타입, 잘못된 변수 이름에 대한 특징들이 활성화된다 또한 이를 조정가능한데 , golden bridge gate 특징을 강화시키면 모델이 스스로를 golden bridge로 인식하는 등의 현상이 일어난다용어 정리superposition 중첩 (뉴런들이 복수의 특징을 활성화)polysemanticity 다중의미 (위와 유사) 이를 monosemantic으로 바꿔 feature를 찾음..

interpretability 2024.06.23