https://arxiv.org/pdf/2210.0362
Alfworld 벤치마크 문제를 해결하기 위한 ReAct 예시인데
일단 어떤 task를 solve 하기 위해 우리는 환경으로부터 observation을 받아 action(following the specific policy)을 생성하는데 이떄 context가 다음과 같다.
Learning a policy is challenging when the mapping c → a is highly implicit and requires extensive computation
ReAcT는 이 a ( agent’s action space = 이 경우 space of language)를 augment하는 것
obeservation이나 외부 환경에 이 action이 영향을 주지 않지만 현재 context c를 기반으로 A는 유용한 정보를 생성하고 이를 통해 context c(t+1)로 업데이트