세미나

Decision Transformer

자월현 2021. 7. 23.

1. 그래프 상에서 future desired return을 넣어주고 stitching을 할수 있게 하였다.

supervised learning을 하는 것과 유사.

2. GPT architecture를쓰는데, longer context가 더 잘한다. (long term credit assignment)

3. sparse reward setting에서도 잘 하는가? improve robustness - assumption of density of reward.

Lex Fridman이 인터뷰한 Sergey levine 이 RL = Learning based control 이라고 정의했다.

Decision Transformer -> model-free offline RL

Trajectory Transformer -> model-based offline RL

댓글