세미나
Decision Transformer
1. 그래프 상에서 future desired return을 넣어주고 stitching을 할수 있게 하였다.
supervised learning을 하는 것과 유사.
2. GPT architecture를쓰는데, longer context가 더 잘한다. (long term credit assignment)
3. sparse reward setting에서도 잘 하는가? improve robustness - assumption of density of reward.
Lex Fridman이 인터뷰한 Sergey levine 이 RL = Learning based control 이라고 정의했다.
Decision Transformer -> model-free offline RL
Trajectory Transformer -> model-based offline RL
댓글