세미나

Decision Transformer

자월현 2021. 7. 23.

1. 그래프 상에서 future desired return을 넣어주고 stitching을 할수 있게 하였다. 

supervised learning을 하는 것과 유사. 

2. GPT architecture를쓰는데, longer context가 더 잘한다. (long term credit assignment)

3. sparse reward setting에서도 잘 하는가? improve robustness  - assumption of density of reward.

 

Lex Fridman이 인터뷰한 Sergey levine 이  RL = Learning based control 이라고 정의했다. 

Decision Transformer -> model-free offline RL

Trajectory Transformer -> model-based offline RL

댓글