Вот тут неплохо написано про в том числе и проблемы неожиданно буквальных способов максимизировать награду https://www.alexirpan.com/2018/02/14/rl-hard.html
Вот тут неплохо написано про в том числе и проблемы неожиданно буквальных способов максимизировать награду https://www.alexirpan.com/2018/02/14/rl-hard.html