Изучение пошаговых наград из предпочтений для sparse-reward сред через Online Process Reward Learning.
Мир искусственного интеллекта постоянно сталкивается с фундаментальными вызовами. Один из наиболее острых — это проблема редких вознаграждений, или sparse-reward environments. […]