Ми навчаємося, взаємодіючи з навколишнім середовищем, і винагороди і покарання, що отримуються, визначають нашу поведінку в майбутньому. Глибоке навчання з підкріпленням привносить цей природний процес у штучний інтелект і передбачає аналіз результатів виявлення найбільш ефективних шляхів руху вперед. Агенти глибокого навчання з підкріпленням можуть сприяти успіху маркетингових кампаній, прогнозувати зростання акцій
та перемагати гросмейстерів у Го та шахах.
Давайте навчимося створювати системи глибокого навчання на прикладі захоплюючих вправ, що супроводжуються кодом на
Python з докладними коментарями та зрозумілими поясненнями. Ви побачите, як працюють алгоритми, і навчитеся створювати власних агентів глибокого навчання з підкріпленням, використовуючи оцінний зворотний зв'язок.
Про авторів
Мігель Моралес – старший інженер-дослідник у Lockheed Martin, Aeronautics-Advanced Development Programs (Skunk Works). Він читає курс «Навчання з підкріпленням та прийняття рішень» у Технологічному інституті Джорджії. Мігель працював у багатьох освітніх та технологічних компаніях, включаючи Udacity, AT&T,
Cisco та HPE.