Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к машинному обучению. В ходе такого обучения виртуальные агенты учатся решать последовательные задачи о принятии решений. За последнее десятилетие было много неординарных достижений в этой области — от однопользовательских и многопользовательских игр, таких как го и видеоигры Atari и Dota 2, до робототехники. Эта книга — введение в глубокое обучение с подкреплением, уникально комбинирующее теорию и практику. Авторы начинают повествование с базовых сведений, затем подробно объясняют теорию алгоритмов глубокого RL, демонстрируют их реализации на примере программной библиотеки SLM Lab и напоследок описывают практические аспекты использования глубокого RL. Руководство идеально подойдет как для студентов, изучающих компьютерные науки, так и для разработчиков программного обеспечения, которые знакомы с основными принципами машинного обучения и знают Python.
REINFORCE.
В этой главе представлен первый из описываемых в книге алгоритмов, REINFORCE. Алгоритм REINFORCE был предложен Рональдом Дж. Вильямсом в 1992 году и описан им в статье Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning1. Алгоритм строит параметризированную стратегию, которая получает вероятности действий по состояниям среды. Агенты непосредственно используют эту стратегию, чтобы действовать в среде. Основной смысл заключается в том, что во время обучения действия, которые приводят к хорошим результатам, должны иметь большую вероятность — они положительно подкрепляются. В противовес этому действия, приводящие к плохим результатам, должны иметь меньшую вероятность. Если обучение успешно, то за несколько итераций распределение полученных стратегией вероятностей действий станет таким, которое приводит к повышению производительности в среде. Вероятности действий изменяются в соответствии с градиентом функции стратегии, в связи с чем REINFORCE известен как алгоритм градиента стратегии.
Краткое содержание.
Часть I.Алгоритмы, основанные на стратегиях и полезностях.
Часть II.Комбинированные методы.
Часть III.Практика.
Часть IV.Проектирование сред.
Приложения.
Купить .
По кнопкам выше и ниже «Купить бумажную книгу» и по ссылке «Купить» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.
По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «ЛитРес», и потом ее скачать на сайте Литреса.
По кнопке «Найти похожие материалы на других сайтах» можно найти похожие материалы на других сайтах.
On the buttons above and below you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.
Хештеги: #Грессер :: #Кенг :: #книги по программированию :: #программирование :: #Python
Смотрите также учебники, книги и учебные материалы:
- Грокаем глубокое обучение с подкреплением, Моралес М., 2023
- Грокаем алгоритмы искусственного интеллекта, Харбанс Р., 2023
- Программирование для Android на Kotlin, Гриффитс Д.
- Глубокое обучение, Легкая разработка проектов на Python, Вейдман С., 2021
- Глубокое обучение с fastai и PyTorch, Минимум формул, минимум кода, максимум эффективности, Ховард Д., Гуггер С., 2022
- Глубокое обучение на Python, Франсуа Ш., 2023
- Глубокое обучение, Легкая разработка проектов на Python, Вейдман С., 2021
- Гид по Computer Science, расширенное издание, Спрингер В., 2021