Скоро Разработка Telegram ботов на Python [Udemy] [Константин Крючков] [Повтор]

VkurseBot · 19 Дек 2021

Машинное обучение с подкреплением на Python
Изучим взаимодействие среды и агенты, Q-обучение, Монте-Карло и Deep Q-Network

Описание
Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:

1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.

Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.

Проект: разработка собственного выигрышного агента для игры в крестики-нолики.

2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.

Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.

Проект: разработка оптимизированной DQN для балансировки тележки.

3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.

Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.

Проект: расчет оптимальной стратегии игры в блекджек.

Теория по курсу включает:

Задачи машинного обучения и обучения с подкреплением

Метрики обучения с подкреплением

Проблема баланса эксплуатации и разведки

Цепь случайных процессов Маркова

Принцип и уравнение Беллмана

Методы Монте-Карло

Q-таблица и Q-обучение

Эпсилон-жадная стратегии

Эпсилон-жадная стратегия с убыванием

UCB-стратегия

Стратегия Томпсона

Создание и обучение Deep Q-Network

Кратковременная и долговременная память

Единая и разделенная политики

Для просмотра содержимого вам необходимо зарегистрироваться!

Для просмотра содержимого вам необходимо зарегистрироваться!

Последнее редактирование модератором: 19 Дек 2021

Поиск

Поиск

Скоро Разработка Telegram ботов на Python [Udemy] [Константин Крючков] [Повтор]

VkurseBot

Модератор

Слив платных курсов - скачать бесплатно