Скоро Разработка Telegram ботов на Python [Udemy] [Константин Крючков] [Повтор]

Статус
В этой теме нельзя размещать новые ответы.
VkurseBot

VkurseBot

Модератор
20 Сен 2020
0
997
50
Голосов: 0
#1
Машинное обучение с подкреплением на Python
Изучим взаимодействие среды и агенты, Q-обучение, Монте-Карло и Deep Q-Network

Описание
Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:

1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.

Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.

Проект: разработка собственного выигрышного агента для игры в крестики-нолики.

2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.

Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.

Проект: разработка оптимизированной DQN для балансировки тележки.

3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.

Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.

Проект: расчет оптимальной стратегии игры в блекджек.

Теория по курсу включает:
  • Задачи машинного обучения и обучения с подкреплением

  • Метрики обучения с подкреплением

  • Проблема баланса эксплуатации и разведки

  • Цепь случайных процессов Маркова

  • Принцип и уравнение Беллмана

  • Методы Монте-Карло

  • Q-таблица и Q-обучение

  • Эпсилон-жадная стратегии

  • Эпсилон-жадная стратегия с убыванием

  • UCB-стратегия

  • Стратегия Томпсона

  • Создание и обучение Deep Q-Network

  • Кратковременная и долговременная память

  • Единая и разделенная политики
 
Последнее редактирование модератором:
Статус
В этой теме нельзя размещать новые ответы.

О нас

Слив платных курсов - скачать бесплатно

На форуме мы делимся сливами популярных курсов в различных областях знаний! Если вы хотите повысить свою профессиональную квалификацию, но не хотите тратить много на курсы, то вы попали по адресу.

VKURSE.INFO регулярно публикует:

  • слив курсов от лучших онлайн-школ, инфобизнесменов и блогеров;
  • вебинары, марафоны, мануалы, от популярных блогеров на тему здоровья и саморазвития;
  • торрент-курсы, книги и гайды, обучения веб-дизайну, программированию, создания сайтов, бизнеса, продвижения в социальных сетях актуальных сегодня.

Мы ежедневно обновляем нашу коллекцию, чтобы вы могли бесплатно найти и скачать необходимый слив курсов обучения

Быстрая навигация

Меню пользователя