Навчання з підкріпленням (англ. reinforcement learning) — це галузь машинного навчання, натхнена біхевіористською психологією, що вивчає питання про те, які дії (англ. actions) повинні виконувати програмні агенти в певному середовищі (англ. environment) задля максимізації деякого уявлення про сукупну винагороду (англ. reward). Через її універсальність, дану задачу вивчають і багато інших дисциплін, таких як теорія ігор, теорія керування, дослідження операцій, теорія інформації, оптимізація на основі моделювання, поліагентні системи, колективний інтелект, статистика та генетичні алгоритми. В літературі про дослідження та керування операціями галузь, що займається навчанням з підкріпленням, називається наближеним динамічним програмуванням (англ. approximate dynamic programming). Задача навчання з підкріпленням досліджувалася у теорії оптимального керування, проте більшість досліджень стосувалися саме існування оптимальних рішень та їх характеристики, а не аспектів навчання чи наближення. В економіці та теорії ігор навчання з підкріпленням може використовуватись для пояснення того, як може виникати рівновага за обмеженої раціональності.
В машинному навчанні середовище зазвичай розглядається як марковський процес вирішування (МПВ, англ. Markov decision process, MDP), оскільки багато алгоритмів навчання з підкріпленням для цього контексту використовують методики динамічного програмування. Основна відмінність між класичними методиками й алгоритмами навчання з підкріпленням полягає в тому, що останні не потребують знання про МПВ, і вони орієнтовані на великі МПВ, в яких точні методи стають нездійсненними.
Навчання з підкріпленням відрізняється від стандартного керованого навчання тим, що пари правильних входів/виходів ніколи не представляються, а недостатньо оптимальні дії явно не виправляються. Крім того, є акцент на інтерактивній продуктивності, який включає знаходження балансу між дослідженням (незвіданої території, англ. exploration) та використанням (поточного знання, англ. exploitation). Компроміс між дослідженням та використанням у навчанні з підкріпленням найретельніше вивчався через задачу багаторукого бандита та скінченні МПВ.
Введення
Базова модель навчання з підкріпленням складається з:
- множини станів середовища ;
- множини дій ;
- правил переходу між станами;
- правил, які визначають скалярну безпосередню винагороду (англ. scalar immediate reward) переходу; і
- правил, які описують, що спостерігає агент.
Ці правила часто є стохастичними. Спостереження зазвичай включає в себе скалярну безпосередню винагороду, пов'язану з крайнім переходом. У багатьох працях також вважають, що агент спостерігає поточний стан середовища, в разі чого говорять про повну спостережуваність (англ. full observability), тоді як в іншому разі говорять про часткову спостережуваність (англ. partial observability). Іноді множина доступних агентові дій є обмеженою (наприклад, ви не можете витрачати більше грошей, ніж маєте).
Агент навчання з підкріпленням взаємодіє зі своїм середовищем у дискретні моменти часу. В кожен момент часу агент отримує спостереження , яке зазвичай включає винагороду . Потім він обирає дію з множини доступних дій, яка відтак відправляється до середовища. Середовище переходить до нового стану , і визначається винагорода , пов'язана з переходом (англ. transition) . Метою агента навчання з підкріпленням є збирати якомога більше винагороди. Агент може обирати будь-яку дію як функцію історії, і може навіть робити свій вибір дії випадковим.
Коли продуктивність агента порівнюється з продуктивністю агента, який діє оптимально від початку, то різниця в продуктивності призводить до поняття смутку (англ. regret). Зверніть увагу, що, щоби діяти майже оптимально, агент мусить розуміти довготермінові наслідки своїх дій: щоби максимізувати свій майбутній дохід, мені краще зараз піти до школи, хоча пов'язана з цим безпосередня грошова винагорода може бути від'ємною.
Таким чином, навчання з підкріпленням є особливо добре пристосованим для задач, які включають компроміс між довготерміновою та короткотерміновою винагородою. Його було успішно застосовано до різноманітних задач, включно з [en], розкладами для ліфтів, телекомунікаціями, нардами, шашками та ґо (AlphaGo).
Потужним навчання з підкріпленням роблять дві складові: використання зразків для оптимізації продуктивності, та застосування наближень функцій, щоби мати справу з великими середовищами. Завдяки цим двом складовим навчання з підкріпленням можливо застосовувати у великих середовищах в будь-яких із наступних ситуацій:
- Модель середовища є відомою, але аналітичний розв'язок відсутній;
- Задано лише імітаційну модель середовища (предмет оптимізації на основі імітації);
- Єдиним способом збирання інформації про середовище є взаємодія з ним.
Перші дві з цих задач можливо розглядати як задачі планування (оскільки модель в якомусь вигляді існує), тоді як останню можливо розглядати як справжню задачу навчання. Проте за методології навчання з підкріпленням обидві задачі планування може бути перетворено на задачі машинного навчання.
Дослідження
Описана задача навчання з підкріпленням вимагає розумних механізмів дослідження. Відомо, що випадковий вибір дій без прив'язки до оцінюваного розподілу ймовірності викликає дуже погану продуктивність. Випадок (невеликих) скінченних МПВ в даний час є відносно добре вивченим. Проте через брак алгоритмів, які б добре масштабувалися з числом станів (або масштабувалися до задач з нескінченними просторами станів), на практиці люди вдаються до простих методів дослідження. Одним із таких методів є -жадібна стратегія, коли агент вибирає дію, яка за його переконанням має найкращий довготермінових ефект, з імовірністю , а інші дії обирає рівномірно випадково. Тут є параметром налаштування, який іноді змінюється, або згідно фіксованого розкладу (роблячи так, що агент з плином часу досліджує менше), або адаптивно на основі якихось евристик.
Алгоритми для навчання керуванню
Навіть якщо питання дослідження не береться до уваги, і навіть якщо стан можна було спостерігати (що ми припускаємо, з цього моменту), лишається задача з'ясування на основі попереднього досвіду, які дії є добрими.
Критерій оптимальності
Для спрощення на хвилинку припустімо, що досліджувана задача є епізодичною (англ. episodic), із завершенням епізоду при досягненні деякого завершального стану (англ. terminal state). Припустімо далі, що незалежно від того, який план дій обирає агент, завершення є неминучим. За деяких додаткових м'яких умов закономірності математичне сподівання повної винагороди є добре визначеним для будь-якої стратегії та будь-якого початкового розподілу над станами. Тут стратегія (англ. policy) позначає відображення, яке призначає деякий розподіл імовірності над діями всім можливим історіям.
Таким чином, для заданого зафіксованого початкового розподілу ми можемо поставити у відповідність стратегії очікувану віддачу :
де випадкова величина позначає віддачу (англ. return), і визначається як
де є винагородою, отриманою після -того переходу, початковий стан вибирається випадково з , а дії обираються стратегією . Тут позначає (випадковий) час досягнення завершального стану, тобто, час, коли завершується епізод.
У випадку не епізодичних задач віддачу часто знецінюють (англ. discount),
породжуючи критерій загальної очікуваної знеціненої винагороди. Тут є так званим (коефіцієнтом знецінювання) (англ. discount factor). Оскільки незнецінена віддача є окремим випадком знеціненої віддачі, від цього моменту ми розглядатимемо знецінювання. Хоч це й виглядає безневинним, знецінювання насправді є проблематичним, якщо турбуватися про інтерактивну продуктивність. Це пояснюється тим, що знецінювання робить початкові моменти часу важливішими. Оскільки для агента, що навчається, найправдоподібніше робити помилки протягом перших кількох кроків після початку його «життя», жоден непоінформований алгоритм навчання не може досягти майже оптимальної продуктивності за знецінювання, навіть якщо клас середовищ обмежено скінченними МПВ. (Проте це не означає, що, маючи достатньо часу, агент, що навчається, не зможе з'ясувати, як діяти майже оптимально, якби час було перезапущено.)
То задачею є вказати алгоритм, який можна використовувати для знаходження стратегії з максимальною очікуваною віддачею. З теорії МПВ відомо, що без втрати універсальності пошук може бути обмежено множиною так званих постійних (англ. stationary) стратегій. Стратегія називається постійною, якщо розподіл дій, який вона повертає, залежить лише від крайнього відвіданого стану (який є частиною історії спостережень агента, згідного нашого спрощувального припущення). Насправді, пошук може бути додатково обмежено детерміністичними (англ. deterministic) постійними стратегіями. Детерміністична постійна стратегія — це така, яка обирає дії на основі поточного стану детерміністично. Оскільки будь-яку таку стратегію може бути ідентифіковано відображенням з множини станів на множину дій, ці стратегії може бути ідентифіковано такими відображенням без втрати універсальності.
Повний перебір
Підхід повного перебору спричиняє наступні два кроки:
- Для кожної можливої стратегії повертається зразок при слідуванні їй
- Вибрати стратегію з найбільшою очікуваною віддачею
Однією з проблем із цим є те, що число стратегій може бути надзвичайно великим, або навіть нескінченним. Іншою є те, що дисперсія віддач може бути великою, в разі чого для точної оцінки віддачі кожної зі стратегій буде необхідним велике число зразків.
Ці проблеми може бути полегшено, якщо ми припустимо деяку структуру, і, можливо, дозволимо зразкам, породженим з однієї стратегії, впливати на оцінки, зроблені для іншої. Двома головними підходами для досягнення цього є оцінка функції цінності та прямий пошук стратегії.
Підходи функції цінності
Підходи функції цінності намагаються знайти стратегію, яка максимізує віддачу шляхом підтримки множини оцінок очікуваних віддач для деякої стратегії (зазвичай або «поточної» (англ. on-policy), або оптимальної (англ. off-policy)).
Ці методи покладаються на теорію МПВ, де оптимальність визначається в сенсі, який є суворішим за наведений вище: стратегія називається оптимальною, якщо вона досягає найкращої очікуваної віддачі від будь-якого початкового стану (тобто початкові розподіли в цьому визначенні не грають ролі). Знов-таки, завжди можна знайти оптимальну стратегію серед постійних стратегій.
Щоби визначити оптимальність формальним чином, визначмо цінність (англ. value) стратегії як
де відповідає випадковій віддачі, пов'язаній зі слідуванням з початкового стану . Визначмо як максимально можливу цінність , де дозволено змінюватися:
Стратегія, яка досягає цих оптимальних цінностей в кожному зі станів, називається оптимальною. Очевидно, що стратегія, яка є оптимальною в цьому суворому сенсі, є також оптимальною й у сенсі того, що вона максимізує очікувану віддачу , оскільки , де є станом, який вибирається випадковим чином з розподілу .
Хоч цінностей станів і достатньо для визначення оптимальності, виявиться корисним визначити й цінності дій. Для заданих стану , дії та стратегії цінність дії пари за стратегії визначається як
де тепер відповідає випадковій віддачі, пов'язаній зі спершу вчиненням дії в стані , а потім слідуванням .
З теорії МПВ добре відомо, що якщо хтось дасть нам для оптимальної стратегії, то ми можемо завжди обирати оптимальні дії (і відтак діяти оптимально), просто обираючи в кожному стані дію з найвищою цінністю. Функція цінності дій такої оптимальної стратегії називається оптимальною функцією цінності дій, і позначається через . В підсумку, знання самої лише оптимальної функції цінності дій достатнє для того, щоби знати, як діяти оптимально.
Виходячи з повного знання МПВ, існують два основні підходи для обчислення оптимальної функції цінності дій, ітерація за цінностями та ітерація за стратегіями. Обидва ці алгоритми обчислюють послідовність функцій (), яка збігається до . Обчислення цих функцій включає обчислення математичних сподівань над усім простором станів, що є непрактичним для всіх, крім найменших (скінченних) МПВ, не кажучи вже про випадок, коли МПВ є невідомим. В методах навчання з підкріпленням математичні сподівання наближуються шляхом усереднення над зразками, а щоби впоратися з необхідністю представлення функцій цінності над великими просторами станів-дій, застосовуються методики наближення функцій.
Методи Монте-Карло
В алгоритмі, який імітує ітерацію за стратегіями, можуть застосовуватися найпростіші методи Монте-Карло. Ітерація за стратегіями складається з двох кроків: оцінки стратегії (англ. policy evaluation) та вдосконалення стратегії (англ. policy improvement).
Методи Монте-Карло використовуються на кроці оцінки стратегії. На цьому кроці метою є для заданої постійної детерміністичної стратегії обчислити значення функції (або їхнє добре наближення) для всіх пар стан-дія . Припустімо (для спрощення), що МПВ є скінченним, і що таблиця, яка представляє цінності дій, фактично вміщається до пам'яті. Далі, припустімо, що ця задача є епізодичною, і що після кожного епізоду починається новий, з якогось випадкового початкового стану. Тоді оцінку цінності заданої пари стан-дія може бути обчислено просто усередненням над часом вибраних віддач, породжених з . За достатньої кількості часу ця процедура може відтак побудувати точну оцінку функції цінності дій . Це завершує опис кроку оцінки стратегії.
На кроці вдосконалення стратегії, як це робиться й у стандартному алгоритмі ітерації за стратегіями, наступну стратегію отримують обчисленням жадібної (англ. greedy) стратегії з урахуванням : для заданого стану ця нова стратегія повертає дію, яка максимізує . На практиці часто уникають обчислення та зберігання цієї нової стратегії, застосовуючи натомість ліниві обчислення, щоби відкласти обчислення максимізувальних дій до того моменту, коли вони дійсно стануть потрібні.
Ця процедура має деякі перелічені нижче проблеми:
- Ця процедура може марнувати забагато часу на оцінку недооптимальної стратегії;
- Вона використовує зразки неефективно, оскільки використовує довгу траєкторію для поліпшення оцінки лише однієї пари стан-дія, яка почала цю траєкторію;
- Якщо віддачі вздовж траєкторій мають високу дисперсію, то збіжність буде повільною;
- Вона працює лише на епізодичних задачах;
- Вона працює лише на невеликих скінченних МПВ.
Методи часових різниць
Перша проблема легко виправляється, якщо дозволити процедурі змінювати стратегію (взагалі, або на деяких станах) до встановлення цінностей. Проте, як добре б це не звучало, це може бути проблематичним, оскільки воно може перешкоджати збіганню. Тим не менше, більшість поточних алгоритмів реалізують цю ідею, породжуючи клас алгоритмів узагальненої ітерації за стратегіями (англ. generalized policy iteration). Зауважимо принагідно, що до цієї категорії належать багато методів критики діяча (англ. actor critic).
Другу проблему можна виправити в алгоритмі, дозволивши траєкторіям робити внесок до будь-якої пари стан-дія в них. Це також може допомогти певною мірою і з третьою проблемою, хоча кращим рішенням в разі великої дисперсії віддач є застосування методів часових різниць (ЧР, англ. temporal difference, TD) Саттона, які ґрунтуються на рекурсивному рівнянні Беллмана. Зауважте, що обчислення в методах ЧР можуть бути інкрементними (англ. incremental, коли після кожного переходу пам'ять змінюється, а перехід викидається) або пакетними (англ. batch, коли переходи збираються, а потім оцінки обчислюються один раз на основі великого числа переходів). Пакетні методи, яскравим прикладом яких є та Барто, можуть краще використовувати інформацію в зразках, тоді як інкрементні методи є єдиним вибором, коли пакетні методи стають нездійсненними з причини своєї високої обчислювальної складності або вимог до пам'яті. Крім того, існують методи, які намагаються поєднувати переваги цих двох підходів. Методи на основі часових різниць також долають другу, але не останню проблему.
Для розв'язання останньої проблеми, згаданої в попередньому розділі, застосовуються методи наближення функцій (англ. function approximation methods). В лінійному наближенні функції починають з відображення , яке ставить у відповідність кожній парі стан-дія скінченновимірний вектор. А потім цінності дій пари стан-дія отримуються шляхом лінійного об'єднання складових з деякими вагами (англ. weights) :
- .
Потім алгоритми підлаштовують ці ваги, замість підлаштовувати цінності, пов'язані з конкретними парами стан-дія. Проте лінійне наближення функції не є єдиним вибором. Зовсім недавно було досліджено методи, засновані на ідеях [en] (яку можна розглядати як таку, яка будує свої власні ознаки).
Досі обговорення було обмежено тим, як в ролі основи проектування алгоритмів навчання з підкріпленням можна застосовувати ітерацію за стратегіями. Не менш важливим є те, що як відправну точку можна застосовувати й ітерацію за цінностями, що веде до алгоритму Q-навчання та багатьох його варіантів.
Проблема з методами, які використовують цінності дій, в тому, що вони можуть потребувати дуже точних оцінок цінностей порівнюваних дій, що може бути важко отримувати при зашумлених віддачах. І хоч ця проблема й пом'якшується до деякої міри методами часових різниць та застосуванням так званого методу сумісного наближення функції (англ. compatible function approximation method), належить зробити ще більше роботи для підвищення універсальності та ефективності. Ще одна проблема, властива методам часових різниць, випливає з їхньої залежності від рекурсивного рівняння Беллмана. Більшість методів часових різниць мають так званий параметр , який дозволяє здійснювати неперервну інтерполяцію між методами Монте-Карло (які не залежать від рівнянь Беллмана) та базовими методами часових різниць (які повністю покладаються на рівняння Беллмана), що, відтак, може бути ефективним для пом'якшення цієї проблеми.
Прямий пошук стратегії
Альтернативним методом пошуку доброї стратегії може бути прямий пошук у (деякій підмножині) простору стратегій, і в цьому випадку задача стає прикладом стохастичної оптимізації. Двома доступними підходами є методи на основі градієнту та безградієнтні методи.
Методи на основі градієнту (які породжують так звані методи градієнту стратегії, англ. policy gradient methods) починаються з відображення зі скінченновимірного простору (параметрів) на простір стратегій: для заданого вектора параметрів нехай позначає стратегію, пов'язану з . Визначмо функцію продуктивності як
За м'яких умов ця функція буде диференційовною як функція вектора параметрів . Якби градієнт був відомим, то можна було би застосовувати градієнтний спуск. Оскільки аналітичний вираз градієнту відсутній, мусимо покладатися на зашумлену оцінку. Таку оцінку може бути побудовано багатьма способами, що породжують такі алгоритми, як метод REINFORCE [en] (що також відомий в літературі з оптимізації на основі імітації як ). Методи градієнту стратегії отримали багато уваги в останні пару років, але продовжують залишатися полем активної діяльності. Огляд методів градієнту стратегії було запропоновано Дайзенротом, Нейманом та Петерсом. Проблема багатьох із цих методів у тому, що вони можуть застрягати в локальних оптимумах (оскільки вони ґрунтуються на локальному пошукові).
Існує великий клас методів, які уникають покладання на інформацію про градієнт. Вони включають імітацію відпалу, метод перехресної ентропії та методи еволюційного обчислення. Багато безградієнтних методів можуть досягати глобального оптимуму (в теорії та на границі). В ряді випадків вони дійсно показали визначну продуктивність.
Проблема методів пошуку стратегії в тому, що вони можуть збігатися повільно, якщо інформація, на основі якої вони діють, є зашумленою. Наприклад, це відбувається тоді, коли в епізодичних задачах траєкторії є довгими, а дисперсія віддач є великою. Як було зазначено вище, в такому випадку можуть допомогти методи на основі функції цінності, які покладаються на часові різниці. В останні роки було запропоновано декілька алгоритмів діяча — критика, які слідують цій ідеї, і було показано, що вони працюють добре на різних задачах.
Теорія
Теорія для невеликих скінченних МПВ є цілком зрілою. Поведінка як асимптотичних алгоритмів, так і алгоритмів зі скінченною вибіркою, є добре вивченою. Як було зазначено вище, алгоритми з довідно доброю інтерактивною продуктивністю (спрямовані на розв'язання задачі дослідження) є відомими.
Теорія великих МПВ потребує подальшої праці. Дієве дослідження є здебільшого недосягнутим (крім випадку задач бандита). І хоча останніми роками для багатьох алгоритмів з'явилися скінченно-часові обмеження виконання, ці обмеження, як очікується, є доволі слабкими, і відтак для кращого розуміння як відносних переваг, так і обмежень цих алгоритмів, необхідна подальша праця.
Питання асимптотичної збіжності для інкрементних алгоритмів було розв'язано. Нещодавно з'явилися нові інкрементні алгоритми на основі часових різниць, які збігаються за значно ширшого набору умов, ніж було можливо раніше (наприклад, при застосуванні з довільним гладким наближенням функції).
Поточні дослідження
Актуальні теми дослідження включають: адаптивні методи, які працюють з меншою кількістю (або без) параметрів за великого числа умов, спрямування на задачу дослідження у великих МПВ, великомасштабні емпіричні оцінки, навчання та дію за [en] (наприклад, із застосуванням [en]), модульне та ієрархічне навчання з підкріпленням, вдосконалення наявних методів функції цінності та пошуку стратегії, алгоритми, які працюють добре з великими (або неперервними) просторами дій, передавальне навчання, безперервне навчання (англ. lifelong learning), ефективне планування на основі зразків (наприклад, на основі деревного пошуку Монте-Карло). Предметом зацікавлення в сучасних дослідженнях також є поліагентне (англ. Multiagent) або розподілене навчання з підкріпленням (англ. Distributed Reinforcement Learning). Також зростає зацікавлення до застосувань навчання з підкріпленням в реальному житті. Успіхи навчання з підкріпленням збирають тут [ 30 липня 2010 у Wayback Machine.] і .
Алгоритми навчання з підкріпленням, такі як ЧР, було також досліджувано як модель навчання в мозку на основі дофаміну. В цій моделі дофамінергійні проєкції з чорної речовини на базальні ганглії діють як похибка передбачення. Навчання з підкріпленням також використовували як частину моделі набування навичок людиною, особливо у відношенні взаємодії між неявним та явним навчанням при набуванні навичок (перша публікація про це застосування була в 1995—1996 роках, і було багато наступних досліджень).
Реалізації
- RL-Glue [ 19 лютого 2009 у Wayback Machine.] пропонує стандартний інтерфейс, який дозволяє з'єднувати разом агентів, середовища та програми експериментів, навіть якщо їх написано різними мовами.
- Maja Machine Learning Framework [ 16 серпня 2016 у Wayback Machine.] (MMLF) — це універсальний каркас для задач області навчання з підкріпленням, написаний мовою Python.
- Програмні інструменти для навчання з підкріпленням [ 24 серпня 2016 у Wayback Machine.] (Matlab та Python)
- PyBrain [ 23 серпня 2016 у Wayback Machine.] (Python)
- TeachingBox [ 25 липня 2016 у Wayback Machine.] — це каркас навчання з підкріпленням на Java, який підтримує багато функцій, таких як мережі РБФ, методи навчання градієнтним спуском, …
- . Архів оригіналу за 27 жовтня 2015 р.
- [en], безкоштовний програмний пакет добування даних, модуль orngReinforcement [ 7 жовтня 2007 у Wayback Machine.]
- Policy Gradient Toolbox [ 12 травня 2017 у Wayback Machine.] пропонує пакет для навчання підходів градієнту стратегії.
- BURLAP [ 9 січня 2015 у Wayback Machine.] — це відкрита бібліотека Java, яка пропонує широкий спектр методів одно- та поліагентного навчання й планування.
Зворотне навчання з підкріпленням
У зворотному навчанні з підкріпленням (англ. inverse reinforcement learning, IRL) функція винагороди не надається. Натомість намагаються добути стратегію із заданої спостережуваної поведінки, щоби наслідувати спостережувану поведінку, яка є часто оптимальною або близькою до оптимальної. Оскільки агент, який навчається зворотним навчанням з підкріпленням, щойно він відхилився від шляху, яким слідує спостережувана поведінка, часто потребує якогось способу повернутися назад на цей шлях, щоби його власна поведінка була стійкою, то іноді необхідно продемонструвати поведінку декілька разів із невеликими збуреннями кожного разу.
У підмайстровому навчанні (англ. apprenticeship learning) припускають, що експерт, який демонструє поведінку, намагається максимізувати функцію винагороди, і намагаються розкрити невідому функцію винагороди експерта.
Див. також
- OpenAI
- Метод часових різниць
- Q-навчання
- Стан-дія-винагорода-стан-дія (англ. SARSA)
- [en] (англ. Fictitious play)
- [en] (англ. Learning classifier system)
- Оптимальне керування
- [en]
- [en] (англ. Error-driven learning)
- Багатоагентна система
- [en]
Примітки
- Sutton та Barto, 1998, §11. Case Studies.
- Gosavi, 2003.
- Tokic, Michel; Palm, Günther (2011), (PDF), KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, т. 7006, Springer, с. 335—346, ISBN , архів оригіналу (PDF) за 23 листопада 2018, процитовано 22 вересня 2020
- Sutton та Barto, 1998, §6.6 Actor-Critic Methods.
- Sutton, 1984.
- Sutton та Barto, 1998, §6. Temporal-Difference Learning.
- Bradtke та Barto, 1996.
- Watkins, 1989.
- Williams, 1987.
- наприклад, Peters, Vijayakumar та Schaal, 2003
- Deisenroth, Neumann та Peters, 2013.
- Докладніше про ці області дослідження див. http://webdocs.cs.ualberta.ca/~sutton/RL-FAQ.html#behaviorism [ 28 серпня 2016 у Wayback Machine.] (англ.)
Джерела
Ця стаття містить , але походження окремих тверджень через брак . (серпень 2016) |
- Sutton, Richard S. (1984). (Дипломна робота PhD). University of Massachusetts, Amherst, MA. Архів оригіналу за 28 серпня 2016. Процитовано 27 серпня 2016. (англ.)
- (1987). . Proceedings of the IEEE First International Conference on Neural Networks. Архів оригіналу за 8 жовтня 2012. Процитовано 27 серпня 2016. (англ.)
- Sutton, Richard S. (1988). . Machine Learning. Springer. 3: 9—44. doi:10.1007/BF00115009. Архів оригіналу за 28 серпня 2016. Процитовано 27 серпня 2016. (англ.)
- (1989). (PDF) (Дипломна робота PhD). King’s College, Cambridge, UK. Архів оригіналу (PDF) за 9 вересня 2016. Процитовано 27 серпня 2016. (англ.)
- ; Barto, Andrew G. (1996). . Machine Learning. Springer. 22: 33—57. doi:10.1023/A:1018056104778. Архів оригіналу за 8 жовтня 2012. Процитовано 27 серпня 2016. (англ.)
- ; (1996). . Nashua, NH: Athena Scientific. ISBN . Архів оригіналу за 14 квітня 2017. Процитовано 27 серпня 2016. (англ.)
- ; ; (1996). Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 4: 237—285. Архів оригіналу за 20 листопада 2001. Процитовано 27 серпня 2016. (англ.)
- Sutton, Richard S.; Barto, Andrew G. (1998). . MIT Press. ISBN . Архів оригіналу за 11 грудня 2013. Процитовано 27 серпня 2016. (англ.)
- (2003). . Springer. ISBN . Архів оригіналу за 15 червня 2012. Процитовано 27 серпня 2016. (англ.)
- ; ; (2003). (PDF). IEEE-RAS International Conference on Humanoid Robots. Архів оригіналу (PDF) за 12 травня 2013. Процитовано 27 серпня 2016. (англ.)
- Powell, Warren (2007). . Wiley-Interscience. ISBN . Архів оригіналу за 31 липня 2016. Процитовано 27 серпня 2016. (англ.)
- ; ; (2010). . Journal of Machine Learning Research. 11: 1563—1600. Архів оригіналу за 28 серпня 2016. Процитовано 27 серпня 2016. (англ.)
- ; (2010). (PDF). ICML 2010. Omnipress. с. 1031—1038. Архів оригіналу (PDF) за 14 липня 2010. Процитовано 27 серпня 2016. (англ.)
- (August 2010). Chapter 6 (online): Approximate Dynamic Programming. (PDF). Т. II (вид. 3). Архів оригіналу (PDF) за 9 жовтня 2011. Процитовано 27 серпня 2016. (англ.)
- ; ; ; (2010). . Taylor & Francis CRC Press. ISBN . Архів оригіналу за 29 жовтня 2011. Процитовано 27 серпня 2016. (англ.)
- ; ; (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. Т. 2. NOW Publishers. с. 1—142. (англ.)
Література
Конференції, журнали
Більшість праць із навчання з підкріпленням публікуються на головних конференціях ([en], [en], AAAI, IJCAI, , AI and Statistics) та в журналах (JAIR [ 14 жовтня 2011 у Wayback Machine.], JMLR [ 18 березня 2022 у Wayback Machine.], Machine learning journal [ 5 вересня 2016 у Wayback Machine.], IEEE T-CIAIG [ 29 серпня 2016 у Wayback Machine.]) з машинного навчання та ШІ. Деякі теоретичні праці публікуються на та [en]. Тим не менше, багато праць з'являються на конференціях із робототехніки ([en], [en]) та на «агентній» конференції [en]. Дослідники операцій публікують свої праці на конференції [en] і, наприклад, в журналах Operation Research [ 5 січня 2006 у Wayback Machine.] та Mathematics of Operations Research [ 9 лютого 2012 у Wayback Machine.]. Дослідники керування публікують свої праці на конференціях CDC та ACC, або, наприклад, у журналах IEEE Transactions on Automatic Control [ 20 серпня 2016 у Wayback Machine.] та Automatica [ 25 липня 2008 у Wayback Machine.], хоча прикладні праці тяжіють до публікації в більш спеціалізованих журналах. Winter Simulation Conference [ 22 грудня 2013 у Wayback Machine.] також публікує багато відповідних документів. Крім цього, праці також публікуються на головних конференціях спільнот із нейронних мереж, нечітких та еволюційних обчислень. Щорічний симпозіум IEEE під назвою Approximate Dynamic Programming and Reinforcement Learning (ADPRL) та щодворічний семінар European Workshop on Reinforcement Learning (EWRL [ 2 травня 2016 у Wayback Machine.]) є двома регулярними зустрічами, на яких зустрічаються дослідники навчання з підкріпленням.
Посилання
- (1998) Річа Саттона та Ендрю Барто, MIT Press, включає посилання на html-версію цієї книги. (англ.)
- Reinforcement Learning Repository [ 24 серпня 2016 у Wayback Machine.] (англ.)
- Reinforcement Learning and Artificial Intelligence [ 31 серпня 2019 у Wayback Machine.] (RLAI, лабораторія Річа Саттона в Альбертському університеті) (англ.)
- Autonomous Learning Laboratory [ 2 вересня 2016 у Wayback Machine.] (ALL, лабораторія Ендрю Барто в Массачусетському університеті в Емгерсті) (англ.)
- RL-Glue [ 19 лютого 2009 у Wayback Machine.]
- Програмні інструменти для навчання з підкріпленням [ 24 серпня 2016 у Wayback Machine.] (Matlab та Python)
- . Архів оригіналу за 22 липня 2012 р. Від технічного університету Грацу.
- Гібридне навчання з підкріпленням [ 18 серпня 2019 у Wayback Machine.] (англ. Hybrid reinforcement learning) (англ.)
- Piqle: a Generic Java Platform for Reinforcement Learning [ 6 січня 2019 у Wayback Machine.]
- . Архів оригіналу за 8 листопада 2015 р. (англ.)
- Застосування навчання з підкріпленням до гри в хрестики-нулики [ 28 серпня 2016 у Wayback Machine.] (Perl)
- Scholarpedia Reinforcement Learning [ 4 вересня 2016 у Wayback Machine.] (англ.)
- Scholarpedia Temporal Difference Learning [ 19 серпня 2016 у Wayback Machine.] (англ.)
- . Архів оригіналу за 21 березня 2012 р. (англ.)
- в Делфтському технічному університеті
- Інструменти машинного навчання для Matlab [ 1 травня 2012 у Wayback Machine.]
- Ленція Ендрю Ина з навчання з підкріпленням у Стендфордському університеті [ 27 листопада 2016 у Wayback Machine.] (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Pro pidkriplennya v psihologiyi div en ta Operantne obumovlennya Navchannya z pidkriplennyam angl reinforcement learning ce galuz mashinnogo navchannya nathnena bihevioristskoyu psihologiyeyu sho vivchaye pitannya pro te yaki diyi angl actions povinni vikonuvati programni agenti v pevnomu seredovishi angl environment zadlya maksimizaciyi deyakogo uyavlennya pro sukupnu vinagorodu angl reward Cherez yiyi universalnist danu zadachu vivchayut i bagato inshih disciplin takih yak teoriya igor teoriya keruvannya doslidzhennya operacij teoriya informaciyi optimizaciya na osnovi modelyuvannya poliagentni sistemi kolektivnij intelekt statistika ta genetichni algoritmi V literaturi pro doslidzhennya ta keruvannya operaciyami galuz sho zajmayetsya navchannyam z pidkriplennyam nazivayetsya nablizhenim dinamichnim programuvannyam angl approximate dynamic programming Zadacha navchannya z pidkriplennyam doslidzhuvalasya u teoriyi optimalnogo keruvannya prote bilshist doslidzhen stosuvalisya same isnuvannya optimalnih rishen ta yih harakteristiki a ne aspektiv navchannya chi nablizhennya V ekonomici ta teoriyi igor navchannya z pidkriplennyam mozhe vikoristovuvatis dlya poyasnennya togo yak mozhe vinikati rivnovaga za obmezhenoyi racionalnosti V mashinnomu navchanni seredovishe zazvichaj rozglyadayetsya yak markovskij proces virishuvannya MPV angl Markov decision process MDP oskilki bagato algoritmiv navchannya z pidkriplennyam dlya cogo kontekstu vikoristovuyut metodiki dinamichnogo programuvannya Osnovna vidminnist mizh klasichnimi metodikami j algoritmami navchannya z pidkriplennyam polyagaye v tomu sho ostanni ne potrebuyut znannya pro MPV i voni oriyentovani na veliki MPV v yakih tochni metodi stayut nezdijsnennimi Navchannya z pidkriplennyam vidriznyayetsya vid standartnogo kerovanogo navchannya tim sho pari pravilnih vhodiv vihodiv nikoli ne predstavlyayutsya a nedostatno optimalni diyi yavno ne vipravlyayutsya Krim togo ye akcent na interaktivnij produktivnosti yakij vklyuchaye znahodzhennya balansu mizh doslidzhennyam nezvidanoyi teritoriyi angl exploration ta vikoristannyam potochnogo znannya angl exploitation Kompromis mizh doslidzhennyam ta vikoristannyam u navchanni z pidkriplennyam najretelnishe vivchavsya cherez zadachu bagatorukogo bandita ta skinchenni MPV VvedennyaBazova model navchannya z pidkriplennyam skladayetsya z mnozhini staniv seredovisha S displaystyle S mnozhini dij A displaystyle A pravil perehodu mizh stanami pravil yaki viznachayut skalyarnu bezposerednyu vinagorodu angl scalar immediate reward perehodu i pravil yaki opisuyut sho sposterigaye agent Ci pravila chasto ye stohastichnimi Sposterezhennya zazvichaj vklyuchaye v sebe skalyarnu bezposerednyu vinagorodu pov yazanu z krajnim perehodom U bagatoh pracyah takozh vvazhayut sho agent sposterigaye potochnij stan seredovisha v razi chogo govoryat pro povnu sposterezhuvanist angl full observability todi yak v inshomu razi govoryat pro chastkovu sposterezhuvanist angl partial observability Inodi mnozhina dostupnih agentovi dij ye obmezhenoyu napriklad vi ne mozhete vitrachati bilshe groshej nizh mayete Agent navchannya z pidkriplennyam vzayemodiye zi svoyim seredovishem u diskretni momenti chasu V kozhen moment chasu t displaystyle t agent otrimuye sposterezhennya o t displaystyle o t yake zazvichaj vklyuchaye vinagorodu r t displaystyle r t Potim vin obiraye diyu a t displaystyle a t z mnozhini dostupnih dij yaka vidtak vidpravlyayetsya do seredovisha Seredovishe perehodit do novogo stanu s t 1 displaystyle s t 1 i viznachayetsya vinagoroda r t 1 displaystyle r t 1 pov yazana z perehodom angl transition s t a t s t 1 displaystyle s t a t s t 1 Metoyu agenta navchannya z pidkriplennyam ye zbirati yakomoga bilshe vinagorodi Agent mozhe obirati bud yaku diyu yak funkciyu istoriyi i mozhe navit robiti svij vibir diyi vipadkovim Koli produktivnist agenta porivnyuyetsya z produktivnistyu agenta yakij diye optimalno vid pochatku to riznicya v produktivnosti prizvodit do ponyattya smutku angl regret Zvernit uvagu sho shobi diyati majzhe optimalno agent musit rozumiti dovgoterminovi naslidki svoyih dij shobi maksimizuvati svij majbutnij dohid meni krashe zaraz piti do shkoli hocha pov yazana z cim bezposerednya groshova vinagoroda mozhe buti vid yemnoyu Takim chinom navchannya z pidkriplennyam ye osoblivo dobre pristosovanim dlya zadach yaki vklyuchayut kompromis mizh dovgoterminovoyu ta korotkoterminovoyu vinagorodoyu Jogo bulo uspishno zastosovano do riznomanitnih zadach vklyuchno z en rozkladami dlya liftiv telekomunikaciyami nardami shashkami ta go AlphaGo Potuzhnim navchannya z pidkriplennyam roblyat dvi skladovi vikoristannya zrazkiv dlya optimizaciyi produktivnosti ta zastosuvannya nablizhen funkcij shobi mati spravu z velikimi seredovishami Zavdyaki cim dvom skladovim navchannya z pidkriplennyam mozhlivo zastosovuvati u velikih seredovishah v bud yakih iz nastupnih situacij Model seredovisha ye vidomoyu ale analitichnij rozv yazok vidsutnij Zadano lishe imitacijnu model seredovisha predmet optimizaciyi na osnovi imitaciyi Yedinim sposobom zbirannya informaciyi pro seredovishe ye vzayemodiya z nim Pershi dvi z cih zadach mozhlivo rozglyadati yak zadachi planuvannya oskilki model v yakomus viglyadi isnuye todi yak ostannyu mozhlivo rozglyadati yak spravzhnyu zadachu navchannya Prote za metodologiyi navchannya z pidkriplennyam obidvi zadachi planuvannya mozhe buti peretvoreno na zadachi mashinnogo navchannya DoslidzhennyaOpisana zadacha navchannya z pidkriplennyam vimagaye rozumnih mehanizmiv doslidzhennya Vidomo sho vipadkovij vibir dij bez priv yazki do ocinyuvanogo rozpodilu jmovirnosti viklikaye duzhe poganu produktivnist Vipadok nevelikih skinchennih MPV v danij chas ye vidnosno dobre vivchenim Prote cherez brak algoritmiv yaki b dobre masshtabuvalisya z chislom staniv abo masshtabuvalisya do zadach z neskinchennimi prostorami staniv na praktici lyudi vdayutsya do prostih metodiv doslidzhennya Odnim iz takih metodiv ye e displaystyle varepsilon zhadibna strategiya koli agent vibiraye diyu yaka za jogo perekonannyam maye najkrashij dovgoterminovih efekt z imovirnistyu 1 e displaystyle 1 varepsilon a inshi diyi obiraye rivnomirno vipadkovo Tut 0 lt e lt 1 displaystyle 0 lt varepsilon lt 1 ye parametrom nalashtuvannya yakij inodi zminyuyetsya abo zgidno fiksovanogo rozkladu roblyachi tak sho agent z plinom chasu doslidzhuye menshe abo adaptivno na osnovi yakihos evristik Algoritmi dlya navchannya keruvannyuNavit yaksho pitannya doslidzhennya ne beretsya do uvagi i navit yaksho stan mozhna bulo sposterigati sho mi pripuskayemo z cogo momentu lishayetsya zadacha z yasuvannya na osnovi poperednogo dosvidu yaki diyi ye dobrimi Kriterij optimalnosti Dlya sproshennya na hvilinku pripustimo sho doslidzhuvana zadacha ye epizodichnoyu angl episodic iz zavershennyam epizodu pri dosyagnenni deyakogo zavershalnogo stanu angl terminal state Pripustimo dali sho nezalezhno vid togo yakij plan dij obiraye agent zavershennya ye neminuchim Za deyakih dodatkovih m yakih umov zakonomirnosti matematichne spodivannya povnoyi vinagorodi ye dobre viznachenim dlya bud yakoyi strategiyi ta bud yakogo pochatkovogo rozpodilu nad stanami Tut strategiya angl policy poznachaye vidobrazhennya yake priznachaye deyakij rozpodil imovirnosti nad diyami vsim mozhlivim istoriyam Takim chinom dlya zadanogo zafiksovanogo pochatkovogo rozpodilu m displaystyle mu mi mozhemo postaviti u vidpovidnist strategiyi p displaystyle pi ochikuvanu viddachu r p displaystyle rho pi r p E R p displaystyle rho pi E R pi de vipadkova velichina R displaystyle R poznachaye viddachu angl return i viznachayetsya yak R t 0 N 1 r t 1 displaystyle R sum t 0 N 1 r t 1 de r t 1 displaystyle r t 1 ye vinagorodoyu otrimanoyu pislya t displaystyle t togo perehodu pochatkovij stan vibirayetsya vipadkovo z m displaystyle mu a diyi obirayutsya strategiyeyu p displaystyle pi Tut N displaystyle N poznachaye vipadkovij chas dosyagnennya zavershalnogo stanu tobto chas koli zavershuyetsya epizod U vipadku ne epizodichnih zadach viddachu chasto znecinyuyut angl discount R t 0 g t r t 1 displaystyle R sum t 0 infty gamma t r t 1 porodzhuyuchi kriterij zagalnoyi ochikuvanoyi znecinenoyi vinagorodi Tut 0 g 1 displaystyle 0 leq gamma leq 1 ye tak zvanim koeficiyentom znecinyuvannya angl discount factor Oskilki neznecinena viddacha ye okremim vipadkom znecinenoyi viddachi vid cogo momentu mi rozglyadatimemo znecinyuvannya Hoch ce j viglyadaye beznevinnim znecinyuvannya naspravdi ye problematichnim yaksho turbuvatisya pro interaktivnu produktivnist Ce poyasnyuyetsya tim sho znecinyuvannya robit pochatkovi momenti chasu vazhlivishimi Oskilki dlya agenta sho navchayetsya najpravdopodibnishe robiti pomilki protyagom pershih kilkoh krokiv pislya pochatku jogo zhittya zhoden nepoinformovanij algoritm navchannya ne mozhe dosyagti majzhe optimalnoyi produktivnosti za znecinyuvannya navit yaksho klas seredovish obmezheno skinchennimi MPV Prote ce ne oznachaye sho mayuchi dostatno chasu agent sho navchayetsya ne zmozhe z yasuvati yak diyati majzhe optimalno yakbi chas bulo perezapusheno To zadacheyu ye vkazati algoritm yakij mozhna vikoristovuvati dlya znahodzhennya strategiyi z maksimalnoyu ochikuvanoyu viddacheyu Z teoriyi MPV vidomo sho bez vtrati universalnosti poshuk mozhe buti obmezheno mnozhinoyu tak zvanih postijnih angl stationary strategij Strategiya nazivayetsya postijnoyu yaksho rozpodil dij yakij vona povertaye zalezhit lishe vid krajnogo vidvidanogo stanu yakij ye chastinoyu istoriyi sposterezhen agenta zgidnogo nashogo sproshuvalnogo pripushennya Naspravdi poshuk mozhe buti dodatkovo obmezheno deterministichnimi angl deterministic postijnimi strategiyami Deterministichna postijna strategiya ce taka yaka obiraye diyi na osnovi potochnogo stanu deterministichno Oskilki bud yaku taku strategiyu mozhe buti identifikovano vidobrazhennyam z mnozhini staniv na mnozhinu dij ci strategiyi mozhe buti identifikovano takimi vidobrazhennyam bez vtrati universalnosti Povnij perebir Pidhid povnogo pereboru sprichinyaye nastupni dva kroki Dlya kozhnoyi mozhlivoyi strategiyi povertayetsya zrazok pri sliduvanni yij Vibrati strategiyu z najbilshoyu ochikuvanoyu viddacheyu Odniyeyu z problem iz cim ye te sho chislo strategij mozhe buti nadzvichajno velikim abo navit neskinchennim Inshoyu ye te sho dispersiya viddach mozhe buti velikoyu v razi chogo dlya tochnoyi ocinki viddachi kozhnoyi zi strategij bude neobhidnim velike chislo zrazkiv Ci problemi mozhe buti polegsheno yaksho mi pripustimo deyaku strukturu i mozhlivo dozvolimo zrazkam porodzhenim z odniyeyi strategiyi vplivati na ocinki zrobleni dlya inshoyi Dvoma golovnimi pidhodami dlya dosyagnennya cogo ye ocinka funkciyi cinnosti ta pryamij poshuk strategiyi Pidhodi funkciyi cinnosti Pidhodi funkciyi cinnosti namagayutsya znajti strategiyu yaka maksimizuye viddachu shlyahom pidtrimki mnozhini ocinok ochikuvanih viddach dlya deyakoyi strategiyi zazvichaj abo potochnoyi angl on policy abo optimalnoyi angl off policy Ci metodi pokladayutsya na teoriyu MPV de optimalnist viznachayetsya v sensi yakij ye suvorishim za navedenij vishe strategiya nazivayetsya optimalnoyu yaksho vona dosyagaye najkrashoyi ochikuvanoyi viddachi vid bud yakogo pochatkovogo stanu tobto pochatkovi rozpodili v comu viznachenni ne grayut roli Znov taki zavzhdi mozhna znajti optimalnu strategiyu sered postijnih strategij Shobi viznachiti optimalnist formalnim chinom viznachmo cinnist angl value strategiyi p displaystyle pi yak V p s E R s p displaystyle V pi s E R s pi de R displaystyle R vidpovidaye vipadkovij viddachi pov yazanij zi sliduvannyam p displaystyle pi z pochatkovogo stanu s displaystyle s Viznachmo V s displaystyle V s yak maksimalno mozhlivu cinnist V p s displaystyle V pi s de p displaystyle pi dozvoleno zminyuvatisya V s sup p V p s displaystyle V s sup limits pi V pi s Strategiya yaka dosyagaye cih optimalnih cinnostej v kozhnomu zi staniv nazivayetsya optimalnoyu Ochevidno sho strategiya yaka ye optimalnoyu v comu suvoromu sensi ye takozh optimalnoyu j u sensi togo sho vona maksimizuye ochikuvanu viddachu r p displaystyle rho pi oskilki r p E V p S displaystyle rho pi E V pi S de S displaystyle S ye stanom yakij vibirayetsya vipadkovim chinom z rozpodilu m displaystyle mu Hoch cinnostej staniv i dostatno dlya viznachennya optimalnosti viyavitsya korisnim viznachiti j cinnosti dij Dlya zadanih stanu s displaystyle s diyi a displaystyle a ta strategiyi p displaystyle pi cinnist diyi pari s a displaystyle s a za strategiyi p displaystyle pi viznachayetsya yak Q p s a E R s a p displaystyle Q pi s a E R s a pi de teper R displaystyle R vidpovidaye vipadkovij viddachi pov yazanij zi spershu vchinennyam diyi a displaystyle a v stani s displaystyle s a potim sliduvannyam p displaystyle pi Z teoriyi MPV dobre vidomo sho yaksho htos dast nam Q displaystyle Q dlya optimalnoyi strategiyi to mi mozhemo zavzhdi obirati optimalni diyi i vidtak diyati optimalno prosto obirayuchi v kozhnomu stani diyu z najvishoyu cinnistyu Funkciya cinnosti dij takoyi optimalnoyi strategiyi nazivayetsya optimalnoyu funkciyeyu cinnosti dij i poznachayetsya cherez Q displaystyle Q V pidsumku znannya samoyi lishe optimalnoyi funkciyi cinnosti dij dostatnye dlya togo shobi znati yak diyati optimalno Vihodyachi z povnogo znannya MPV isnuyut dva osnovni pidhodi dlya obchislennya optimalnoyi funkciyi cinnosti dij iteraciya za cinnostyami ta iteraciya za strategiyami Obidva ci algoritmi obchislyuyut poslidovnist funkcij Q k displaystyle Q k k 0 1 2 displaystyle k 0 1 2 ldots yaka zbigayetsya do Q displaystyle Q Obchislennya cih funkcij vklyuchaye obchislennya matematichnih spodivan nad usim prostorom staniv sho ye nepraktichnim dlya vsih krim najmenshih skinchennih MPV ne kazhuchi vzhe pro vipadok koli MPV ye nevidomim V metodah navchannya z pidkriplennyam matematichni spodivannya nablizhuyutsya shlyahom userednennya nad zrazkami a shobi vporatisya z neobhidnistyu predstavlennya funkcij cinnosti nad velikimi prostorami staniv dij zastosovuyutsya metodiki nablizhennya funkcij Metodi Monte Karlo V algoritmi yakij imituye iteraciyu za strategiyami mozhut zastosovuvatisya najprostishi metodi Monte Karlo Iteraciya za strategiyami skladayetsya z dvoh krokiv ocinki strategiyi angl policy evaluation ta vdoskonalennya strategiyi angl policy improvement Metodi Monte Karlo vikoristovuyutsya na kroci ocinki strategiyi Na comu kroci metoyu ye dlya zadanoyi postijnoyi deterministichnoyi strategiyi p displaystyle pi obchisliti znachennya funkciyi Q p s a displaystyle Q pi s a abo yihnye dobre nablizhennya dlya vsih par stan diya s a displaystyle s a Pripustimo dlya sproshennya sho MPV ye skinchennim i sho tablicya yaka predstavlyaye cinnosti dij faktichno vmishayetsya do pam yati Dali pripustimo sho cya zadacha ye epizodichnoyu i sho pislya kozhnogo epizodu pochinayetsya novij z yakogos vipadkovogo pochatkovogo stanu Todi ocinku cinnosti zadanoyi pari stan diya s a displaystyle s a mozhe buti obchisleno prosto userednennyam nad chasom vibranih viddach porodzhenih z s a displaystyle s a Za dostatnoyi kilkosti chasu cya procedura mozhe vidtak pobuduvati tochnu ocinku Q displaystyle Q funkciyi cinnosti dij Q p displaystyle Q pi Ce zavershuye opis kroku ocinki strategiyi Na kroci vdoskonalennya strategiyi yak ce robitsya j u standartnomu algoritmi iteraciyi za strategiyami nastupnu strategiyu otrimuyut obchislennyam zhadibnoyi angl greedy strategiyi z urahuvannyam Q displaystyle Q dlya zadanogo stanu s displaystyle s cya nova strategiya povertaye diyu yaka maksimizuye Q s displaystyle Q s cdot Na praktici chasto unikayut obchislennya ta zberigannya ciyeyi novoyi strategiyi zastosovuyuchi natomist linivi obchislennya shobi vidklasti obchislennya maksimizuvalnih dij do togo momentu koli voni dijsno stanut potribni Cya procedura maye deyaki perelicheni nizhche problemi Cya procedura mozhe marnuvati zabagato chasu na ocinku nedooptimalnoyi strategiyi Vona vikoristovuye zrazki neefektivno oskilki vikoristovuye dovgu trayektoriyu dlya polipshennya ocinki lishe odniyeyi pari stan diya yaka pochala cyu trayektoriyu Yaksho viddachi vzdovzh trayektorij mayut visoku dispersiyu to zbizhnist bude povilnoyu Vona pracyuye lishe na epizodichnih zadachah Vona pracyuye lishe na nevelikih skinchennih MPV Metodi chasovih riznic Dokladnishe Metod chasovih riznic Persha problema legko vipravlyayetsya yaksho dozvoliti proceduri zminyuvati strategiyu vzagali abo na deyakih stanah do vstanovlennya cinnostej Prote yak dobre b ce ne zvuchalo ce mozhe buti problematichnim oskilki vono mozhe pereshkodzhati zbigannyu Tim ne menshe bilshist potochnih algoritmiv realizuyut cyu ideyu porodzhuyuchi klas algoritmiv uzagalnenoyi iteraciyi za strategiyami angl generalized policy iteration Zauvazhimo prinagidno sho do ciyeyi kategoriyi nalezhat bagato metodiv kritiki diyacha angl actor critic Drugu problemu mozhna vipraviti v algoritmi dozvolivshi trayektoriyam robiti vnesok do bud yakoyi pari stan diya v nih Ce takozh mozhe dopomogti pevnoyu miroyu i z tretoyu problemoyu hocha krashim rishennyam v razi velikoyi dispersiyi viddach ye zastosuvannya metodiv chasovih riznic ChR angl temporal difference TD Sattona yaki gruntuyutsya na rekursivnomu rivnyanni Bellmana Zauvazhte sho obchislennya v metodah ChR mozhut buti inkrementnimi angl incremental koli pislya kozhnogo perehodu pam yat zminyuyetsya a perehid vikidayetsya abo paketnimi angl batch koli perehodi zbirayutsya a potim ocinki obchislyuyutsya odin raz na osnovi velikogo chisla perehodiv Paketni metodi yaskravim prikladom yakih ye ta Barto mozhut krashe vikoristovuvati informaciyu v zrazkah todi yak inkrementni metodi ye yedinim viborom koli paketni metodi stayut nezdijsnennimi z prichini svoyeyi visokoyi obchislyuvalnoyi skladnosti abo vimog do pam yati Krim togo isnuyut metodi yaki namagayutsya poyednuvati perevagi cih dvoh pidhodiv Metodi na osnovi chasovih riznic takozh dolayut drugu ale ne ostannyu problemu Dlya rozv yazannya ostannoyi problemi zgadanoyi v poperednomu rozdili zastosovuyutsya metodi nablizhennya funkcij angl function approximation methods V linijnomu nablizhenni funkciyi pochinayut z vidobrazhennya ϕ displaystyle phi yake stavit u vidpovidnist kozhnij pari stan diya skinchennovimirnij vektor A potim cinnosti dij pari stan diya s a displaystyle s a otrimuyutsya shlyahom linijnogo ob yednannya skladovih ϕ s a displaystyle phi s a z deyakimi vagami angl weights 8 displaystyle theta Q s a i 1 d 8 i ϕ i s a displaystyle Q s a sum limits i 1 d theta i phi i s a Potim algoritmi pidlashtovuyut ci vagi zamist pidlashtovuvati cinnosti pov yazani z konkretnimi parami stan diya Prote linijne nablizhennya funkciyi ne ye yedinim viborom Zovsim nedavno bulo doslidzheno metodi zasnovani na ideyah en yaku mozhna rozglyadati yak taku yaka buduye svoyi vlasni oznaki Dosi obgovorennya bulo obmezheno tim yak v roli osnovi proektuvannya algoritmiv navchannya z pidkriplennyam mozhna zastosovuvati iteraciyu za strategiyami Ne mensh vazhlivim ye te sho yak vidpravnu tochku mozhna zastosovuvati j iteraciyu za cinnostyami sho vede do algoritmu Q navchannya ta bagatoh jogo variantiv Problema z metodami yaki vikoristovuyut cinnosti dij v tomu sho voni mozhut potrebuvati duzhe tochnih ocinok cinnostej porivnyuvanih dij sho mozhe buti vazhko otrimuvati pri zashumlenih viddachah I hoch cya problema j pom yakshuyetsya do deyakoyi miri metodami chasovih riznic ta zastosuvannyam tak zvanogo metodu sumisnogo nablizhennya funkciyi angl compatible function approximation method nalezhit zrobiti she bilshe roboti dlya pidvishennya universalnosti ta efektivnosti She odna problema vlastiva metodam chasovih riznic viplivaye z yihnoyi zalezhnosti vid rekursivnogo rivnyannya Bellmana Bilshist metodiv chasovih riznic mayut tak zvanij parametr l displaystyle lambda 0 l 1 displaystyle 0 leqslant lambda leqslant 1 yakij dozvolyaye zdijsnyuvati neperervnu interpolyaciyu mizh metodami Monte Karlo yaki ne zalezhat vid rivnyan Bellmana ta bazovimi metodami chasovih riznic yaki povnistyu pokladayutsya na rivnyannya Bellmana sho vidtak mozhe buti efektivnim dlya pom yakshennya ciyeyi problemi Pryamij poshuk strategiyi Alternativnim metodom poshuku dobroyi strategiyi mozhe buti pryamij poshuk u deyakij pidmnozhini prostoru strategij i v comu vipadku zadacha staye prikladom stohastichnoyi optimizaciyi Dvoma dostupnimi pidhodami ye metodi na osnovi gradiyentu ta bezgradiyentni metodi Metodi na osnovi gradiyentu yaki porodzhuyut tak zvani metodi gradiyentu strategiyi angl policy gradient methods pochinayutsya z vidobrazhennya zi skinchennovimirnogo prostoru parametriv na prostir strategij dlya zadanogo vektora parametriv 8 displaystyle theta nehaj p 8 displaystyle pi theta poznachaye strategiyu pov yazanu z 8 displaystyle theta Viznachmo funkciyu produktivnosti yak r 8 r p 8 displaystyle rho theta rho pi theta Za m yakih umov cya funkciya bude diferencijovnoyu yak funkciya vektora parametriv 8 displaystyle theta Yakbi gradiyent r displaystyle rho buv vidomim to mozhna bulo bi zastosovuvati gradiyentnij spusk Oskilki analitichnij viraz gradiyentu vidsutnij musimo pokladatisya na zashumlenu ocinku Taku ocinku mozhe buti pobudovano bagatma sposobami sho porodzhuyut taki algoritmi yak metod REINFORCE en sho takozh vidomij v literaturi z optimizaciyi na osnovi imitaciyi yak Metodi gradiyentu strategiyi otrimali bagato uvagi v ostanni paru rokiv ale prodovzhuyut zalishatisya polem aktivnoyi diyalnosti Oglyad metodiv gradiyentu strategiyi bulo zaproponovano Dajzenrotom Nejmanom ta Petersom Problema bagatoh iz cih metodiv u tomu sho voni mozhut zastryagati v lokalnih optimumah oskilki voni gruntuyutsya na lokalnomu poshukovi Isnuye velikij klas metodiv yaki unikayut pokladannya na informaciyu pro gradiyent Voni vklyuchayut imitaciyu vidpalu metod perehresnoyi entropiyi ta metodi evolyucijnogo obchislennya Bagato bezgradiyentnih metodiv mozhut dosyagati globalnogo optimumu v teoriyi ta na granici V ryadi vipadkiv voni dijsno pokazali viznachnu produktivnist Problema metodiv poshuku strategiyi v tomu sho voni mozhut zbigatisya povilno yaksho informaciya na osnovi yakoyi voni diyut ye zashumlenoyu Napriklad ce vidbuvayetsya todi koli v epizodichnih zadachah trayektoriyi ye dovgimi a dispersiya viddach ye velikoyu Yak bulo zaznacheno vishe v takomu vipadku mozhut dopomogti metodi na osnovi funkciyi cinnosti yaki pokladayutsya na chasovi riznici V ostanni roki bulo zaproponovano dekilka algoritmiv diyacha kritika yaki sliduyut cij ideyi i bulo pokazano sho voni pracyuyut dobre na riznih zadachah TeoriyaTeoriya dlya nevelikih skinchennih MPV ye cilkom zriloyu Povedinka yak asimptotichnih algoritmiv tak i algoritmiv zi skinchennoyu vibirkoyu ye dobre vivchenoyu Yak bulo zaznacheno vishe algoritmi z dovidno dobroyu interaktivnoyu produktivnistyu spryamovani na rozv yazannya zadachi doslidzhennya ye vidomimi Teoriya velikih MPV potrebuye podalshoyi praci Diyeve doslidzhennya ye zdebilshogo nedosyagnutim krim vipadku zadach bandita I hocha ostannimi rokami dlya bagatoh algoritmiv z yavilisya skinchenno chasovi obmezhennya vikonannya ci obmezhennya yak ochikuyetsya ye dovoli slabkimi i vidtak dlya krashogo rozuminnya yak vidnosnih perevag tak i obmezhen cih algoritmiv neobhidna podalsha pracya Pitannya asimptotichnoyi zbizhnosti dlya inkrementnih algoritmiv bulo rozv yazano Neshodavno z yavilisya novi inkrementni algoritmi na osnovi chasovih riznic yaki zbigayutsya za znachno shirshogo naboru umov nizh bulo mozhlivo ranishe napriklad pri zastosuvanni z dovilnim gladkim nablizhennyam funkciyi Potochni doslidzhennyaAktualni temi doslidzhennya vklyuchayut adaptivni metodi yaki pracyuyut z menshoyu kilkistyu abo bez parametriv za velikogo chisla umov spryamuvannya na zadachu doslidzhennya u velikih MPV velikomasshtabni empirichni ocinki navchannya ta diyu za en napriklad iz zastosuvannyam en modulne ta iyerarhichne navchannya z pidkriplennyam vdoskonalennya nayavnih metodiv funkciyi cinnosti ta poshuku strategiyi algoritmi yaki pracyuyut dobre z velikimi abo neperervnimi prostorami dij peredavalne navchannya bezperervne navchannya angl lifelong learning efektivne planuvannya na osnovi zrazkiv napriklad na osnovi derevnogo poshuku Monte Karlo Predmetom zacikavlennya v suchasnih doslidzhennyah takozh ye poliagentne angl Multiagent abo rozpodilene navchannya z pidkriplennyam angl Distributed Reinforcement Learning Takozh zrostaye zacikavlennya do zastosuvan navchannya z pidkriplennyam v realnomu zhitti Uspihi navchannya z pidkriplennyam zbirayut tut 30 lipnya 2010 u Wayback Machine i Algoritmi navchannya z pidkriplennyam taki yak ChR bulo takozh doslidzhuvano yak model navchannya v mozku na osnovi dofaminu V cij modeli dofaminergijni proyekciyi z chornoyi rechovini na bazalni gangliyi diyut yak pohibka peredbachennya Navchannya z pidkriplennyam takozh vikoristovuvali yak chastinu modeli nabuvannya navichok lyudinoyu osoblivo u vidnoshenni vzayemodiyi mizh neyavnim ta yavnim navchannyam pri nabuvanni navichok persha publikaciya pro ce zastosuvannya bula v 1995 1996 rokah i bulo bagato nastupnih doslidzhen RealizaciyiRL Glue 19 lyutogo 2009 u Wayback Machine proponuye standartnij interfejs yakij dozvolyaye z yednuvati razom agentiv seredovisha ta programi eksperimentiv navit yaksho yih napisano riznimi movami Maja Machine Learning Framework 16 serpnya 2016 u Wayback Machine MMLF ce universalnij karkas dlya zadach oblasti navchannya z pidkriplennyam napisanij movoyu Python Programni instrumenti dlya navchannya z pidkriplennyam 24 serpnya 2016 u Wayback Machine Matlab ta Python PyBrain 23 serpnya 2016 u Wayback Machine Python TeachingBox 25 lipnya 2016 u Wayback Machine ce karkas navchannya z pidkriplennyam na Java yakij pidtrimuye bagato funkcij takih yak merezhi RBF metodi navchannya gradiyentnim spuskom Arhiv originalu za 27 zhovtnya 2015 r en bezkoshtovnij programnij paket dobuvannya danih modul orngReinforcement 7 zhovtnya 2007 u Wayback Machine Policy Gradient Toolbox 12 travnya 2017 u Wayback Machine proponuye paket dlya navchannya pidhodiv gradiyentu strategiyi BURLAP 9 sichnya 2015 u Wayback Machine ce vidkrita biblioteka Java yaka proponuye shirokij spektr metodiv odno ta poliagentnogo navchannya j planuvannya Zvorotne navchannya z pidkriplennyamU zvorotnomu navchanni z pidkriplennyam angl inverse reinforcement learning IRL funkciya vinagorodi ne nadayetsya Natomist namagayutsya dobuti strategiyu iz zadanoyi sposterezhuvanoyi povedinki shobi nasliduvati sposterezhuvanu povedinku yaka ye chasto optimalnoyu abo blizkoyu do optimalnoyi Oskilki agent yakij navchayetsya zvorotnim navchannyam z pidkriplennyam shojno vin vidhilivsya vid shlyahu yakim sliduye sposterezhuvana povedinka chasto potrebuye yakogos sposobu povernutisya nazad na cej shlyah shobi jogo vlasna povedinka bula stijkoyu to inodi neobhidno prodemonstruvati povedinku dekilka raziv iz nevelikimi zburennyami kozhnogo razu U pidmajstrovomu navchanni angl apprenticeship learning pripuskayut sho ekspert yakij demonstruye povedinku namagayetsya maksimizuvati funkciyu vinagorodi i namagayutsya rozkriti nevidomu funkciyu vinagorodi eksperta Div takozhOpenAI Metod chasovih riznic Q navchannya Stan diya vinagoroda stan diya angl SARSA en angl Fictitious play en angl Learning classifier system Optimalne keruvannya en en angl Error driven learning Bagatoagentna sistema en PrimitkiSutton ta Barto 1998 11 Case Studies Gosavi 2003 Tokic Michel Palm Gunther 2011 PDF KI 2011 Advances in Artificial Intelligence Lecture Notes in Computer Science t 7006 Springer s 335 346 ISBN 978 3 642 24455 1 arhiv originalu PDF za 23 listopada 2018 procitovano 22 veresnya 2020 Sutton ta Barto 1998 6 6 Actor Critic Methods Sutton 1984 Sutton ta Barto 1998 6 Temporal Difference Learning Bradtke ta Barto 1996 Watkins 1989 Williams 1987 napriklad Peters Vijayakumar ta Schaal 2003 Deisenroth Neumann ta Peters 2013 Dokladnishe pro ci oblasti doslidzhennya div http webdocs cs ualberta ca sutton RL FAQ html behaviorism 28 serpnya 2016 u Wayback Machine angl DzherelaCya stattya mistit perelik posilan ale pohodzhennya okremih tverdzhen zalishayetsya nezrozumilim cherez brak vnutrishnotekstovih dzherel vinosok Bud laska dopomozhit polipshiti cyu stattyu peretvorivshi dzherela z pereliku posilan na dzherela vinoski u samomu teksti statti Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki serpen 2016 Sutton Richard S 1984 Diplomna robota PhD University of Massachusetts Amherst MA Arhiv originalu za 28 serpnya 2016 Procitovano 27 serpnya 2016 angl 1987 Proceedings of the IEEE First International Conference on Neural Networks Arhiv originalu za 8 zhovtnya 2012 Procitovano 27 serpnya 2016 angl Sutton Richard S 1988 Machine Learning Springer 3 9 44 doi 10 1007 BF00115009 Arhiv originalu za 28 serpnya 2016 Procitovano 27 serpnya 2016 angl 1989 PDF Diplomna robota PhD King s College Cambridge UK Arhiv originalu PDF za 9 veresnya 2016 Procitovano 27 serpnya 2016 angl Barto Andrew G 1996 Machine Learning Springer 22 33 57 doi 10 1023 A 1018056104778 Arhiv originalu za 8 zhovtnya 2012 Procitovano 27 serpnya 2016 angl 1996 Nashua NH Athena Scientific ISBN 1 886529 10 8 Arhiv originalu za 14 kvitnya 2017 Procitovano 27 serpnya 2016 angl 1996 Reinforcement Learning A Survey Journal of Artificial Intelligence Research 4 237 285 Arhiv originalu za 20 listopada 2001 Procitovano 27 serpnya 2016 angl Sutton Richard S Barto Andrew G 1998 MIT Press ISBN 0 262 19398 1 Arhiv originalu za 11 grudnya 2013 Procitovano 27 serpnya 2016 angl 2003 Springer ISBN 1 4020 7454 9 Arhiv originalu za 15 chervnya 2012 Procitovano 27 serpnya 2016 angl 2003 PDF IEEE RAS International Conference on Humanoid Robots Arhiv originalu PDF za 12 travnya 2013 Procitovano 27 serpnya 2016 angl Powell Warren 2007 Wiley Interscience ISBN 0 470 17155 3 Arhiv originalu za 31 lipnya 2016 Procitovano 27 serpnya 2016 angl 2010 Journal of Machine Learning Research 11 1563 1600 Arhiv originalu za 28 serpnya 2016 Procitovano 27 serpnya 2016 angl 2010 PDF ICML 2010 Omnipress s 1031 1038 Arhiv originalu PDF za 14 lipnya 2010 Procitovano 27 serpnya 2016 angl August 2010 Chapter 6 online Approximate Dynamic Programming PDF T II vid 3 Arhiv originalu PDF za 9 zhovtnya 2011 Procitovano 27 serpnya 2016 angl 2010 Taylor amp Francis CRC Press ISBN 978 1 4398 2108 4 Arhiv originalu za 29 zhovtnya 2011 Procitovano 27 serpnya 2016 angl 2013 A Survey on Policy Search for Robotics Foundations and Trends in Robotics T 2 NOW Publishers s 1 142 angl LiteraturaKonferenciyi zhurnali Bilshist prac iz navchannya z pidkriplennyam publikuyutsya na golovnih konferenciyah en en AAAI IJCAI AI and Statistics ta v zhurnalah JAIR 14 zhovtnya 2011 u Wayback Machine JMLR 18 bereznya 2022 u Wayback Machine Machine learning journal 5 veresnya 2016 u Wayback Machine IEEE T CIAIG 29 serpnya 2016 u Wayback Machine z mashinnogo navchannya ta ShI Deyaki teoretichni praci publikuyutsya na ta en Tim ne menshe bagato prac z yavlyayutsya na konferenciyah iz robototehniki en en ta na agentnij konferenciyi en Doslidniki operacij publikuyut svoyi praci na konferenciyi en i napriklad v zhurnalah Operation Research 5 sichnya 2006 u Wayback Machine ta Mathematics of Operations Research 9 lyutogo 2012 u Wayback Machine Doslidniki keruvannya publikuyut svoyi praci na konferenciyah CDC ta ACC abo napriklad u zhurnalah IEEE Transactions on Automatic Control 20 serpnya 2016 u Wayback Machine ta Automatica 25 lipnya 2008 u Wayback Machine hocha prikladni praci tyazhiyut do publikaciyi v bilsh specializovanih zhurnalah Winter Simulation Conference 22 grudnya 2013 u Wayback Machine takozh publikuye bagato vidpovidnih dokumentiv Krim cogo praci takozh publikuyutsya na golovnih konferenciyah spilnot iz nejronnih merezh nechitkih ta evolyucijnih obchislen Shorichnij simpozium IEEE pid nazvoyu Approximate Dynamic Programming and Reinforcement Learning ADPRL ta shodvorichnij seminar European Workshop on Reinforcement Learning EWRL 2 travnya 2016 u Wayback Machine ye dvoma regulyarnimi zustrichami na yakih zustrichayutsya doslidniki navchannya z pidkriplennyam Posilannya 1998 Richa Sattona ta Endryu Barto MIT Press vklyuchaye posilannya na html versiyu ciyeyi knigi angl Reinforcement Learning Repository 24 serpnya 2016 u Wayback Machine angl Reinforcement Learning and Artificial Intelligence 31 serpnya 2019 u Wayback Machine RLAI laboratoriya Richa Sattona v Albertskomu universiteti angl Autonomous Learning Laboratory 2 veresnya 2016 u Wayback Machine ALL laboratoriya Endryu Barto v Massachusetskomu universiteti v Emgersti angl RL Glue 19 lyutogo 2009 u Wayback Machine Programni instrumenti dlya navchannya z pidkriplennyam 24 serpnya 2016 u Wayback Machine Matlab ta Python Arhiv originalu za 22 lipnya 2012 r Vid tehnichnogo universitetu Gracu Gibridne navchannya z pidkriplennyam 18 serpnya 2019 u Wayback Machine angl Hybrid reinforcement learning angl Piqle a Generic Java Platform for Reinforcement Learning 6 sichnya 2019 u Wayback Machine Arhiv originalu za 8 listopada 2015 r angl Zastosuvannya navchannya z pidkriplennyam do gri v hrestiki nuliki 28 serpnya 2016 u Wayback Machine Perl Scholarpedia Reinforcement Learning 4 veresnya 2016 u Wayback Machine angl Scholarpedia Temporal Difference Learning 19 serpnya 2016 u Wayback Machine angl Arhiv originalu za 21 bereznya 2012 r angl v Delftskomu tehnichnomu universiteti Instrumenti mashinnogo navchannya dlya Matlab 1 travnya 2012 u Wayback Machine Lenciya Endryu Ina z navchannya z pidkriplennyam u Stendfordskomu universiteti 27 listopada 2016 u Wayback Machine angl