Обучение с подсилване

https://www.ml-concepts.com/machine-learning-models/

Обучението с подсилване е област на машинното обучение. Става дума за предприемане на подходящи действия за максимизиране на възнаграждението в конкретна ситуация. Той се използва от различни софтуери и машини, за да намери най-доброто възможно поведение или път, който трябва да поеме в конкретна ситуация.

Изображението по-горе показва робота, диаманта и огъня. Целта на робота е да получи наградата, която е диаманта, и да избегне препятствията, които се изстрелват. Роботът се учи, като пробва всички възможни пътища и след това избира пътя, който му дава наградата с най-малко препятствия. Всяка правилна стъпка ще даде на робота награда и всяка грешна стъпка ще извади наградата на робота. Общата награда ще бъде изчислена, когато достигне крайната награда, която е диаманта.

Видове обучение за засилване

Има основно два вида обучение за подсилване, които са:

Положително подсилване
Отрицателно подсилване

Положително подсилване:

Ученето с положително подсилване означава добавяне на нещо, което да увеличи тенденцията, че очакваното поведение ще се появи отново. Влияе положително върху поведението на агента и повишава силата на поведението.

Този тип подсилване може да поддържа промените за дълго време, но твърде много положително подсилване може да доведе до претоварване на състояния, което може да намали последствията.

Отрицателно подсилване:

Ученето с отрицателно подсилване е обратното на положителното подсилване, тъй като увеличава тенденцията специфичното поведение да се появи отново чрез избягване на отрицателното състояние.

То може да бъде по-ефективно от положителното подкрепление в зависимост от ситуацията и поведението, но осигурява подкрепление само за да отговори на минималното поведение.

Урок за обучение с подсилване - Javatpoint
Нашият урок за обучение с подсилване ще ви даде пълен преглед на обучението с подсилване, включително MDP и…www.javatpoint.com

Обучение с подсилване – GeeksforGeeks
Обучението с подсилване е област на машинното обучение. Става дума за предприемане на подходящи действия за максимизиране на възнаграждението в...www.geeksforgeeks.org

Reinforcement Learning Machine Learning

Вижте също:

Нови материали

Създайте разширение за Chrome с помощта на Angular

Този урок е базиран на манифеста на разширението на chrome версия 3 (MV3), а също и на Angular версия 2+ (2, 3 и...). Ако не сте използвали манифест версия 3, можете да следвате този урок ,..

За да научите нов език за програмиране, започнете отначало

Първоначално публикувано на http://www.mberlove.com/blog/a-new-programming-language-starting-over/ Програмистите се гордеят със способността си да усвояват лесно нови умения , разчитайки..

5 Youtubers на Data Science, които трябва да следвате

Защото всички можем да се справим с малко продуктивно отлагане Всички сме падали в заешката дупка на Youtube, така че защо да не я направим продуктивна?! Като непрекъснато нарастващ източник..

Бих казал, че точно това е проблемът с Twitter — това е инструмент на суперпотребител.

Бих казал, че точно това е проблемът с Twitter — това е инструмент на суперпотребител. По същия начин, по който суперкодерът сочи vim като единствения начин за кодиране, но останалите от нас..

Основи на Gradio

Gradio е най-ефективният метод за демонстриране на вашия модел на машинно обучение и разполага с удобен за потребителя онлайн интерфейс, който го прави достъпен от всяко място. Какво прави..

Илюстрация (GIF) за обяснение на дълбоки конволюционни мрежи (DCNN)

В света на компютърното зрение най-основният и често срещан алгоритъм за разпознаване на изображения е конволюционната мрежа. С популярността на рамки като tensorflow и pytorch, стана по-лесно да..

Python Bootcamp — Data Science Day 165

Python Bootcamp от Giles McMullen-Klein беше абсолютно невероятно. Джайлс има този уникален начин да улови аудиторията си, като същевременно прави съдържанието на курса много интересно...

Етикети

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Coding Python Deep Learning AI React Java Software Engineering Computer Science Algorithms Typescript Nodejs Data Development Programming Languages Neural Networks Productivity Learning To Code Computer Vision Reactjs Front End Development NLP Angular Tech Tutorial ChatGPT Mathematics Javascript Tips CSS Golang Business Statistics API