Обучение с подсилване

https://www.ml-concepts.com/machine-learning-models/

Обучението с подсилване е област на машинното обучение. Става дума за предприемане на подходящи действия за максимизиране на възнаграждението в конкретна ситуация. Той се използва от различни софтуери и машини, за да намери най-доброто възможно поведение или път, който трябва да поеме в конкретна ситуация.

Изображението по-горе показва робота, диаманта и огъня. Целта на робота е да получи наградата, която е диаманта, и да избегне препятствията, които се изстрелват. Роботът се учи, като пробва всички възможни пътища и след това избира пътя, който му дава наградата с най-малко препятствия. Всяка правилна стъпка ще даде на робота награда и всяка грешна стъпка ще извади наградата на робота. Общата награда ще бъде изчислена, когато достигне крайната награда, която е диаманта.

Видове обучение за засилване

Има основно два вида обучение за подсилване, които са:

  • Положително подсилване
  • Отрицателно подсилване

Положително подсилване:

Ученето с положително подсилване означава добавяне на нещо, което да увеличи тенденцията, че очакваното поведение ще се появи отново. Влияе положително върху поведението на агента и повишава силата на поведението.

Този тип подсилване може да поддържа промените за дълго време, но твърде много положително подсилване може да доведе до претоварване на състояния, което може да намали последствията.

Отрицателно подсилване:

Ученето с отрицателно подсилване е обратното на положителното подсилване, тъй като увеличава тенденцията специфичното поведение да се появи отново чрез избягване на отрицателното състояние.

То може да бъде по-ефективно от положителното подкрепление в зависимост от ситуацията и поведението, но осигурява подкрепление само за да отговори на минималното поведение.