1. Неконтролирано многозадачно и трансферно обучение върху смесени модели на Гаус(arXiv)

Автор: Ye Tian, Haolei Weng, Yang Feng

Резюме:Неконтролираното обучение се използва широко в много приложения от реалния свят. Един от най-простите и най-важни модели на обучение без надзор е моделът на сместа на Гаус (GMM). В тази работа ние изучаваме проблема с многозадачното обучение на GMM, който има за цел да използва потенциално подобни GMM параметрични структури сред задачите, за да получи подобрена производителност на обучение в сравнение с обучението с една задача. Ние предлагаме многозадачна процедура за обучение на GMM, базирана на EM алгоритъма, който не само може ефективно да използва неизвестно сходство между свързани задачи, но също така е стабилен срещу част от извънредни задачи от произволни източници. Показано е, че предложената процедура постига минимална оптимална скорост на конвергенция както за грешката при оценката на параметъра, така и за излишната грешка при неправилно групиране, в широк диапазон от режими. Освен това, ние обобщаваме нашия подход за справяне с проблема с трансферното обучение за GMM, където се извличат подобни теоретични резултати. И накрая, ние демонстрираме ефективността на нашите методи чрез симулации и анализ на реални данни. Доколкото ни е известно, това е първата работа, изучаваща многозадачно и трансферно обучение на GMMs с теоретични гаранции

2.Прехвърляне на обучение с предварително обучени трансформатори за дистанционно наблюдение(arXiv)

Автор:Антъни Фулър, Корин Милард, Джеймс Р. Грийн

Резюме:Въпреки че общността на дистанционното наблюдение (RS) е започнала да обучава предварително трансформатори (предназначени да бъдат фино настроени за RS задачи), не е ясно как тези модели се представят при смени в разпределението. Тук обучаваме предварително нов RS трансформатор — наречен SatViT-V2 — на 1,3 милиона получени от сателитни RS изображения, след което го настройваме фино (заедно с пет други модела), за да проучим как се представя при разпределения, които не са виждани по време на обучението. Ние разделяме експертно етикетиран набор от данни за земното покритие на 14 набора от данни въз основа на изходния биом. Ние обучаваме всеки модел на всеки биом поотделно и ги тестваме на всички други биоми. Общо това се равнява на 1638 експеримента за трансфер на биоми. След фина настройка откриваме, че SatViT-V2 превъзхожда SatViT-V1 с 3,1% при данни за разпространение (съвпадащи биоми) и 2,8% за данни извън разпространение (несъответстващи биоми). Освен това откриваме, че инициализирането на фина настройка от линейното сондирано решение (т.е. използване на LPFT [1]) подобрява производителността на SatViT-V2 с още 1,2% при данни в разпространението и 2,4% при данни извън разпространението. След това откриваме, че предварително обучените RS трансформатори са по-добре калибрирани при разпределителни смени, отколкото моделите без предварително обучение и използването на LPFT води до допълнителни подобрения в калибрирането на модела. И накрая, откриваме, че пет мерки за изместване на разпределението са умерено свързани с ефективността на трансфера на биома. Ние споделяме код и предварително обучени модели тежести. (https://github.com/antofuller/SatViT

3. Регуляризиран мек актьор-критик за обучение за трансфер на поведение(arXiv)

Автор: Mingxi Tan, Andong Tian, Ludovic Denoyer

Резюме:Съществуващите методи за обучение по имитация се фокусират основно върху това да накарат агент ефективно да имитира демонстрирано поведение, но не адресират потенциалното противоречие между стила на поведение и целта на дадена задача. Налице е обща липса на ефективни методи, които позволяват на агента частично да имитира демонстрирано поведение в различна степен, докато изпълнява основната цел на дадена задача. В тази статия ние предлагаме метод, наречен Regularized Soft Actor-Critic, който формулира основната задача и задачата за имитация съгласно рамката на ограничен процес на вземане на решение на Марков (CMDP). Основната задача се определя като целта за максимална ентропия, използвана в Soft Actor-Critic (SAC), а задачата за имитация се определя като ограничение. Ние оценяваме нашия метод върху задачи за непрекъснат контрол, свързани с приложения за видеоигри