Какво е?

Bootstrapping е статистически метод за оценка на разпределението на извадката на оценител чрез повторно вземане на извадка от набор от данни със заместване (разрешени са дубликати на извадка). Може да се използва за оценка на несигурността на статистика, като средна стойност или медиана, чрез генериране на много симулирани проби от оригиналните данни. Разпределението на статистиката, изчислена от симулираните проби, може да се използва за приближаване на истинското разпределение на статистиката в популацията. В обикновените статистики това също може да ни осигури доверителен интервал. Стартирането е особено полезно, когато разпределението на популацията е неизвестно или размерът на извадката е малък.

Това звучи познато...

Това е свързано с централната гранична теорема,коятозаявява, че разпределението на средната стойност на извадката на голям брой независими и еднакво разпределени случайни променливи ще се сближи с нормално разпределение, независимо от основното разпределение на населението.

Разликата

Bootstrapping, от друга страна, е метод за повторна извадка, който може да се използва за оценка на извадковото разпределение на дадена статистика, когато разпределението на съвкупността е неизвестно или размерът на извадката е малък. Чрез повторно вземане на проби от оригиналните данни, първоначалното зареждане може да генерира много симулирани проби, които могат да се използват за приближаване на истинското разпределение на статистиката в популацията.

И така, както CLT, така и bootstrapping могат да се използват за оценка на разпределението на дадена статистика. Разлики:CLT приема, че извадката е голяма и разпределението на популацията е известно, докато първоначалното зареждане не прави тези допускания и може да се използва при малък размер на извадката или неизвестно разпределение на популацията сценарии.

Стартиране в ML

Ето защо стартирането става все по-популярно в машинното обучение. Може да се използва за оценка на ефективността на модел, когато размерът на извадката е малък или данните не са независимо и идентично разпределени (не-iid).

Например, първоначалното зареждане може да се използва за оценка на точността на модел чрез повторно вземане на проби от данните със замяна и обучение на нов модел при всяка повторна извадка. Това може да осигури мярка за несигурността на производителността на модела и може да се използва за сравняване на производителността на различни модели.

Освен това техниките за стартиране могат да се използват в различни етапи от тръбопровода за машинно обучение, като избор на функции, избор на модел и оценка на модела. Например, може да се използва за избор на характеристики чрез повторно вземане на проби от данните и изчисляване на важността на характеристиките многократно или за оценка на производителността на модела чрез повторно вземане на проби от данните и изчисляване на точността на тестовия набор многократно.

Заключение

Bootstrapping е универсален метод, който може да се приложи към различни проблеми в машинното обучение и може да предостави ценна информация за несигурността на производителността на модела и може да се използва за оценка на различни модели.

Вижте видеоклипа на statquest, за да видите вътрешната работа:
https://www.youtube.com/watch?v=Xz0x-8-cgaQ&t=148s