Бутстреп-ресемплінг: статистичний висновок без припущень
Більшість класичної статистики ґрунтується на припущеннях: що дані підпорядковуються нормальному розподілу, що вибірка достатньо велика для спрацювання центральної граничної теореми, або що формула стандартної помилки для вашої конкретної статистики взагалі існує. Бутстреп-ресемплінг, запропонований Бредлі Ефроном у 1979 році, обходить усі ці вимоги. Ключова ідея є елегантною: якщо неможливо відібрати більше вибірок із невідомої генеральної сукупності, уявіть, що ваші наявні дані й є генеральною сукупністю, і відбирайте з них — багаторазово, з поверненням, за допомогою комп'ютера. Кожна синтетична повторна вибірка дає оцінку вашої статистики, а розкид цих оцінок безпосередньо апроксимує вибіркову мінливість, яка вас цікавить. Результатом є універсальний інструмент для побудови довірчих інтервалів, стандартних помилок і гіпотетичних тестів, що працює для середніх, медіан, відношень, кореляцій, регресійних коефіцієнтів і будь-якої іншої величини, яку ви можете обчислити.
Основний алгоритм: відбір з поверненням
Припустимо, у вас є набір даних із n спостережень, x1, x2, ..., xn, і ви хочете оцінити невизначеність деякої статистики T — скажімо, медіани або міжквартильного розмаху. Непараметричний бутстреп працює так:
- Обчисліть спостережувану статистику
Tспостз вихідних даних. - Відберіть бутстреп-вибірку
x*1, x*2, ..., x*n, вибравшиnзначень рівномірно та випадково з вихідного набору даних, з поверненням. Це означає, що кожне спостереження може з'явитися нуль, один або кілька разів в єдиній повторній вибірці. - Обчисліть статистику
T*з бутстреп-вибірки. - Повторіть кроки 2–3 велику кількість разів
B(зазвичай від 1 000 до 10 000), отримавши колекцію бутстреп-статистикT*1, T*2, ..., T*B. - Узагальніть розподіл
T*для отримання довірчих інтервалів або стандартних помилок.
Теоретичне обґрунтування полягає в тому, що емпіричний розподіл даних (розподіл, що надає ймовірність 1/n кожному спостережуваному значенню) є найкращою непараметричною оцінкою справжнього розподілу генеральної сукупності. Ресемплінг із нього тому імітує ресемплінг із справжнього розподілу настільки добре, наскільки дані його представляють. У міру зростання n емпіричний розподіл збігається до справжнього, а бутстреп-оцінки збігаються до точного розподілу вибірки T.
У середньому кожна бутстреп-повторна вибірка містить близько 1 - e-1 ≈ 63,2% унікальних вихідних спостережень, а решта приблизно 36,8% не відбираються. Цей факт лежить в основі оцінки помилки «поза мішком» у випадкових лісах, де не відібрані спостереження утворюють природний валідаційний набір для кожного дерева.
Побудова бутстреп-довірчих інтервалів
Для перетворення B бутстреп-статистик у довірчий інтервал існує кілька методів. Найпростішим є перцентильний метод: відсортуйте бутстреп-статистики й візьміть (α/2)-й і (1 - α/2)-й перцентилі як кінцеві точки інтервалу. Для 95%-го інтервалу з 1 000 бутстреп-ресемплів це означає взяти 25-е та 975-е значення за порядком:
ДІ = [T*(25), T*(975)]
Перцентильний метод простий, але може бути зміщеним, коли бутстреп-розподіл не центрований на спостережуваній статистиці. Базовий (або «опорний») метод виправляє це шляхом відображення навколо Tспост:
ДІ = [2Tспост − T*(1-α/2), 2Tспост − T*(α/2)]
Найбільш статистично складним поширеним методом є зміщено-скоригований та прискорений (BCa) інтервал, що застосовує дві поправки. Поправка на зміщення z0 враховує частку бутстреп-статистик, що потрапляють нижче Tспост: z0 = Φ-1(#{T*b < Tспост} / B). Прискорення a вимірює, як змінюється стандартна помилка статистики зі зміною параметра, оцінюється через джекнайф. Ці поправки зміщують перцентильні відсічки й дають інтервали з кращими властивостями покриття, особливо для асиметричних або зміщених статистик.
Метод бутстреп-t (стьюдентизований) іде далі: він нормалізує кожну бутстреп-статистику на її власну бутстреп-стандартну помилку, потім використовує квантилі того нормалізованого розподілу. Це найточніший, але й найбільш обчислювально витратний метод, що вимагає вкладеного бутстрепу всередині кожного зовнішнього ресемплю.
Коли використовувати бутстреп, а коли — класичні методи
Бутстреп-ресемплінг особливо корисний у ситуаціях, де класична теорія відсутня або ненадійна. Якщо вам потрібен довірчий інтервал для коефіцієнта кореляції, класичні методи вимагають двовимірної нормальності й використовують z-перетворення Фішера, яке може бути неточним для малих вибірок або даних із важкими хвостами. Бутстреп не вимагає жодного з цих припущень. Аналогічно, для таких статистик, як усічене середнє, рангова кореляція Спірмена, відношення двох вибіркових середніх або площа під ROC-кривою, не існує простої аналітичної стандартної помилки. Бутстреп дає інтервал безпосередньо.
Класичні методи зберігають переваги, коли їхні припущення виконуються. Стандартна помилка вибіркового середнього з нормальної генеральної сукупності точно дорівнює σ / √n, даючи точні інтервали навіть для малих вибірок. F-тест у регресії та дисперсійному аналізі має точні розподіли при нормальності й дає більшу потужність, ніж бутстреп, у цих сценаріях. Практичне правило: використовуйте класичну теорію, коли припущення правдоподібні й існують встановлені формули; використовуйте бутстреп, коли припущення сумнівні, статистика складна, або ви просто хочете надійну перевірку класичних результатів.
Бутстреп не є панацеєю. Він оцінює вибіркову мінливість, але не може компенсувати зміщений оцінювач або вибірку, що не представляє генеральну сукупність. Якщо дані страждають від систематичної похибки відбору, ні бутстреп, ні будь-який інший метод ресемплінгу не може вирішити цю фундаментальну проблему.
Блоковий бутстреп і залежні дані
Стандартний бутстреп припускає незалежні та однаково розподілені спостереження. Це припущення порушується часовими рядами, просторовими даними, кластеризованими даними або повторними вимірами на одних і тих самих суб'єктах. Наївне ресемплювання руйнує структуру кореляції й дає невалідні інтервали.
Для вирішення проблеми залежності існує кілька варіантів. Рухомий блоковий бутстреп розбиває ряд на перекривні або неперекривні блоки довжиною l і ресемплює цілі блоки, а не окремі спостереження. Якщо довжина блоку перевищує діапазон кореляції, ресемпльовані блоки є приблизно незалежними, і ресемпльований ряд зберігає структуру короткочасної кореляції. Стаціонарний бутстреп використовує випадкові довжини блоків, відібрані з геометричного розподілу, для збереження стаціонарності.
Для кластеризованих даних — учні в школах, пацієнти в лікарнях — кластерний бутстреп ресемплює цілі кластери з поверненням, зберігаючи кореляцію всередині кластера. Це стало стандартною практикою в освітніх і медичних дослідженнях. Вибір одиниці ресемплінгу має відповідати одиниці рандомізації: якщо лікування призначалося на рівні школи, ресемплюйте школи, а не учнів.
Практичне застосування
Бутстреп-ресемплінг став стандартним інструментом у кількісних дисциплінах.
- Оцінювання моделей машинного навчання. Оцінювач .632 бутстрепу та помилка «поза мішком» у випадкових лісах використовують ресемплінг для оцінки узагальнювальної помилки без окремого тестового набору. Крос-валідація і бутстреп є взаємодоповнюючими діагностичними інструментами для вибору моделей.
- Клінічні дослідження та медицина. При порівнянні медіанного часу виживання між групами лікування або оцінці кількості пацієнтів, необхідних для лікування, бутстреп-інтервали уникають припущень нормальності, що можуть не виконуватися в малих дослідженнях.
- Фінанси та ризик. Value at Risk та Expected Shortfall для портфелів є статистиками хвостових перцентилів екстремальних збитків. Історичне моделювання — саме по собі форма бутстрепу — ресемплює спостережувані добові прибутковості для оцінки хвоста розподілу прибутків і збитків.
- Геноміка та біоінформатика. Оцінка надійності філогенетичних дерев (значення підтримки бутстрепу), довірчі інтервали диференціальної експресії та розміри ефектів GWAS — всі вони використовують бутстреп або перестановковий ресемплінг для оцінки статистичної невизначеності.
- Дослідження опитувань і соціальні науки. Методи реплікаційних ваг, що використовуються національними статистичними агентствами (збалансована повторна реплікація, джекнайф), тісно пов'язані з бутстрепом і обробляють складні схеми опитувань — стратифікацію, кластеризацію, нерівні ймовірності — що робить класичні формули непрактичними.
Часті запитання
Що таке бутстреп-ресемплінг?
Бутстреп-ресемплінг — це обчислювальний метод, що багаторазово відбирає вибірки з поверненням із наявних даних для апроксимації розподілу вибірки будь-якої статистики, дозволяючи будувати довірчі інтервали без розподільчих припущень.
Що означає «з поверненням» у бутстрепі?
Відбір з поверненням означає, що кожна точка даних може бути вибрана більш ніж один раз у єдиній бутстреп-вибірці. Після вибору одного спостереження воно повертається до пулу, тому те саме значення може з'явитися кілька разів у ресемплі.
Скільки бутстреп-вибірок потрібно?
Для грубих оцінок часто достатньо 200–500 ресемплів. Для надійних 95%-х довірчих інтервалів стандартом є 1 000–2 000. Для дуже точних хвостових перцентилів (99% ДІ) рекомендується 10 000 або більше ресемплів.
Що таке перцентильний довірчий інтервал бутстрепу?
Перцентильний метод бере 2,5-й і 97,5-й перцентилі B бутстреп-значень статистики як нижню і верхню межі 95%-го довірчого інтервалу. Не вимагає припущення про нормальність і є найпростішим бутстреп-інтервалом для обчислення.
Що таке BCa-інтервал бутстрепу?
Зміщено-скоригований та прискорений (BCa) інтервал враховує зміщення та асиметрію розподілу бутстрепу. Він застосовує два коригувальні коефіцієнти — поправку на зміщення z0 та прискорення a — для зміщення та розтягування перцентильних відсічок, забезпечуючи кращі показники покриття, ніж сирий перцентильний метод.
Чи може бутстреп працювати з малими вибірками?
Бутстреп працює краще за багато параметричних методів на малих вибірках, але все одно залежить від того, наскільки вибірка представляє генеральну сукупність. При дуже малих спостереженнях (n менше 10) бутстреп-інтервали можуть бути ненадійними, оскільки емпіричний розподіл погано наближає справжній розподіл.
У чому різниця між бутстрепом і перестановковими тестами?
Бутстреп-ресемплінг оцінює невизначеність навколо оцінки шляхом відбору з поверненням. Перестановкові тести оцінюють статистичну значущість шляхом перемішування групових міток без повернення, генеруючи нуль-розподіл для обчислення p-значень. Обидва є методами ресемплінгу, але відповідають на різні питання.
Коли НЕ слід використовувати бутстреп?
Бутстреп може зазнати невдачі, коли статистика залежить від екстремальних хвостів (наприклад, максимум вибірки), коли розподіл має нескінченну дисперсію, або коли спостереження сильно залежні без використання блокового бутстрепу. Він також не може виправити зміщення, спричинене невідповідною вибіркою.
Що таке параметричний бутстреп?
Параметричний бутстреп підбирає дистрибуційну модель (наприклад, нормальну, Пуассона) для даних, а потім генерує синтетичні вибірки з тієї підібраної моделі, а не ресемплює з вихідних даних. Може бути ефективнішим, якщо припущена модель є правильною.
Як бутстреп пов'язаний із центральною граничною теоремою?
Центральна гранична теорема гарантує наближену нормальність вибіркового середнього при великому n, дозволяючи використовувати формули стандартної помилки. Бутстреп оцінює розподіл вибірки безпосередньо, що робить його корисним коли ЦГТ погано застосовна — малі вибірки, ненормальні дані або статистики, відмінні від середнього.
Спробуйте самі
Досліджуйте інтерактивні симуляції, щоб розвинути інтуїцію щодо ресемплінгу та суміжних ідей:
- Бутстреп-ресемплінг — відбирайте бутстреп-вибірки з ваших власних даних, спостерігайте, як зростає гістограма бутстреп-статистик, і витягуйте довірчі інтервали перцентильним і BCa-методами.
- Центральна гранична теорема — побачте, як розподіл вибіркового середнього наближається до нормального зі зростанням розміру вибірки, і порівняйте інтервали на основі ЦГТ із бутстреп-інтервалами.
- Баєсівський висновок — дослідіть альтернативний фреймворк для кількісної оцінки невизначеності, що використовує апріорні розподіли та правдоподібність, і порівняйте апостеріорні довірчі інтервали з бутстреп-довірчими інтервалами.
Висновок
Бутстреп-ресемплінг є одним із найпрактичніших потужних ідей сучасної статистики. Замінюючи математичне виведення обчислювальним моделюванням — відбираючи з наявних даних ніби вони є генеральною сукупністю — він робить кількісну оцінку невизначеності доступною практично для будь-якого оцінювача, незалежно від його розподільчої складності. Від вибіркової медіани до помилки узагальнення моделей машинного навчання і надійності філогенетичних дерев — бутстреп забезпечує послідовний, обґрунтований підхід. Його обмеження реальні — він не може витягти інформацію, якої немає в даних, і потребує обережності із залежними спостереженнями — але в межах своєї сфери він надзвичайно універсальний. У міру того, як аналіз даних стає дедалі складнішим, а параметричні припущення — дедалі менш обґрунтованими, роль бутстрепу в суворому, незалежному від припущень висновку лише зростатиме.