🧬 Молекулярна біологія · Обчислювальна біологія
📅 Червень 2026⏱ 10 хв🟡 Середній рівень · Останнє оновлення: 3 липня 2026 р.

Фолдинг білків: пояснення ґраткової HP-моделі

Ланцюг амінокислот, що виходить із рибосоми, спонтанно згортається в точну тривимірну форму за лічені мілісекунди — і саме ця форма визначає геть усе у функції білка. Ґраткова HP-модель зводить цей надзвичайно складний процес до однієї рушійної сили: прагнення гідрофобних залишків утекти від води. Попри свою простоту, модель кодує NP-складну комбінаторну задачу й десятиліттями скеровувала дослідження алгоритмів фолдингу та розробку ліків.

1. Задача фолдингу білків

Білки — це молекулярні машини життя. Кожен фермент, що каталізує хімічну реакцію, кожен рецептор, що приймає гормональний сигнал, кожне структурне волокно, що тримає клітину вкупі, — це білок. Усі білки побудовані з однакових базових складників — лінійних ланцюгів амінокислот, закодованих у ДНК, — проте кожен згортається в унікальну, відтворювану тривимірну архітектуру.

Центральна загадка така: чи можемо ми, маючи лише послідовність амінокислот (первинну структуру), передбачити кінцеву згорнуту форму (третинну структуру)? Це і є задача фолдингу білків, яка займала біохіміків та обчислювальних біологів понад півстоліття, аж поки AlphaFold2 не досяг точності, близької до експериментальної, у 2021 році.

Щоб зрозуміти, чому передбачення таке складне — і чому спрощені моделі лишаються незамінними навчальними та дослідницькими інструментами, — спершу слід зрозуміти, що рухає фолдингом.

Чому фолдинг важливий для медицини

Неправильно згорнуті білки не просто нефункціональні — вони часто активно токсичні. Хвороба Альцгеймера пов'язана з неправильним згортанням та агрегацією пептидів бета-амілоїду в бляшки. Хвороба Паркінсона асоціюється з агрегатами альфа-синуклеїну. Пріонні захворювання (хвороба Крейтцфельдта — Якоба, коров'ячий сказ) поширюються, спонукаючи нормальні білки PrP набувати неправильної пріонної конформації. Тож розуміння правил фолдингу не є суто академічним — воно центральне для розробки ліків та лікування нейродегенеративних захворювань.

2. Догма Анфінсена

На початку 1960-х Крістіан Анфінсен у NIH провів знакову серію експериментів із рибонуклеазою A (РНКаза A) — невеликим ферментом зі 124 амінокислот. Він повністю денатурував білок за допомогою сечовини (яка руйнує нековалентні взаємодії) і розірвав чотири дисульфідні зв'язки відновником. Розгорнутому, неактивному білку потім дали реокислитися в буфері без сечовини — і він спонтанно згорнувся назад у свою нативну, повністю активну конформацію.

Цей експеримент заклав основу того, що стало відомим як догма Анфінсена (або термодинамічна гіпотеза): нативна структура білка — це термодинамічно стабільний стан, визначений виключно його послідовністю амінокислот за фізіологічних умов. Жодного додаткового шаблона чи інструкції не потрібно. Уся інформація міститься в самій послідовності.

Парадокс Левінталя: Якби білок зі 100 амінокислот випадково перебирав навіть обмежений набір конформацій для кожного залишку — скажімо, три обертальні стани, — повний конформаційний простір становив би 3100 ≈ 5 × 1047 структур. Перебирання їх зі швидкістю 1013 на секунду тривало б довше за вік Всесвіту. Проте білки згортаються відтворювано за мікросекунди — мілісекунди. Цей парадокс, сформульований Сайрусом Левінталем у 1969 році, показує, що фолдинг не може бути випадковим пошуком — послідовність має зміщувати шлях пошуку до нативного стану.

3. HP-модель: гідрофобно-полярна абстракція

Запропонована Кеном Діллом у 1985 році, HP-модель — це найпростіша ґраткова модель фолдингу білків, яка відображає домінантну фізичну силу: гідрофобний ефект. Замість того щоб представляти всі 20 амінокислот, модель зводить кожен залишок до одного з двох типів:

Білковий ланцюг розміщується на двовимірній (або тривимірній) квадратній ґратці. Кожна амінокислота займає один вузол ґратки. Ланцюг має бути самоуникним — жодні два залишки не можуть займати один вузол — і має утворювати зв'язний шлях із сусідніх ґраткових кроків.

Енергетична функція

Енергія конформації визначається єдиним правилом: два залишки H, що є сусідніми на ґратці, але не сусідніми в послідовності (так званий топологічний контакт), дають внесок енергії −1. Усі інші контакти (H–P, P–P або P–H) дають нуль. Мета — знайти конформацію з мінімальною загальною енергією, тобто з максимальною кількістю контактів H–H.

E = -1 × (кількість незв'язаних контактів H–H) Приклад послідовності (довжина 8): H P H H P H P H Залишки: 1 2 3 4 5 6 7 8 Згорнута конформація може розмістити залишки 1,3,4,6,8 (усі H) у компактному гідрофобному ядрі. Якщо залишки 1 і 6 сусідні на ґратці (незв'язані): -1 Якщо залишки 3 і 8 сусідні на ґратці (незв'язані): -1 Загальна енергія: -2 (краще, ніж розгорнутий ланцюг при E = 0) Мінімальна енергія = найбільш від'ємне досяжне значення для заданої послідовності.

Попри свою простоту, ця енергетична функція породжує багату поведінку. Послідовності з багатьма залишками H, згрупованими разом у послідовності, схильні згортатися в компактні глобулярні структури — повторюючи поведінку реальних білків із гідрофобним ядром. Послідовності з чергуванням залишків H і P схильні лишатися більш розгорнутими.

Чому гідрофобний ефект домінує

Молекули води утворюють водневі зв'язки одна з одною. Коли неполярну групу вставляють у воду, вона не може брати участь у водневому зв'язуванні, змушуючи навколишні молекули води перевпорядкуватися в жорсткішу клітку з нижчою ентропією. Видалення неполярних груп із контакту з водою — шляхом захоронення їх у гідрофобному ядрі — вивільняє ці молекули води та збільшує ентропію розчинника. Цей ентропійний виграш і є термодинамічною рушійною силою гідрофобного ефекту. Дослідження свідчать, що 60–70% стабілізаційної енергії в типових глобулярних білках походить від пакування гідрофобного ядра, що робить його домінантним членом як у реальній енергетичній функції, так і в HP-моделі.

4. Енергетичні ландшафти та воронки

Сучасна теорія фолдингу білків, розроблена переважно Волайнсом, Брінґельсоном, Онучичем та колегами у 1990-х, описує фолдинг за допомогою концепції енергетичного ландшафту — багатовимірної поверхні, де кожна вісь відповідає певному ступеню конформаційної свободи, а вертикальна вісь представляє вільну енергію.

Для випадкового гетерополімеру енергетичний ландшафт пересічений: багато глибоких локальних мінімумів (кінетичних пасток), розділених високими бар'єрами. Білок проводив би більшість часу застряглим у цих пастках і ніколи не досягав би нативного стану в межах біологічних часових масштабів.

Реальні білки, сформовані мільярдами років еволюції, мають лійкоподібний енергетичний ландшафт. Воронка зміщена: у міру того, як ланцюг стає компактнішим і ближчим до нативного, вільна енергія загалом зменшується. Локальні мінімуми все ще можуть існувати — частково згорнуті проміжні стани, — але є загальний термодинамічний градієнт у бік нативної структури. Цей принцип воронки розв'язує парадокс Левінталя: фолдинг — це не випадковий пошук, а скерований спуск по воронці.

Фрустрація та неправильне згортання: Воронка не ідеально гладка. Конкуруючі взаємодії спричиняють локальну фрустрацію — ділянки послідовності, де задоволення одного контакту неминуче унеможливлює задоволення іншого. Сильно фрустровані послідовності схильні згортатися повільно або згортатися неправильно. Внутрішньо невпорядковані білки (IDP) посідають крайнє положення: їхні ландшафти мають настільки пологі воронки, що вони лишаються гнучкими, а не набувають унікальної згортки, — і ця властивість сама по собі функціонально важлива в сигналінгу та регуляції.

У HP-моделі енергетичний ландшафт можна візуалізувати безпосередньо. Для коротких послідовностей (довжина 10–20) усі самоуникні шляхи можна перелічити. Для довших послідовностей ландшафт досліджують симуляцією. Послідовності з багатьма контактами HP-моделі в глобальному мінімумі та небагатьма структурами при цій самій енергії мають хорошу здатність до згортання — концепцію, що відображається на реальні принципи дизайну білків.

5. Обчислювальна складність

Один із найважливіших теоретичних результатів обчислювальної біології полягає в тому, що пошук конформації основного стану (мінімальної енергії) HP-послідовності на 2D- чи 3D-ґратці є NP-складним. Це було строго доведено Крешенці, Ґолдманом, Пападимітріу, Пікколбоні та Яннакакісом у 1998 році для 3D-моделі, а також Хартом та Істраїлом для варіантів 2D-моделі.

NP-складність означає, що жодного алгоритму поліноміального часу не відомо (і не очікується), який розв'язував би всі екземпляри задачі HP-фолдингу. Зі зростанням довжини послідовності кількість самоуникних шляхів зростає експоненційно. Для 2D квадратної ґратки кількість самоуникних шляхів довжини n зростає приблизно як 2.638n. Для довжини 50 це приблизно 1019 — далеко за межами вичерпного перебору.

Самоуникні шляхи на 2D квадратній ґратці: Довжина 10: ~4 000 конформацій Довжина 20: ~1.7 × 10^7 конформацій Довжина 30: ~7.1 × 10^10 конформацій Довжина 50: ~2.6 × 10^19 конформацій Темп зростання: ~2.638^n (Домб, 1960) HP-послідовності довжини n = 50 неможливо розв'язати точно за розумний час → потрібні евристичні алгоритми.

Цей результат щодо складності важливий не лише для самої HP-моделі: він дає формальну нижню межу складності реального передбачення фолдингу білків. Навіть радикально спрощена модель — два типи залишків, квадратна ґратка, єдиний енергетичний член — є обчислювально нерозв'язною в найгіршому випадку. Успіх AlphaFold2 цьому не суперечить: він використовує еволюційну інформацію та коеволюційні сигнали, щоб повністю обійти вичерпний пошук.

6. Алгоритми пошуку для HP-фолдингу

Оскільки точна оптимізація нерозв'язна, до HP-моделі застосовано багату екосистему евристичних алгоритмів. Ці алгоритми також слугують випробувальними майданчиками для методів, що використовуються в реальному передбаченні структури білків.

Методи Монте-Карло

Найпоширеніший підхід до дослідження HP-моделі. Випадкова конформація ітеративно модифікується малими ходами: повороти (обертання сегмента ланцюга навколо точки ґратки), ходи кінцевих точок або ходи коленвала (локальні перевпорядкування, що зберігають зв'язність ланцюга). Кожна нова конформація приймається або відхиляється за критерієм Метрополіса: завжди приймати, якщо енергія зменшується; приймати з імовірністю exp(−ΔE / kBT), якщо енергія зростає. Це дозволяє вибиратися з локальних мінімумів. Імітаційний відпал — поступове зниження ефективної температури — зазвичай застосовують, щоб привести систему до основного стану.

Генетичні алгоритми

Популяція конформацій-кандидатів еволюціонує впродовж поколінь. Конформації представляються як послідовності ходів (U/D/L/R на ґратці). Відбір сприяє конформаціям із нижчою енергією (компактнішим, багатим на H–H). Оператори схрещування та мутації породжують нових кандидатів. Генетичні алгоритми ефективно досліджують різноманітні ділянки конформаційного простору одночасно, зменшуючи ризик збігання до єдиного локального мінімуму.

Динамічне програмування та точні методи

Для коротких послідовностей (довжиною до ~25 у 2D) динамічне програмування в поєднанні з відсіканням за методом гілок і меж може знаходити доведено оптимальні конформації. Оцінювачі верхньої межі для максимально можливої кількості контактів H–H відсікають гілки, які не можуть перевершити поточний найкращий розв'язок. Для 3D-моделей практична межа дещо коротша. Ці точні методи неоціненні для генерування еталонних наборів даних, на яких тестують евристики.

Навчання з підкріпленням

Останнім часом агентів навчання з підкріпленням (RL) тренують згортати HP-послідовності, навчаючись політиці, що розміщує залишки на ґратці по одному. Агент отримує сигнал винагороди на основі енергії завершеної конформації. Підходи на основі RL досягають конкурентоспроможних результатів на еталонних послідовностях і мають перевагу узагальнення на різні довжини послідовностей та топології без повторного запуску оптимізації з нуля для кожної нової послідовності.

7. За межами HP-моделі

Сила HP-моделі полягає в її придатності до аналізу та симуляції. Її обмеження криються в тому самому джерелі простоти: реальні білки складаються не лише з двох типів залишків, а реальні взаємодії сягають далеко за парні гідрофобні контакти.

Розширення HP-моделі

Від ґраткових моделей до AlphaFold

Траєкторія від HP-моделі до найсучаснішого передбачення структури ілюструє пошаровий поступ обчислювальної біології. Ґраткові моделі дали математичні інсайти та алгоритмічні еталони. Грубозернисті позаґраткові моделі (фрагментне складання епохи CASP: Rosetta, I-TASSER) додали реалістичну геометрію. Підходи глибокого навчання — кульмінацією яких стала еквіваріантна трансформерна архітектура AlphaFold2 та коеволюційні ознаки на основі множинного вирівнювання послідовностей — досягли точності, близької до експериментальної, для більшості родин білків. Проте HP-модель лишається в кожній навчальній програмі зі структурної біоінформатики, бо робить базову фізику доступною без обчислювальних накладних витрат, і бо алгоритми, розроблені для неї — Монте-Карло, генетичний пошук, RL, — лишаються фундаментальними в усій обчислювальній науці.

AlphaFold2 та спадщина HP: AlphaFold2 не використовує ґраткову модель, але фізична інтуїція за HP-моделлю — що захоронення гідрофобних груп є домінантною рушійною силою — неявно закодована в навчальних даних. Модель навчається на мільйонах розв'язаних структур білків, у яких гідрофобні ядра послідовно захоронені. HP-модель робить цей інсайт явним і обчислюваним.

Ключові висновки