Фолдинг білків: пояснення ґраткової HP-моделі

Q: Що таке HP-модель фолдингу білків?

HP-модель (гідрофобно-полярна), запропонована Кеном Діллом у 1985 році, — це спрощена ґраткова модель фолдингу білків. Вона представляє кожну амінокислоту як гідрофобну (H) або полярну (P), розміщує ланцюг на 2D- чи 3D квадратній ґратці й визначає енергію конформації як -1 за кожен незв'язаний контакт H-H. Попри свою простоту, вона відображає домінантну фізичну силу у фолдингу білків — гідрофобний ефект — і слугує фундаментальною моделлю в обчислювальній біології.

Q: Що таке догма Анфінсена і чому вона важлива?

Догма Анфінсена (термодинамічна гіпотеза) стверджує, що нативна тривимірна структура білка — це термодинамічно стабільний стан, визначений повністю його послідовністю амінокислот за фізіологічних умов. Крістіан Анфінсен продемонстрував це, денатурувавши рибонуклеазу A й показавши, що вона спонтанно згортається назад у свою активну форму після видалення денатуранта. Цей принцип означає, що сама лише послідовність кодує структуру — це фундаментальне припущення за всіма обчислювальними методами передбачення структури білків.

Q: Чому фолдинг білків є NP-складним?

Пошук конформації мінімальної енергії (основного стану) HP-послідовності на 3D-ґратці було доведено NP-складним Крешенці та колегами у 1998 році. Це означає, що кількість конформацій, які потрібно дослідити в найгіршому випадку, зростає експоненційно з довжиною послідовності — приблизно як 2.638^n на 2D квадратній ґратці. Для послідовностей довжиною 50 існує приблизно 10^19 можливих самоуникних шляхів. Точна оптимізація стає обчислювально неможливою, що потребує евристичних методів, як-от вибірка Монте-Карло, генетичні алгоритми чи навчання з підкріпленням.

Q: Що таке концепція енергетичного ландшафту та воронки фолдингу?

Енергетичний ландшафт — це багатовимірна поверхня, де кожна точка представляє конформацію білка, а висота — його вільну енергію. Для білків, сформованих еволюцією, цей ландшафт лійкоподібний: у міру того, як ланцюг стає компактнішим і ближчим до нативного, вільна енергія загалом зменшується, скеровуючи фолдинг до нативного стану. Ця воронка розв'язує парадокс Левінталя — фолдинг є не випадковим пошуком серед усіх конформацій, а зміщеним спуском по воронці. Локальні нерівності у воронці відповідають метастабільним проміжним станам фолдингу.

Q: Як HP-модель пов'язана із сучасним передбаченням структури білків на кшталт AlphaFold?

HP-модель і AlphaFold2 перебувають на протилежних кінцях спектра абстракції. HP-модель відображає єдиний фізичний принцип — захоронення гідрофобних груп — за допомогою бінарного алфавіту залишків на ґратці. AlphaFold2 використовує глибоке навчання з еквіваріантними нейронними мережами, натренованими на мільйонах експериментальних структур, використовуючи коеволюційну інформацію з множинних вирівнювань послідовностей. Попри цю різницю, фізична інтуїція спільна: захоронення гідрофобного ядра є домінантною рушійною силою, яку обидві кодують — явно чи неявно. HP-модель лишається важливою як навчальний інструмент, еталон для алгоритмів пошуку та формальне підтвердження концепції, що навіть мінімальні моделі фолдингу обчислювально складні.

3D-симуляції

🧬 Молекулярна біологія · Обчислювальна біологія

📅 Червень 2026⏱ 10 хв🟡 Середній рівень · Останнє оновлення: 3 липня 2026 р.

Ланцюг амінокислот, що виходить із рибосоми, спонтанно згортається в точну тривимірну форму за лічені мілісекунди — і саме ця форма визначає геть усе у функції білка. Ґраткова HP-модель зводить цей надзвичайно складний процес до однієї рушійної сили: прагнення гідрофобних залишків утекти від води. Попри свою простоту, модель кодує NP-складну комбінаторну задачу й десятиліттями скеровувала дослідження алгоритмів фолдингу та розробку ліків.

Автор: Команда MySimulator · Редакційна перевірка: Редакція MySimulator

1. Задача фолдингу білків

Білки — це молекулярні машини життя. Кожен фермент, що каталізує хімічну реакцію, кожен рецептор, що приймає гормональний сигнал, кожне структурне волокно, що тримає клітину вкупі, — це білок. Усі білки побудовані з однакових базових складників — лінійних ланцюгів амінокислот, закодованих у ДНК, — проте кожен згортається в унікальну, відтворювану тривимірну архітектуру.

Центральна загадка така: чи можемо ми, маючи лише послідовність амінокислот (первинну структуру), передбачити кінцеву згорнуту форму (третинну структуру)? Це і є задача фолдингу білків, яка займала біохіміків та обчислювальних біологів понад півстоліття, аж поки AlphaFold2 не досяг точності, близької до експериментальної, у 2021 році.

Щоб зрозуміти, чому передбачення таке складне — і чому спрощені моделі лишаються незамінними навчальними та дослідницькими інструментами, — спершу слід зрозуміти, що рухає фолдингом.

Чому фолдинг важливий для медицини

Неправильно згорнуті білки не просто нефункціональні — вони часто активно токсичні. Хвороба Альцгеймера пов'язана з неправильним згортанням та агрегацією пептидів бета-амілоїду в бляшки. Хвороба Паркінсона асоціюється з агрегатами альфа-синуклеїну. Пріонні захворювання (хвороба Крейтцфельдта — Якоба, коров'ячий сказ) поширюються, спонукаючи нормальні білки PrP набувати неправильної пріонної конформації. Тож розуміння правил фолдингу не є суто академічним — воно центральне для розробки ліків та лікування нейродегенеративних захворювань.

2. Догма Анфінсена

На початку 1960-х Крістіан Анфінсен у NIH провів знакову серію експериментів із рибонуклеазою A (РНКаза A) — невеликим ферментом зі 124 амінокислот. Він повністю денатурував білок за допомогою сечовини (яка руйнує нековалентні взаємодії) і розірвав чотири дисульфідні зв'язки відновником. Розгорнутому, неактивному білку потім дали реокислитися в буфері без сечовини — і він спонтанно згорнувся назад у свою нативну, повністю активну конформацію.

Цей експеримент заклав основу того, що стало відомим як догма Анфінсена (або термодинамічна гіпотеза): нативна структура білка — це термодинамічно стабільний стан, визначений виключно його послідовністю амінокислот за фізіологічних умов. Жодного додаткового шаблона чи інструкції не потрібно. Уся інформація міститься в самій послідовності.

Парадокс Левінталя: Якби білок зі 100 амінокислот випадково перебирав навіть обмежений набір конформацій для кожного залишку — скажімо, три обертальні стани, — повний конформаційний простір становив би 3¹⁰⁰ ≈ 5 × 10⁴⁷ структур. Перебирання їх зі швидкістю 10¹³ на секунду тривало б довше за вік Всесвіту. Проте білки згортаються відтворювано за мікросекунди — мілісекунди. Цей парадокс, сформульований Сайрусом Левінталем у 1969 році, показує, що фолдинг не може бути випадковим пошуком — послідовність має зміщувати шлях пошуку до нативного стану.

3. HP-модель: гідрофобно-полярна абстракція

Запропонована Кеном Діллом у 1985 році, HP-модель — це найпростіша ґраткова модель фолдингу білків, яка відображає домінантну фізичну силу: гідрофобний ефект. Замість того щоб представляти всі 20 амінокислот, модель зводить кожен залишок до одного з двох типів:

H (гідрофобні): неполярні залишки, що відштовхуються водою — лейцин, валін, ізолейцин, фенілаланін, метіонін та інші.
P (полярні): залишки, яким комфортно у водному середовищі — серин, треонін, лізин, аргінін, аспарагін та заряджені залишки.

Білковий ланцюг розміщується на двовимірній (або тривимірній) квадратній ґратці. Кожна амінокислота займає один вузол ґратки. Ланцюг має бути самоуникним — жодні два залишки не можуть займати один вузол — і має утворювати зв'язний шлях із сусідніх ґраткових кроків.

Енергетична функція

Енергія конформації визначається єдиним правилом: два залишки H, що є сусідніми на ґратці, але не сусідніми в послідовності (так званий топологічний контакт), дають внесок енергії −1. Усі інші контакти (H–P, P–P або P–H) дають нуль. Мета — знайти конформацію з мінімальною загальною енергією, тобто з максимальною кількістю контактів H–H.

E = -1 \times (кількість незв'язаних контактів H-H) Приклад послідовності (довжина 8): H P H H P H P H Залишки: 1 2 3 4 5 6 7 8 Згорнута конформація може розмістити залишки 1,3,4,6,8 (усі H) у компактному гідрофобному ядрі. Якщо залишки 1 і 6 сусідні на ґратці (незв'язані): -1 Якщо залишки 3 і 8 сусідні на ґратці (незв'язані): -1 Загальна енергія: -2 (краще, ніж розгорнутий ланцюг при E = 0) Мінімальна енергія = найбільш від'ємне досяжне значення для заданої послідовності.

Попри свою простоту, ця енергетична функція породжує багату поведінку. Послідовності з багатьма залишками H, згрупованими разом у послідовності, схильні згортатися в компактні глобулярні структури — повторюючи поведінку реальних білків із гідрофобним ядром. Послідовності з чергуванням залишків H і P схильні лишатися більш розгорнутими.

Чому гідрофобний ефект домінує

Молекули води утворюють водневі зв'язки одна з одною. Коли неполярну групу вставляють у воду, вона не може брати участь у водневому зв'язуванні, змушуючи навколишні молекули води перевпорядкуватися в жорсткішу клітку з нижчою ентропією. Видалення неполярних груп із контакту з водою — шляхом захоронення їх у гідрофобному ядрі — вивільняє ці молекули води та збільшує ентропію розчинника. Цей ентропійний виграш і є термодинамічною рушійною силою гідрофобного ефекту. Дослідження свідчать, що 60–70% стабілізаційної енергії в типових глобулярних білках походить від пакування гідрофобного ядра, що робить його домінантним членом як у реальній енергетичній функції, так і в HP-моделі.

4. Енергетичні ландшафти та воронки

Сучасна теорія фолдингу білків, розроблена переважно Волайнсом, Брінґельсоном, Онучичем та колегами у 1990-х, описує фолдинг за допомогою концепції енергетичного ландшафту — багатовимірної поверхні, де кожна вісь відповідає певному ступеню конформаційної свободи, а вертикальна вісь представляє вільну енергію.

Для випадкового гетерополімеру енергетичний ландшафт пересічений: багато глибоких локальних мінімумів (кінетичних пасток), розділених високими бар'єрами. Білок проводив би більшість часу застряглим у цих пастках і ніколи не досягав би нативного стану в межах біологічних часових масштабів.

Реальні білки, сформовані мільярдами років еволюції, мають лійкоподібний енергетичний ландшафт. Воронка зміщена: у міру того, як ланцюг стає компактнішим і ближчим до нативного, вільна енергія загалом зменшується. Локальні мінімуми все ще можуть існувати — частково згорнуті проміжні стани, — але є загальний термодинамічний градієнт у бік нативної структури. Цей принцип воронки розв'язує парадокс Левінталя: фолдинг — це не випадковий пошук, а скерований спуск по воронці.

Фрустрація та неправильне згортання: Воронка не ідеально гладка. Конкуруючі взаємодії спричиняють локальну фрустрацію — ділянки послідовності, де задоволення одного контакту неминуче унеможливлює задоволення іншого. Сильно фрустровані послідовності схильні згортатися повільно або згортатися неправильно. Внутрішньо невпорядковані білки (IDP) посідають крайнє положення: їхні ландшафти мають настільки пологі воронки, що вони лишаються гнучкими, а не набувають унікальної згортки, — і ця властивість сама по собі функціонально важлива в сигналінгу та регуляції.

У HP-моделі енергетичний ландшафт можна візуалізувати безпосередньо. Для коротких послідовностей (довжина 10–20) усі самоуникні шляхи можна перелічити. Для довших послідовностей ландшафт досліджують симуляцією. Послідовності з багатьма контактами HP-моделі в глобальному мінімумі та небагатьма структурами при цій самій енергії мають хорошу здатність до згортання — концепцію, що відображається на реальні принципи дизайну білків.

5. Обчислювальна складність

Один із найважливіших теоретичних результатів обчислювальної біології полягає в тому, що пошук конформації основного стану (мінімальної енергії) HP-послідовності на 2D- чи 3D-ґратці є NP-складним. Це було строго доведено Крешенці, Ґолдманом, Пападимітріу, Пікколбоні та Яннакакісом у 1998 році для 3D-моделі, а також Хартом та Істраїлом для варіантів 2D-моделі.

NP-складність означає, що жодного алгоритму поліноміального часу не відомо (і не очікується), який розв'язував би всі екземпляри задачі HP-фолдингу. Зі зростанням довжини послідовності кількість самоуникних шляхів зростає експоненційно. Для 2D квадратної ґратки кількість самоуникних шляхів довжини n зростає приблизно як 2.638ⁿ. Для довжини 50 це приблизно 10¹⁹ — далеко за межами вичерпного перебору.

Самоуникні шляхи на 2D квадратній ґратці: Довжина 10: ~4 000 конформацій Довжина 20: ~1.7 \times 10^7 конформацій Довжина 30: ~7.1 \times 10^10 конформацій Довжина 50: ~2.6 \times 10^19 конформацій Темп зростання: ~2.638^n (Домб, 1960) HP-послідовності довжини n = 50 неможливо розв'язати точно за розумний час \to потрібні евристичні алгоритми.

Цей результат щодо складності важливий не лише для самої HP-моделі: він дає формальну нижню межу складності реального передбачення фолдингу білків. Навіть радикально спрощена модель — два типи залишків, квадратна ґратка, єдиний енергетичний член — є обчислювально нерозв'язною в найгіршому випадку. Успіх AlphaFold2 цьому не суперечить: він використовує еволюційну інформацію та коеволюційні сигнали, щоб повністю обійти вичерпний пошук.

6. Алгоритми пошуку для HP-фолдингу

Оскільки точна оптимізація нерозв'язна, до HP-моделі застосовано багату екосистему евристичних алгоритмів. Ці алгоритми також слугують випробувальними майданчиками для методів, що використовуються в реальному передбаченні структури білків.

Методи Монте-Карло

Найпоширеніший підхід до дослідження HP-моделі. Випадкова конформація ітеративно модифікується малими ходами: повороти (обертання сегмента ланцюга навколо точки ґратки), ходи кінцевих точок або ходи коленвала (локальні перевпорядкування, що зберігають зв'язність ланцюга). Кожна нова конформація приймається або відхиляється за критерієм Метрополіса: завжди приймати, якщо енергія зменшується; приймати з імовірністю exp(−ΔE / k_BT), якщо енергія зростає. Це дозволяє вибиратися з локальних мінімумів. Імітаційний відпал — поступове зниження ефективної температури — зазвичай застосовують, щоб привести систему до основного стану.

Генетичні алгоритми

Популяція конформацій-кандидатів еволюціонує впродовж поколінь. Конформації представляються як послідовності ходів (U/D/L/R на ґратці). Відбір сприяє конформаціям із нижчою енергією (компактнішим, багатим на H–H). Оператори схрещування та мутації породжують нових кандидатів. Генетичні алгоритми ефективно досліджують різноманітні ділянки конформаційного простору одночасно, зменшуючи ризик збігання до єдиного локального мінімуму.

Динамічне програмування та точні методи

Для коротких послідовностей (довжиною до ~25 у 2D) динамічне програмування в поєднанні з відсіканням за методом гілок і меж може знаходити доведено оптимальні конформації. Оцінювачі верхньої межі для максимально можливої кількості контактів H–H відсікають гілки, які не можуть перевершити поточний найкращий розв'язок. Для 3D-моделей практична межа дещо коротша. Ці точні методи неоціненні для генерування еталонних наборів даних, на яких тестують евристики.

Навчання з підкріпленням

Останнім часом агентів навчання з підкріпленням (RL) тренують згортати HP-послідовності, навчаючись політиці, що розміщує залишки на ґратці по одному. Агент отримує сигнал винагороди на основі енергії завершеної конформації. Підходи на основі RL досягають конкурентоспроможних результатів на еталонних послідовностях і мають перевагу узагальнення на різні довжини послідовностей та топології без повторного запуску оптимізації з нуля для кожної нової послідовності.

7. За межами HP-моделі

Сила HP-моделі полягає в її придатності до аналізу та симуляції. Її обмеження криються в тому самому джерелі простоти: реальні білки складаються не лише з двох типів залишків, а реальні взаємодії сягають далеко за парні гідрофобні контакти.

Розширення HP-моделі

HP+ (модель заряду): Додає тип зарядженого залишку (позитивний або негативний). Дозволяє моделювати електростатичні взаємодії та сольові містки, що стабілізують третинну структуру білка.
Модель HPNX: Чотири типи залишків (H, P, N, X), що кодують гідрофобні, полярні, негативні та позитивні заряди. Багатша матриця контактної енергії. Краще відображає різноманіття реальних взаємодій амінокислот.
Матриця Міязави — Джернігана (MJ): Емпірична матриця контактної енергії 20x20, виведена зі статистичного аналізу відомих структур білків. Замінює бінарну класифікацію HP на залишок-специфічні парні енергії, оцінені за частотами в базах даних. Використовується в реалістичніших ґраткових симуляціях.
3D-ґраткові моделі: Розміщення HP-ланцюга на 3D кубічній чи гранецентрованій кубічній (ГЦК) ґратці різко збільшує конформаційну гнучкість і краще наближає реальне пакування білків. ГЦК-ґратка особливо корисна, бо кожен залишок має 12 сусідів, що ближче до координаційного числа, спостережуваного в реальних ядрах білків.

Від ґраткових моделей до AlphaFold

Траєкторія від HP-моделі до найсучаснішого передбачення структури ілюструє пошаровий поступ обчислювальної біології. Ґраткові моделі дали математичні інсайти та алгоритмічні еталони. Грубозернисті позаґраткові моделі (фрагментне складання епохи CASP: Rosetta, I-TASSER) додали реалістичну геометрію. Підходи глибокого навчання — кульмінацією яких стала еквіваріантна трансформерна архітектура AlphaFold2 та коеволюційні ознаки на основі множинного вирівнювання послідовностей — досягли точності, близької до експериментальної, для більшості родин білків. Проте HP-модель лишається в кожній навчальній програмі зі структурної біоінформатики, бо робить базову фізику доступною без обчислювальних накладних витрат, і бо алгоритми, розроблені для неї — Монте-Карло, генетичний пошук, RL, — лишаються фундаментальними в усій обчислювальній науці.

AlphaFold2 та спадщина HP: AlphaFold2 не використовує ґраткову модель, але фізична інтуїція за HP-моделлю — що захоронення гідрофобних груп є домінантною рушійною силою — неявно закодована в навчальних даних. Модель навчається на мільйонах розв'язаних структур білків, у яких гідрофобні ядра послідовно захоронені. HP-модель робить цей інсайт явним і обчислюваним.

Ключові висновки

Фолдинг білків рухається термодинамічним принципом, за яким нативна структура мінімізує вільну енергію — це догма Анфінсена, підтверджена експериментально й теоретично.
Парадокс Левінталя показує, що фолдинг не може бути випадковим пошуком; енергетична воронка зміщує ланцюг до нативного стану.
HP-модель абстрагує амінокислоти до двох типів (гідрофобні H та полярні P) і визначає енергію виключно через незв'язані контакти H–H на ґратці.
Гідрофобний ефект — ентропійний виграш від вивільнення впорядкованої води навколо неполярних груп — відповідає за 60–70% стабільності фолдингу в реальних білках.
Пошук конформації основного стану HP є NP-складним; для довгих послідовностей потрібні евристичні методи, включно з Монте-Карло, генетичними алгоритмами та навчанням з підкріпленням.
Розширення HP-моделі (HPNX, матриця MJ, 3D-ґратка) поступово скорочують розрив між мінімальною абстракцією та реальною фізикою білків.
HP-модель лишається канонічною відправною точкою для обчислювального розуміння фолдингу білків навіть в епоху AlphaFold2.