Фолдинг білків: пояснення ґраткової HP-моделі
Ланцюг амінокислот, що виходить із рибосоми, спонтанно згортається в точну тривимірну форму за лічені мілісекунди — і саме ця форма визначає геть усе у функції білка. Ґраткова HP-модель зводить цей надзвичайно складний процес до однієї рушійної сили: прагнення гідрофобних залишків утекти від води. Попри свою простоту, модель кодує NP-складну комбінаторну задачу й десятиліттями скеровувала дослідження алгоритмів фолдингу та розробку ліків.
1. Задача фолдингу білків
Білки — це молекулярні машини життя. Кожен фермент, що каталізує хімічну реакцію, кожен рецептор, що приймає гормональний сигнал, кожне структурне волокно, що тримає клітину вкупі, — це білок. Усі білки побудовані з однакових базових складників — лінійних ланцюгів амінокислот, закодованих у ДНК, — проте кожен згортається в унікальну, відтворювану тривимірну архітектуру.
Центральна загадка така: чи можемо ми, маючи лише послідовність амінокислот (первинну структуру), передбачити кінцеву згорнуту форму (третинну структуру)? Це і є задача фолдингу білків, яка займала біохіміків та обчислювальних біологів понад півстоліття, аж поки AlphaFold2 не досяг точності, близької до експериментальної, у 2021 році.
Щоб зрозуміти, чому передбачення таке складне — і чому спрощені моделі лишаються незамінними навчальними та дослідницькими інструментами, — спершу слід зрозуміти, що рухає фолдингом.
Чому фолдинг важливий для медицини
Неправильно згорнуті білки не просто нефункціональні — вони часто активно токсичні. Хвороба Альцгеймера пов'язана з неправильним згортанням та агрегацією пептидів бета-амілоїду в бляшки. Хвороба Паркінсона асоціюється з агрегатами альфа-синуклеїну. Пріонні захворювання (хвороба Крейтцфельдта — Якоба, коров'ячий сказ) поширюються, спонукаючи нормальні білки PrP набувати неправильної пріонної конформації. Тож розуміння правил фолдингу не є суто академічним — воно центральне для розробки ліків та лікування нейродегенеративних захворювань.
2. Догма Анфінсена
На початку 1960-х Крістіан Анфінсен у NIH провів знакову серію експериментів із рибонуклеазою A (РНКаза A) — невеликим ферментом зі 124 амінокислот. Він повністю денатурував білок за допомогою сечовини (яка руйнує нековалентні взаємодії) і розірвав чотири дисульфідні зв'язки відновником. Розгорнутому, неактивному білку потім дали реокислитися в буфері без сечовини — і він спонтанно згорнувся назад у свою нативну, повністю активну конформацію.
Цей експеримент заклав основу того, що стало відомим як догма Анфінсена (або термодинамічна гіпотеза): нативна структура білка — це термодинамічно стабільний стан, визначений виключно його послідовністю амінокислот за фізіологічних умов. Жодного додаткового шаблона чи інструкції не потрібно. Уся інформація міститься в самій послідовності.
3. HP-модель: гідрофобно-полярна абстракція
Запропонована Кеном Діллом у 1985 році, HP-модель — це найпростіша ґраткова модель фолдингу білків, яка відображає домінантну фізичну силу: гідрофобний ефект. Замість того щоб представляти всі 20 амінокислот, модель зводить кожен залишок до одного з двох типів:
- H (гідрофобні): неполярні залишки, що відштовхуються водою — лейцин, валін, ізолейцин, фенілаланін, метіонін та інші.
- P (полярні): залишки, яким комфортно у водному середовищі — серин, треонін, лізин, аргінін, аспарагін та заряджені залишки.
Білковий ланцюг розміщується на двовимірній (або тривимірній) квадратній ґратці. Кожна амінокислота займає один вузол ґратки. Ланцюг має бути самоуникним — жодні два залишки не можуть займати один вузол — і має утворювати зв'язний шлях із сусідніх ґраткових кроків.
Енергетична функція
Енергія конформації визначається єдиним правилом: два залишки H, що є сусідніми на ґратці, але не сусідніми в послідовності (так званий топологічний контакт), дають внесок енергії −1. Усі інші контакти (H–P, P–P або P–H) дають нуль. Мета — знайти конформацію з мінімальною загальною енергією, тобто з максимальною кількістю контактів H–H.
Попри свою простоту, ця енергетична функція породжує багату поведінку. Послідовності з багатьма залишками H, згрупованими разом у послідовності, схильні згортатися в компактні глобулярні структури — повторюючи поведінку реальних білків із гідрофобним ядром. Послідовності з чергуванням залишків H і P схильні лишатися більш розгорнутими.
Чому гідрофобний ефект домінує
Молекули води утворюють водневі зв'язки одна з одною. Коли неполярну групу вставляють у воду, вона не може брати участь у водневому зв'язуванні, змушуючи навколишні молекули води перевпорядкуватися в жорсткішу клітку з нижчою ентропією. Видалення неполярних груп із контакту з водою — шляхом захоронення їх у гідрофобному ядрі — вивільняє ці молекули води та збільшує ентропію розчинника. Цей ентропійний виграш і є термодинамічною рушійною силою гідрофобного ефекту. Дослідження свідчать, що 60–70% стабілізаційної енергії в типових глобулярних білках походить від пакування гідрофобного ядра, що робить його домінантним членом як у реальній енергетичній функції, так і в HP-моделі.
4. Енергетичні ландшафти та воронки
Сучасна теорія фолдингу білків, розроблена переважно Волайнсом, Брінґельсоном, Онучичем та колегами у 1990-х, описує фолдинг за допомогою концепції енергетичного ландшафту — багатовимірної поверхні, де кожна вісь відповідає певному ступеню конформаційної свободи, а вертикальна вісь представляє вільну енергію.
Для випадкового гетерополімеру енергетичний ландшафт пересічений: багато глибоких локальних мінімумів (кінетичних пасток), розділених високими бар'єрами. Білок проводив би більшість часу застряглим у цих пастках і ніколи не досягав би нативного стану в межах біологічних часових масштабів.
Реальні білки, сформовані мільярдами років еволюції, мають лійкоподібний енергетичний ландшафт. Воронка зміщена: у міру того, як ланцюг стає компактнішим і ближчим до нативного, вільна енергія загалом зменшується. Локальні мінімуми все ще можуть існувати — частково згорнуті проміжні стани, — але є загальний термодинамічний градієнт у бік нативної структури. Цей принцип воронки розв'язує парадокс Левінталя: фолдинг — це не випадковий пошук, а скерований спуск по воронці.
У HP-моделі енергетичний ландшафт можна візуалізувати безпосередньо. Для коротких послідовностей (довжина 10–20) усі самоуникні шляхи можна перелічити. Для довших послідовностей ландшафт досліджують симуляцією. Послідовності з багатьма контактами HP-моделі в глобальному мінімумі та небагатьма структурами при цій самій енергії мають хорошу здатність до згортання — концепцію, що відображається на реальні принципи дизайну білків.
5. Обчислювальна складність
Один із найважливіших теоретичних результатів обчислювальної біології полягає в тому, що пошук конформації основного стану (мінімальної енергії) HP-послідовності на 2D- чи 3D-ґратці є NP-складним. Це було строго доведено Крешенці, Ґолдманом, Пападимітріу, Пікколбоні та Яннакакісом у 1998 році для 3D-моделі, а також Хартом та Істраїлом для варіантів 2D-моделі.
NP-складність означає, що жодного алгоритму поліноміального часу не відомо (і не очікується), який розв'язував би всі екземпляри задачі HP-фолдингу. Зі зростанням довжини послідовності кількість самоуникних шляхів зростає експоненційно. Для 2D квадратної ґратки кількість самоуникних шляхів довжини n зростає приблизно як 2.638n. Для довжини 50 це приблизно 1019 — далеко за межами вичерпного перебору.
Цей результат щодо складності важливий не лише для самої HP-моделі: він дає формальну нижню межу складності реального передбачення фолдингу білків. Навіть радикально спрощена модель — два типи залишків, квадратна ґратка, єдиний енергетичний член — є обчислювально нерозв'язною в найгіршому випадку. Успіх AlphaFold2 цьому не суперечить: він використовує еволюційну інформацію та коеволюційні сигнали, щоб повністю обійти вичерпний пошук.
6. Алгоритми пошуку для HP-фолдингу
Оскільки точна оптимізація нерозв'язна, до HP-моделі застосовано багату екосистему евристичних алгоритмів. Ці алгоритми також слугують випробувальними майданчиками для методів, що використовуються в реальному передбаченні структури білків.
Методи Монте-Карло
Найпоширеніший підхід до дослідження HP-моделі. Випадкова конформація ітеративно модифікується малими ходами: повороти (обертання сегмента ланцюга навколо точки ґратки), ходи кінцевих точок або ходи коленвала (локальні перевпорядкування, що зберігають зв'язність ланцюга). Кожна нова конформація приймається або відхиляється за критерієм Метрополіса: завжди приймати, якщо енергія зменшується; приймати з імовірністю exp(−ΔE / kBT), якщо енергія зростає. Це дозволяє вибиратися з локальних мінімумів. Імітаційний відпал — поступове зниження ефективної температури — зазвичай застосовують, щоб привести систему до основного стану.
Генетичні алгоритми
Популяція конформацій-кандидатів еволюціонує впродовж поколінь. Конформації представляються як послідовності ходів (U/D/L/R на ґратці). Відбір сприяє конформаціям із нижчою енергією (компактнішим, багатим на H–H). Оператори схрещування та мутації породжують нових кандидатів. Генетичні алгоритми ефективно досліджують різноманітні ділянки конформаційного простору одночасно, зменшуючи ризик збігання до єдиного локального мінімуму.
Динамічне програмування та точні методи
Для коротких послідовностей (довжиною до ~25 у 2D) динамічне програмування в поєднанні з відсіканням за методом гілок і меж може знаходити доведено оптимальні конформації. Оцінювачі верхньої межі для максимально можливої кількості контактів H–H відсікають гілки, які не можуть перевершити поточний найкращий розв'язок. Для 3D-моделей практична межа дещо коротша. Ці точні методи неоціненні для генерування еталонних наборів даних, на яких тестують евристики.
Навчання з підкріпленням
Останнім часом агентів навчання з підкріпленням (RL) тренують згортати HP-послідовності, навчаючись політиці, що розміщує залишки на ґратці по одному. Агент отримує сигнал винагороди на основі енергії завершеної конформації. Підходи на основі RL досягають конкурентоспроможних результатів на еталонних послідовностях і мають перевагу узагальнення на різні довжини послідовностей та топології без повторного запуску оптимізації з нуля для кожної нової послідовності.
7. За межами HP-моделі
Сила HP-моделі полягає в її придатності до аналізу та симуляції. Її обмеження криються в тому самому джерелі простоти: реальні білки складаються не лише з двох типів залишків, а реальні взаємодії сягають далеко за парні гідрофобні контакти.
Розширення HP-моделі
- HP+ (модель заряду): Додає тип зарядженого залишку (позитивний або негативний). Дозволяє моделювати електростатичні взаємодії та сольові містки, що стабілізують третинну структуру білка.
- Модель HPNX: Чотири типи залишків (H, P, N, X), що кодують гідрофобні, полярні, негативні та позитивні заряди. Багатша матриця контактної енергії. Краще відображає різноманіття реальних взаємодій амінокислот.
- Матриця Міязави — Джернігана (MJ): Емпірична матриця контактної енергії 20x20, виведена зі статистичного аналізу відомих структур білків. Замінює бінарну класифікацію HP на залишок-специфічні парні енергії, оцінені за частотами в базах даних. Використовується в реалістичніших ґраткових симуляціях.
- 3D-ґраткові моделі: Розміщення HP-ланцюга на 3D кубічній чи гранецентрованій кубічній (ГЦК) ґратці різко збільшує конформаційну гнучкість і краще наближає реальне пакування білків. ГЦК-ґратка особливо корисна, бо кожен залишок має 12 сусідів, що ближче до координаційного числа, спостережуваного в реальних ядрах білків.
Від ґраткових моделей до AlphaFold
Траєкторія від HP-моделі до найсучаснішого передбачення структури ілюструє пошаровий поступ обчислювальної біології. Ґраткові моделі дали математичні інсайти та алгоритмічні еталони. Грубозернисті позаґраткові моделі (фрагментне складання епохи CASP: Rosetta, I-TASSER) додали реалістичну геометрію. Підходи глибокого навчання — кульмінацією яких стала еквіваріантна трансформерна архітектура AlphaFold2 та коеволюційні ознаки на основі множинного вирівнювання послідовностей — досягли точності, близької до експериментальної, для більшості родин білків. Проте HP-модель лишається в кожній навчальній програмі зі структурної біоінформатики, бо робить базову фізику доступною без обчислювальних накладних витрат, і бо алгоритми, розроблені для неї — Монте-Карло, генетичний пошук, RL, — лишаються фундаментальними в усій обчислювальній науці.
Ключові висновки
- Фолдинг білків рухається термодинамічним принципом, за яким нативна структура мінімізує вільну енергію — це догма Анфінсена, підтверджена експериментально й теоретично.
- Парадокс Левінталя показує, що фолдинг не може бути випадковим пошуком; енергетична воронка зміщує ланцюг до нативного стану.
- HP-модель абстрагує амінокислоти до двох типів (гідрофобні H та полярні P) і визначає енергію виключно через незв'язані контакти H–H на ґратці.
- Гідрофобний ефект — ентропійний виграш від вивільнення впорядкованої води навколо неполярних груп — відповідає за 60–70% стабільності фолдингу в реальних білках.
- Пошук конформації основного стану HP є NP-складним; для довгих послідовностей потрібні евристичні методи, включно з Монте-Карло, генетичними алгоритмами та навчанням з підкріпленням.
- Розширення HP-моделі (HPNX, матриця MJ, 3D-ґратка) поступово скорочують розрив між мінімальною абстракцією та реальною фізикою білків.
- HP-модель лишається канонічною відправною точкою для обчислювального розуміння фолдингу білків навіть в епоху AlphaFold2.