ВИРУСНАЯ НАГРУЗКА
ИИ, прогнозирующие структуру белков, только экстраполируют данные, на которых обучались - но не учитывают законы физики и химии. Швейцарские ученые опубликовали в Nature статью о своем эксперименте: когда они незначительно изменяли белок, ИИ предсказывали для него свойства, невозможные в реальном мире. AlphaFold и другие ИИ, определяющие, как цепочка аминокислот сворачивается в трехмерную структуру белка, сейчас находятся на переднем крае науки. Хотя их точность оставляет желать лучшего, это позволяет обойтись без дорогостоящих аналитических методов, таких как рентгеновская кристаллография. Фармпромышленность уже нашла AlphaFold множество применений: зная структуру белков, можно определить их взаимодействие с молекулами препаратов, что ускоряет поиск и разработку лекарств. Вклад ИИ в эту сферу был оценен так высоко, что в 2024 г. создатели AlphaFold получили Нобелевскую премию по химии. Последние версии этих ИИ позволяют сразу рассчитывать, как белок будет взаимодействовать с той или иной малой молекулой (лигандом). Но у ученых возникли сомнения в заявленной точности. Например, DeepMind утверждал, что их AlphaFold 3 на 50% лучше традиционных методов и стал первым ИИ, “превзошедшим физические инструменты в прогнозировании структуры биомолекул”. Группа из Базельского университета решила провести эксперимент: они изменили сайты связывания белков так, чтобы лиганд не мог с ними состыковаться, и предложили AlphaFold и 3 аналогичным моделям. Результаты оказались интригующими. Хотя подходящих сайтов связывания уже не было, все программы продолжали размещать лиганды так, как будто они там были. Затем ученые провели другой эксперимент - изменили лиганд, чтобы он не мог связаться с белком. Итог оказался тем же самым: по мнению ИИ, формированию связи ничего не мешало. Галлюцинаций также было множество. Модели противоречили законам физики, изображая перекрывающие друг друга атомы, или не обращали внимание на группы атомов, которые мешали молекулам взаимодействовать. Иногда ИИ пытались скорректировать связь между белком и молекулой, но удавалось им редко. Даже AlphaFold, который был успешнее других, никак не реагировал на изменения в структуре молекул в более чем половине случаев. Это указывает на то, что даже специализированным ИИ не хватает понимания, как образуются химические связи. Вместо этого они действуют по шаблону: выбирают схожий белок из обучающих данных и ориентируются на связи, которые он образует. Подобные ИИ могут работать в условиях типовых задач, но проблемы начинаются, когда их ставят перед нестандартной. Как заявил один из авторов, “когда они видят что-то совершенно новое, они быстро терпят неудачу, но именно в этом и заключается ключ к созданию новых лекарств”. Хотя создание AlphaFold вызвало воодушевление в научной среде, он по-прежнему остается инструментом для упрощения рутинной работы, а не источником прорывных открытий. Какие выводы можно сделать? *️⃣ ИИ для биотехнологических исследований страдают от тех же проблем, которые мы много раз видели у обычных LLM: точность резко падает при малейшем отклонении от шаблона. *️⃣ Как бы биотех ни стремился сэкономить на исследованиях с помощью AlphaFold, до отказа от лабораторного анализа все еще далеко. Обучение этих ИИ производится на базе около 100 тыс. известных структур белков, но это капля в море на фоне массивов данных ChatGPT или DeepSeek. Предел точности, которого можно достичь на малой обучающей выборке, ограничен. Обучение на синтетических данных, сгенерированных самим же ИИ, не выход - это снизит качество еще больше. *️⃣ Будущее за гибридными подходами: развитие ИИ будет идти параллельно с появлением новых методов анализа и удешевлением старых. Науке требуется больше точных данных по белкам, получаемых с помощью кристаллографии и ЯМР-спектроскопии: как для обучения ИИ, так и для создания лекарств. *️⃣ Одновременно ИИ необходимо обучать на общих принципах физики, химии и биологии, которые должны учитываться при расчетах. Работы в этом направлении уже ведутся, хотя до значимых результатов пока далеко.