Искусственный интеллект помогает понять язык ДНК

Исследователи создали GROVER — большую языковую модель искусственного интеллекта, которая была обучена на человеческой ДНК. Её задача — декодировать сложную информацию, скрытую в нашем геноме.

GROVER рассматривает ДНК как язык, где последовательности нуклеотидов — это слова и предложения. Изучая правила и контекст этого «языка», модель может извлекать биологические значения, такие как промоторы генов и сайты связывания белков.

Этот инновационный подход может помочь нам лучше понять нашу генетическую информацию и её влияние на здоровье. Результаты исследований показывают, что функции ДНК закодированы в последовательностях, и это даёт новое представление о предрасположенности к заболеваниям и методах лечения.

С помощью GROVER исследователи теперь могут попытаться расшифровать сложную информацию, скрытую в нашем геноме. Этот инструмент может произвести революцию в области геномики и персонализированной медицины, открыв скрытые слои генетической информации.

С момента открытия двойной спирали учёные стремились понять информацию, скрытую в ДНК. 70 лет спустя стало ясно, что информация в ДНК многослойная. Только 1-2% генома составляют гены — последовательности, которые кодируют белки.

Однако ДНК выполняет множество функций, помимо кодирования белков. Некоторые последовательности регулируют гены, другие служат структурным целям, а большинство последовательностей выполняют сразу несколько функций. В настоящее время мы не понимаем значение большей части ДНК.

Когда дело доходит до понимания некодирующих областей ДНК, кажется, что мы только начали исследовать эту тему. Именно здесь могут помочь искусственный интеллект и большие языковые модели, говорит доктор Анна Поетч, руководитель исследовательской группы BIOTEC.

Большие языковые модели, такие как GPT, изменили наше понимание языка. Обученные исключительно на тексте, они развили способность использовать язык во многих контекстах.

Доктор Анна Поэч (Anna Poetsch) говорит: «ДНК — это код жизни. Почему бы не относиться к нему как к языку?»

Команда доктора Поетч обучила большую языковую модель на эталонном геноме человека. Получившийся инструмент под названием GROVER (Правила генома, полученные с помощью извлеченных представлений) можно использовать для извлечения биологического смысла из ДНК.

GROVER изучил правила ДНК. С точки зрения языка, мы говорим о грамматике, синтаксисе и семантике. Для ДНК это означает изучение правил, управляющих последовательностями нуклеотидов, порядка нуклеотидов, последовательностей и значения последовательностей. Подобно моделям GPT, изучающим человеческие языки, GROVER научился «говорить» на ДНК.

Команда показала, что GROVER может не только точно предсказывать следующие последовательности ДНК, но также может использоваться для извлечения контекстной информации, имеющей биологическое значение. Например, GROVER может идентифицировать промоторы генов или сайты связывания белков на ДНК. Он также изучает процессы, которые обычно считаются «эпигенетическими», то есть регуляторные процессы, которые происходят поверх ДНК.

Доктор Мелисса Санабриа (Melissa Sanabria), исследователь проекта, говорит: «Удивительно, что, обучая GROVER только с помощью последовательности ДНК, без каких-либо аннотаций функций, мы действительно можем извлекать информацию о биологических функциях. Для нас это показывает, что функция, включая некоторую эпигенетическую информацию, также закодирована в последовательности».

ДНК напоминает язык. В нём четыре буквы, которые образуют последовательности, и эти последовательности несут смысл. Однако, в отличие от языка, в ДНК нет определённых слов. ДНК состоит из четырёх букв (A, T, G и C), но не существует заранее определённых последовательностей разной длины, которые объединяются для создания генов или других значимых последовательностей.

Чтобы обучить GROVER, команде пришлось создать словарь ДНК. Они использовали трюк из алгоритмов сжатия. Этот шаг имеет решающее значение и отличает нашу языковую модель ДНК от предыдущих попыток.

Мы проанализировали весь геном и искали комбинации букв, которые встречаются чаще всего. Мы начали с двух букв и снова и снова анализировали ДНК, чтобы дойти до наиболее распространённых многобуквенных комбинаций. Таким образом, примерно за 600 циклов мы смогли разделить ДНК на «слова», которые позволяют GROVER работать лучше всего, когда дело доходит до предсказания следующей последовательности.

GROVER обещает раскрыть различные уровни генетического кода. ДНК содержит ключевую информацию о том, что делает нас людьми, о нашей предрасположенности к болезням и нашей реакции на лечение.

Доктор Поетч заключает: «Мы считаем, что понимание правил ДНК с помощью языковой модели поможет нам раскрыть глубины биологического значения, скрытого в ДНК, продвигая как геномику, так и персонализированную медицину».

Литература

“DNA language model GROVER learns sequence context in the human genome” by Anna Poetsch et al. Nature Machine Intelligence