Учёные выяснили: большие языковые модели используют «мини-мозг» для понимания чужих мыслей

Исследователи из Института Стивенса по технологиям (Stevens Institute of Technology) обнаружили, что большие языковые модели (LLM) используют лишь небольшую часть своих параметров для выполнения задач, связанных с социальным мышлением — так называемой теорией разума (Theory of Mind, ToM).

Иными словами, когда модель пытается понять, что другой человек «знает» или «думает», она не задействует весь свой вычислительный потенциал, а опирается на крошечную, специализированную цепочку внутренних связей.

Эта находка может изменить представления о том, как проектировать искусственный интеллект будущего — более избирательный, энергоэффективный и “человечный”.

Как работает «ум» языковых моделей

Чтобы понять открытие, представьте классический психологический эксперимент: ребёнку показывают, как человек кладёт шоколадку в коробку, а затем кто-то другой перекладывает её в ящик. Когда первый человек возвращается, он будет искать сладость в коробке, ведь он не видел, что её переместили.

Это — базовая проверка теории разума: способность осознавать, что другие люди могут иметь убеждения, отличающиеся от наших.

«Для человеческого мозга это секундное дело — и при этом активируется лишь небольшая часть нейронов», — объясняет Дэнхуй Чжан (Denghui Zhang), научный сотрудник школы бизнеса Института Стивенса.

«Но большие языковые модели, чтобы выполнить аналогичное рассуждение, активируют практически всю свою сеть — и это колоссально неэффективно».

Нейронная избыточность ИИ

Современные языковые модели, такие как ChatGPT, состоят из миллиардов параметров — искусственных «нейронов», соединённых сложными математическими зависимостями.
Они прекрасно справляются с обработкой огромных объёмов текста, но платят за это высокую энергетическую цену: независимо от сложности задачи, активируется почти вся сеть.

«Когда человек решает новую задачу, его мозг задействует лишь небольшой участок коры. Модель же включает всё, будто бомбу по воробьям», — поясняет Чжан.

Совместно с Чжаочжо Сюй (Zhaozhuo Xu), профессором Школы инженерии Института Стивенса, учёные решили разобраться, почему так происходит и можно ли сделать модели более избирательными.

Мини-кластеры рассуждений и “роторная память”

Исследователи проанализировали внутренние параметры LLM и обнаружили, что при рассуждениях о мыслях и убеждениях других людей модель активирует узкий поднабор параметров — своего рода “социальный мини-мозг”.

Ключевую роль играет метод позиционного кодирования, особенно роторное позиционное кодирование (Rotary Positional Encoding, RoPE), определяющее, как модель отслеживает позиции слов и их взаимосвязи.

«Наши результаты показывают, что LLM использует встроенные паттерны для отслеживания отношений между словами, чтобы формировать внутренние “убеждения” и делать выводы о мыслях других», — отметил Чжан.

Почему это важно

Понимание того, как искусственный интеллект формирует свои “убеждения”, открывает путь к созданию моделей, которые потребляют меньше энергии, действуют быстрее и учатся эффективнее — ближе к тому, как работает человеческий мозг.

«Если мы хотим, чтобы ИИ был масштабируемым и устойчивым, нужно пересмотреть сам принцип его работы», — говорит Сюй.
«Мозг делает больше, используя меньше. Это направление, в котором должна развиваться архитектура ИИ».

Перекрёстное открытие

Ранее учёные сообщили, что искусственный интеллект научился предсказывать мысли человека по активности мозга. Оба открытия подчёркивают, как быстро ИИ приближается к пониманию человеческого мышления — пусть пока и другими путями.

Литература.
“How large language models encode theory-of-mind: a study on sparse parameter patterns” by Zhaozhuo Xu et al. npj Artificial Intelligence