📖
RU | EN
Выпуск #10 · 9 июня 2026
RUENТекст18 минВидео29 мин

Модели за решёткой

Переход на главу выполнен. Запустите видео вручную, чтобы начать просмотр главы.
Содержание видео
Содержание текста
Источники

Источники

Сама работа

  • Cristiano De Nobili, «Collective Alignment in LLM Multi-Agent Systems: Disentangling Bias from Cooperation via Statistical Physics» (arXiv, май 2026). Тот самый препринт, о котором весь выпуск: решётка из LLM-агентов, разделение собственного байаса («упрямства») и конформности методами статфизики, критические показатели и фазовый переход. arxiv.org/abs/2605.10528

Про подхалимство моделей

  • Anthropic (Sharma и др.), «Towards Understanding Sycophancy in Language Models» (arXiv, 2023). Работа, на которую я ссылаюсь в критике: модели систематически склонны соглашаться с пользователем, и корни этого — в данных о человеческих предпочтениях. Это и есть тот сдвиг к «да», что ломает Z₂-симметрию. arxiv.org/abs/2310.13548

Физика, на которой всё держится

  • Модель Изинга — базовая «игрушка» статфизики: решётка спинов вверх/вниз и фазовый переход между порядком и хаосом. Именно с её показателями сравнивают результат Де Нобили. en.wikipedia.org/wiki/Ising_model
  • Точное решение 2D-модели Изинга, Lars Onsager, Phys. Rev. 65, 117 (1944) — историческая работа, где двумерный Изинг решён аналитически. doi.org/10.1103/PhysRev.65.117
  • Критические явления и классы универсальности — почему железный магнит и вода у своих критических точек ведут себя одинаково; что такое класс универсальности и критические показатели. en.wikipedia.org/wiki/Critical_phenomena
  • Критическая опалесценция — то самое «мутное переливающееся» состояние вещества в критической точке. en.wikipedia.org/wiki/Critical_opalescence
  • Точка Кюри — температура, выше которой магнит перестаёт быть магнитом. en.wikipedia.org/wiki/Curie_temperature
  • Гипотеза математической вселенной, Max Tegmark — источник мысли «всё, что существует математически, существует физически» (подробно — в книге «Our Mathematical Universe»). en.wikipedia.org/wiki/Mathematical_universe_hypothesis

Инженерные инструменты (мультиагентные системы)

Фреймворки, на которых сегодня собирают коллективы агентов, — именно к ним применима идея заранее мерить «упрямство» и «конформность» модели.

Историческая аналогия

  • Оле Рёмер — астроном, впервые измеривший скорость света в 1676 году по затмениям спутников Юпитера; ошибся примерно на четверть, но был первопроходцем. en.wikipedia.org/wiki/Ole_Rømer

Где это всё

  • Полная текстовая версия выпуска со всеми терминами и ссылками — oleg.guru

AI SLOPCAST #10: Модели за решёткой

Все что существует математически — существует физически. Это моя любимая мысль, подчерпнутая изначально из чтения Макса Тегмарка. К сожалению, в обычной жизни ее довольно сложно доказать. Тем интереснее эпизоды, когда чисто математические сущности — типа нейросетей — начинают быть как-то связаны с обычным, бытовым физческим миром. С тем, что можно увидеть глазами.

Всем нравятся истории о неизвестных гениях. Типа как Тонки Старк, сидя у террористов в тюрьме, из мусора собирает движок для костюма Железного Человека. Тут что-то похожее.

Одиннадцатого мая на arXiv появилась незаметная с виду работа, в категории статистическая физика конденсированного состояния. Та самая категория, где обычно обсуждают магнетики и фазовые переходы в жидкостях. Магнетики — это магниты и всё, что магнитится. У работы всего один автор, Кристиано Де Нобили, и за ним нет ни университета, ни лаборатории, ни большого институтского коллектива. Есть только маленькая контора, которую он сам же и придумал, она называется Critiqality (Критикволити), и кажется, расположена в Милане. Точно так же как у меня Anarchic AI, у него Critiquality. То есть это, по сути, один человек, который однажды решил, что у него хватит времени и квалификации заняться такой темой, и занялся. Я сейчас попытаюсь прочитать название работы. Работа называется так: «Коллективное выравнивание в мультиагентных LLM-системах: разделяем интринсивный байас и кооперацию методами статфизики».

Важно. Дальше будет много терминов, и наверное, не все они доступны на слух. Профессиональному физику они наверное доступны на слух. А обычному человеку — нет. Поэтому, копию этого ролика вы можете прочитать у меня на сайте в виде текста. Там будут все термины, и все ссылки, чтобы вы смогли сами прочитать всё и проверить. Проверить, что я вам не наврал. Удивительно, сколько вранья говорят псевдонаучные инфлюенсеры на Ютубе. Значительная часть УДИВИТЕЛЬНЫХ вещей из мира физики, о которых вам рассказывают — это просто погенеренный нейрослоп. Всякая ерунда о черных дырах и квантовой физике. Это просто неправда. Я стараюсь врать поменьше. Иногда я вру, но не очень много. И все ФАКТЫ, о которых я говорю, четко зафиксированы в виде ссылок. Адрес сайта вы видите сейчас на экране. Ну и на слух его очень легко запомнить: oleg-точка-guru. Это не то что себя считаю guru, guru — это такой индийский домен сайта. oleg.guru.

Теперь, о чем нам пишет Де Нобили.

Представьте квадратную решётку, скажем, шестнадцать на шестнадцать. В каждой клетке сидит экземпляр одной и той же языковой модели. Все клетки одинаковые, у всех одни и те же веса. Каждая клетка держит у себя одно из двух состояний: плюс один или минус один. То есть «да» или «нет» — это ответ по какому-то вопросу. На каждом шаге каждая клетка обращается к своей модели с примерно таким запросом: «вот, посмотри, четверо моих ближайших соседей ответили так-то, что отвечу я?». И всё это крутится в цикле. Единственный параметр, который меняется во всей системе, это температура сэмплера. Та самая температура между нулём и двойкой, которую вы крутите, когда обращаетесь к OpenAI или к локальной модели через Ollama. Знакомый параметр.

Дальше Де Нобили берёт инструменты, которыми статфизики обычно изучают магнетики. Намагниченность, то есть насколько в среднем все клетки согласны между собой. Восприимчивость, то есть насколько коллектив реагирует на возмущения. Считает это на решётках разных размеров и смотрит, как величины масштабируются с размером. Эта процедура называется finite-size scaling, и из неё извлекаются критические показатели — числа, которые описывают поведение системы около фазового перехода. И вот тут начинается странное.

Что он обнаружил

Он проверял модели llama 3.1 на восемь миллиардов параметров, phi-4 mini и mistral на семь. Человек явно не богатый, исследования поверх действительно больших моделей ему по карману, но и этих нищемоделей, в принципе, достаточно.

Все три проверенные модели показывают температурный фазовый переход. При низкой температуре коллектив сходится к консенсусу: все клетки кричат «да» или все кричат «нет». При высокой температуре получается шум. Где-то посередине проходит критическая точка.

Тут стоит остановиться и объяснить, что это такое — критическая точка, потому что слово важное.

Критическая точка в физике — это такое значение какого-нибудь параметра (часто температуры), в окрестности которого система ведёт себя удивительно. С одной стороны от этой точки система упорядочена: все молекулы воды держатся вместе в жидкости, все спины магнита смотрят в одну сторону. С другой стороны — беспорядок: вода превратилась в пар, магнит размагнитился. А ровно в критической точке происходит самое интересное: система балансирует между порядком и беспорядком, и любые, даже мельчайшие, возмущения отзываются эхом по всему её размеру. Если посмотреть на воду в её критической точке (а это можно сделать в лаборатории), она выглядит мутной и переливающейся, потому что пузырьки пара и капли жидкости перемешаны на всех масштабах вещества одновременно, от молекулярного до видимого глазом. Это явление называется критической опалесценцией, и именно на нём построена половина физики двадцатого века.

Критические показатели — это числа, которые описывают, как именно система ведёт себя в этой особой точке. Например, насколько резко падает намагниченность по мере приближения к ней, или насколько сильно реакция системы на возмущение зависит от размера системы. Эти числа можно измерять в эксперименте, можно считать в теории, и их можно сравнивать между разными системами.

Критические показатели у Де Нобили получились близкими к двумерной модели Изинга, но не совпадающими с ней. И, что самое интересное, эти показатели разные у разных моделей.

Что такое модель Изинга. Это самая знаменитая игрушка в статистической физике, придуманная немецким физиком Эрнстом Изингом в 1925 году в качестве упрощённой картины магнетика. Берётся решётка (можно одномерную, двумерную, любую), в каждом узле сидит так называемый спин, который может смотреть либо вверх, либо вниз. Соседние спины «договариваются» друг с другом, предпочитая смотреть в одну сторону, но тепловое движение периодически их сбивает с пути. При низкой температуре всё стройно (магнит намагничен), при высокой — хаос (магнит размагничен), а посередине — критическая точка. Двумерную модель Изинга в 1944 году точно решил норвежец Ларс Онсагер, и это решение до сих пор считается одной из главных интеллектуальных побед физики двадцатого века. Чем хороша эта модель: она простая, и при этом она схватывает поведение огромного количества реальных систем.

Чтобы стало понятно, в чём сила результатов Де Нобили, придётся рассказать про класс универсальности — идею, которая многих в физике в своё время потрясла.

Эмпирически обнаружилось вот что. Возьмём железный магнит и нагреем его до точки Кюри, той самой критической точки, выше которой он перестаёт быть магнитом. Замерим, как ведут себя его магнитные характеристики около этой точки. Получим набор чисел — это некие критические показатели. Теперь возьмём воду, нагреем её под давлением до её критической точки, и замерим, как ведут себя её характеристики плотности около этой точки. Получим другой набор чисел. И обнаружим — к огромному удивлению всех — что эти числа совпадают. Не похожи, а совпадают с точностью до нескольких знаков после запятой.

Это означает, что железный магнит и вода в окрестности своих критических точек ведут себя структурно одинаково — несмотря на то, что один состоит из атомов железа с магнитными моментами, а второе состоит из молекул воды, которые между собой связаны водородными связями. Микроскопические детали стираются. Остаются только два свойства: симметрия задачи (есть ли у системы выбор между двумя равноправными состояниями, как «вверх или вниз» у магнита и «жидкость или пар» у воды) и размерность пространства, в котором система живёт.

Этот феномен называется универсальностью. Системы группируются в классы, и внутри каждого класса критические показатели одинаковы. Принадлежность к классу определяется только симметрией и размерностью, а не тем, из чего система сделана.

Известных классов универсальности на удивление мало, и стоит коротко их перечислить, потому что они будут постоянно фигурировать дальше.

Двумерный Изинг — это всё, что выбирает между двумя равноправными состояниями на плоскости. Магнит на двумерной решётке. Жидкость-пар. Мнения «за» или «против» на форуме, если эту аналогию аккуратно строить.

Трёхмерный Изинг — то же самое, но в трёхмерном пространстве. Уже другой набор показателей, потому что размерность изменилась. Реальные магниты и реальная вода относятся именно к этому классу.

XY-модель — система, у которой выбор не бинарный, а круговой. Представьте стрелку компаса, которая может показывать в любом направлении в плоскости. Сюда попадают тонкие плёнки сверхтекучего гелия и некоторые жидкие кристаллы.

Хайзенберг — то же, что XY, но стрелка крутится в трёхмерном пространстве, как настоящий магнитный момент электрона. Сюда попадают трёхмерные ферромагнетики типа железа.

Поттс — обобщение Изинга, где у каждого узла не два варианта, а несколько. Возникает при описании систем со множественным выбором.

Перколяция — про то, как связность распространяется через случайную среду. Когда вы льёте воду на кучу песка и пытаетесь понять, на какой плотности песка вода всегда найдёт сквозной путь насквозь — это про перколяцию.

И вот ключевой пункт: практически любая система с групповым поведением элементов, которую современная физика умеет описывать, помещается в один из этих классов. Магнетики, жидкости, эпидемии, нейронные сети, толпы людей, мнения в социальных группах, лесные пожары, рост раковых опухолей — всё попадает в Изинг, Поттса, перколяцию или ещё какой-нибудь известный класс.

Коллектив языковых моделей, по результатам Де Нобили, не помещается ни в один из них. Показатели близки к двумерному Изингу, но систематически от него отличаются, и отличаются по-разному в зависимости от того, какая модель сидит в узлах решётки.

Если результат подтвердится, это значит, что один человек сам по себе обнаружил, что языковые модели в коллективе ведут себя качественно иначе, чем все известные физикам системы коллективного поведения. Это открытие нового класса универсальности, а такие открытия в физике случаются раз в несколько десятилетий. Я говорю «если», и про это «если» дальше будет отдельный разговор.

А зачем это инженеру

Если вы строите систему из нескольких агентов на AutoGen, LangGraph или CrewAI, у вас в какой-то момент возникает довольно неприятный вопрос. Ваши агенты сошлись к общему ответу. Это потому, что они правы? Или потому, что они все ошибаются одинаково? Может это потому что они на самом деле один и тот же LLM, повторённый несколько раз, и у этого LLM есть единое смещение, которое тиражируется через весь ваш «коллектив»? Внятного ответа на этот вопрос инженерия пока не даёт. Лечат симптомы: подсовывают агентам разные промпты, берут модели от разных вендоров, заставляют их играть противоречащие роли.

Де Нобили говорит, что эту проблему можно перевести в инструмент измерения. Двумя числами.

Первое называется h с тильдой. Это собственный байас модели — то, к какому ответу она склонна сама по себе, безотносительно того, что говорят соседи. Назовем ее «упрямством», чтобы дальше не путаться.

Второе называется J с тильдой. Это сила, с которой модель подстраивается под соседей. Назовем ее «конформностью».

Согласно работе, эти две величины удаётся разделить экспериментально. Они оказываются свойствами самой модели, а не задачи, и измерить их можно заранее, ещё до того, как вы из этой модели собрали какую-то многоагентную конструкцию.

Если эта методология приживётся, при выборе модели для коллектива агентов появится новый критерий. Сейчас модель выбирают по бенчмаркам, цене и скорости. Эти параметры понятные. А коллективное поведение модели сегодня никто не измеряет, его узнают постфактум, когда уже всё собрано и что-то пошло не так. Допустим, у вас система модерации контента из двадцати агентов. Если у вашей модели конформность высокая, стоит одному агенту крикнуть «спам», и всё пойдёт лавиной по коллективу. Никаким промптингом эту лавину уже не остановишь, потому что это особенность того, как модель реагирует на чужие ответы, особенность фундаментальная, идущая откуда-то из её обучения. Зато её можно увидеть заранее, в простом эксперименте на решётке, и принять решение до того, как вы это всё развернули в продакшн.

Немного критики

Теперь самое время поговорить про возражения. Это лично мои возражения, как не специалиста, поэтому если я скажу какую-то ересь — то вы можете всегда в комментариях меня поправить. Это не самая известная в мире работа. Поэтому, посмотреть как ее обсуждают, и скопипастить в этот выпуск уже готовые идеи я не мог.

У всей математики Де Нобили есть одно скрытое допущение: что «да» и «нет» для языковой модели симметричны. На физическом языке это называется Z₂-симметрия («зед-два» симметрия), и если её нет, то двумерная модель Изинга к системе не применима вообще.

И тут у нас есть серьёзный повод подозревать, что симметрии нет. У языковых моделей есть систематический сдвиг в сторону ответа «да». Этот феномен называется acquiescence bias, аквейсенс байас, уступчивость. Или, в более бытовой формулировке, sycophancy, сайкофэнси, подхалимство. Модель скорее с вами согласится, чем возразит. Антропик в 2023 году выпустил по этому поводу подробную работу. Корни лежат в обучающих данных, где «да» статистически говорят чаще. Потому что люди в интернете довольно вежливые. И форма постановки вопросов в человеческих текстах обычно смещены к согласию. Если вы всю жизнь провели на Двачах, это может быть не вижно, но люди обычно довольно позитивно друг к другу настроены, довольно вежливы и часто соглашаются.

Из этого следует довольно неприятная мысль. Когда вы запускаете коллектив агентов на реальной задаче — модерация, code review, поиск медицинских проблем, юридический анализ, — «да» и «нет» там никогда не симметричны. Z₂-симметрия в реальной работе сломана с самого начала, потому что её ломает сама модель своим встроенным байасом. Склонносью говорить «да». Получается, что красивая физика Де Нобили работает в каком-то чистом теоретическом режиме, который в живой эксплуатации никогда не достигается.

Если в реальной работе упрямство модели всегда побеждает её конформность — а это, по-моему, очень правдоподобно — то правильная стратегия для коллектива агентов другая, чем подсказывает Де Нобили. Стратегия Де Нобили должна быть типа: «изменяйте промпты, чтобы понизить конформность». А в реальности должно быть «берите модели от разных вендоров, потому что у разных моделей разные уровни упрямства». Инженеры так и поступают, но из чуйки, из собственной инженерной интуиции, а не из какой-то физически или математически доказанной идеи.

Второе возражение мне кажется ещё неуютнее. Откуда мы знаем, что языковая модель в своих обучающих данных не читала про модель Изинга? Конечно же, читала, потому что про Изинга есть тысячи статей, учебников и страниц в Википедии. И тогда возможен такой сценарий. Де Нобили обнаруживает, что коллектив агентов ведёт себя «почти как Изинг». Но альтернативное объяснение такое: модель помнит, как должны вести себя изинговые системы, и подражает этому поведению, когда задача синтаксически выглядит как Изинг. Особенно кога у нас есть какая-то модель-арбитр, и уж она-то точно видит, что пользователь хочет получить Изинга.

То есть мы можем видеть не физику языковых моделей. Мы можем видеть, как языковая модель изображает физику, потому что мы её об этом и попросили. Явно или неявно.

Тут напрашивается контрольный эксперимент. Переформулировать задачу так, чтобы она не пахла физикой. Не «бинарные состояния на решётке», а, например, «нравится ли вам вон тот сорт сыра в столовой, с учётом мнений соседей по очереди». Если показатели те же — значит, Де Нобили прав, и мы измеряем что-то фундаментальное. Если другие — значит, мы измеряем способность языковой модели подражать физике, когда её спрашивают про физику. Это, кстати, тоже интересный результат, просто совсем про другое.

Контрольного эксперимента пока нет. Подозреваю, что и не появится, потому что один прогон требует миллионов обращений к модели, и платить за это никто не торопится. Этим могли бы заняться сами вендоры моделей типа Антропика и OpenAI, но зачем им это нужно?

Про автора

Вообще, история забавная. Какой-то челик из Милана, один, у себя на ноутбуке, без бюджета и без коллег, показывает, что коллективы языковых моделей теперь достаточно интересная штука, чтобы их можно было изучать как физический объект. Не «как использовать физику для понимания LLM». А наоборот, «вот новая система, чисто математическая по построению — давайте посмотрим, какая в ней происходит физика».

Де Нобили работает один. Насколько я понимаю, насколько я смог нагуглить, у него нет института, который бы за ним стоял горой. Нет гранта, на который бы он опирался, чтобы делать вот эту конкретную работу. Нет коллег по лаборатории, с которыми можно было бы это обсудить. Нет пиар-отдела и маркетологов которые раскрутили бы эту работу в Twitter.

Посмотрите какие модели он исследовал: это маленькие модели на 7 миллиардов размером, которые может позволить себе обычный человек. Обычный человек в качестве хобби не может себе купить кластер для запуска того же полного DeepSeek — в рублях это стоило бы десятки миллионов. У вас столько есть? Ну и у него нет.

Если бы статью с таким же содержанием выпустила DeepMind или Антропик, через сутки про неё писали бы все профильные блоги, и Янн ЛеКун уже успел бы с кем-то поспорить в треде и накидать вызывающе неверных тейков. А Де Нобили выпустил её сам, она лежит на arXiv как обычный препринт, и за неделю её посмотрели, дай бог, несколько сотен человек. Один из которых — ваш покорный слуга.

Мне кажется, в этом проявляется характерная для нашего времени асимметрия. Корпораты гонят из всех телевизоров свою проаганду, и это именно они формируют ленту новостей про ИИ: релизы, бенчмарки, партнёрства. А самые любопытные интеллектуальные ходы делают одиночки, на обочине индустрии, у которых нет инвесторов, перед которыми надо отчитываться, и нет маркетологов, которым нужно что-то продавать. Зато у этих одиночек есть путеводная звезда: некий странный вопрос (который их необычайно волнует) и время, чтобы на него отвечать.

В физике начала двадцатого века было примерно так же. Мы помним Эйнштейна, Бора, Гейзенберга, потому что они написали работы, которые теперь во всех учебниках. Но огромный объём фундаментальной технины придумали безымянные сейчас люди, которые работали в провинциальных университетах, преподавали студентам и в свободное время считали что-то на бумаге. Их фамилии остались только в ссылках из известных научных работ. Но без них, без их выкладок — ни Бор, ни Гейзенберг не смогли бы сделать того, что сделали.

В машинном обучении сейчас, по-моему, похожая ситуация. Мы смотрим на пресс-релизы из Сан-Франциско, потому что они громкие, и за их рекламу в соцсетях выложили чемоданы денег. А Кристиано Де Нобили, сидя у себя в Италии, может быть, только что заложил первый камень в новый раздел статистической физики. Может, и не заложил, конечно. Может, через год выяснится, что у него какие-то ошибки, артефакты слишком малых решёток, плохое усреднение. Но сама попытка стоит того, чтобы её отметить. Но по крайней мере, она осталась у нас на Ютубе. И значит, интернет про нее забудет.

Кстати, то, что я могу вот так вещать в интернете на такую огромную толпу людей — это тоже огромная привилегия. И я ее стараюсь использовать не для того, чтобы впаривать вам какие-то продукты, сомнительной нужности, а чтобы постараться донести инфу о чем-то вечном и интересном.

Где остановиться

Я не уверен, что Де Нобили прав. С одной стороны, я не специалист, и читал эту работу как и все — через анализ в Клоде. Но очевидно, что и решётки у него маленькие, потому что инференс слишком дорогой для одного человека (а не для мега-корпорации). Возможно, Z₂-симметрия нарушена с самого начала. И всё это великолепие, возможно, объясняется тем, что модель прочитала учебник по статфизике и теперь старательно его воспроизводит. Это пока гипотеза. Поэтому, о статье стоит думать именно как о предположении, а не как о новом законе природы.

Полезная историческая аналогия. Когда Олаф Рёмер в 1676 году впервые измерил скорость света по затмениям спутников Юпитера, он ошибся примерно на четверть. Но он был не дурак, и он был первопроходцем решения этой задачи. А точное решение появилось только через сто лет, и это уже были работы совсем других людей.

Если работа Де Нобили окажется аналогом Рёмера для «статистической физики языковых агентов» (назовем этот новый раздел физики так), то лет через десять на неё будут ссылаться как на самое первое наблюдение. Даже если она окажется неверной: всё равно, она задаёт правильныое направление вопросов. А как известно, именно с правильными вопросами в любой области — напряжёнка.

AI нейросети AI агенты AI agents мультиагентные системы multi-agent systems статистическая физика statistical physics модель Изинга Ising model фазовый переход phase transition критическая точка critical point класс универсальности universality class критические показатели critical exponents критическая опалесценция critical opalescence точка Кюри Curie temperature Cristiano De Nobili Кристиано Де Нобили Lars Onsager Ларс Онсагер Ernst Ising Эрнст Изинг Max Tegmark Макс Тегмарк Ole Rømer Оле Рёмер sycophancy подхалимство acquiescence bias Z2-симметрия Z2 symmetry упрямство конформность stubbornness conformity Anthropic Llama 3.1 Phi-4 Mistral AutoGen LangGraph CrewAI Ollama arXiv препринт preprint finite-size scaling коллективное поведение collective behavior подкаст Олег Чирухин Oleg Chirukhin 1red2black GitVerse