Джои Флинн и Томас Димсон, оба в прошлом работавшие в OpenAI, запустили сайт In the Weights. Инструмент отвечает на вопрос, который сложно проверить напрямую: закодированы ли сведения о конкретном человеке в параметрах языковых моделей — или модель просто ничего о нём не знает.
Чтобы понять, как это работает, нужно разобраться, что такое веса нейросети. Когда LLM обучается на огромных массивах текста, она не сохраняет тексты дословно — она сжимает знания в миллиарды числовых значений, которые называются весами. Именно в них «живут» факты, которые модель может воспроизвести без обращения к поисковику или базе данных. Если человек достаточно часто и в достаточно разных контекстах упоминался в обучающих данных, след от него остаётся в весах.
In the Weights автоматически запрашивает несколько языковых моделей, просит их рассказать о конкретном человеке, сравнивает ответы и вычисляет итоговый балл — «силу присутствия» в весах. Шкала идёт от нуля до 996. На вершине — Моцарт, Шекспир и Тейлор Свифт. Журналисты The Decoder, написавшие об этом инструменте, проверили себя: один получил 175 баллов, другой — 262.
Максимальный балл 996 получают Моцарт, Шекспир и Тейлор Свифт; журналисты The Decoder набрали 175 и 262.

Особый интерес представляет поведение малых моделей. По словам создателей, компактные LLM запоминают меньше людей — порог релевантности у них выше. Поэтому появление в Llama от Meta, обученной на относительно небольшом числе параметров (в публичной версии — от одного миллиарда), считается сигналом высокой значимости персоны: в маленькую модель попадают только те, кто встречался в обучающих данных особенно часто.
Создатели честно обозначают границы инструмента. Языковые модели склонны к галлюцинациям — они могут уверенно сообщать биографические детали, которых никогда не существовало. Опечатка в имени или фамилии способна существенно снизить балл, потому что модели чувствительны к точному написанию. Распространённые имена создают дополнительный шум: модель может смешивать сведения о разных людях с одинаковым именем.
Для отрасли этот инструмент интересен сразу в нескольких измерениях. Во-первых, он делает видимым то, что обычно скрыто внутри «чёрного ящика» — какие знания реально закодированы в параметрах, а не просто извлекаются через поиск. Во-вторых, он поднимает практический вопрос о том, кто и почему попадает в обучающие данные и как это влияет на то, что модели «знают» по умолчанию. Наконец, инструмент наглядно показывает разницу между моделями разного масштаба: чем меньше модель, тем избирательнее её память.



