LLM не считает, не слышит и не учится в диалоге — разбор базовых заблуждений

GigaChat и Mistral не выполняют арифметику самостоятельно — они вызывают интерпретатор Python и показывают его результат. За большинством «способностей» языковых моделей стоят внешние инструменты, а не сама модель.

GigaChat, получив запрос «44 567,456554 × 0,000004430987», не стал вычислять результат самостоятельно — он написал двухстрочный код на Python, запустил интерпретатор и вернул пользователю точный ответ 0,19747782061383878. Mistral в аналогичном тесте поступил так же, дополнительно округлив результат до разумного числа знаков. Оба случая — иллюстрация того, как устроена работа любой публичной LLM: модель оперирует текстом, а вычисления, изображения и голос — зона внешних инструментов.

Распространённое представление о том, что современные языковые модели «умеют всё», складывается именно из-за того, что вызов инструментов происходит незаметно для пользователя. Когда ChatGPT рисует картинку, он формирует текстовый запрос к отдельной нейросети, умеющей генерировать изображения. Голосовой режим — это связка трёх технологий: Speech-to-Text, сама LLM и Text-to-Speech. Модель в этой цепочке по-прежнему работает только с текстом.

Технически процесс генерации ответа — инференс — выглядит так: модель размещается в памяти видеокарты, сервер инференса подаёт запрос, модель выдаёт один токен, токен присоединяется к запросу и цикл повторяется до появления стоп-токена. Ключевой момент: таблица весов — матрица чисел, определяющая поведение модели, — в этот момент не меняется. Обучение и генерация — принципиально разные процессы, которые не происходят одновременно. Поэтому диалог с пользователем не обучает модель ничему.

Умножение 44 567,456554 × 0,000004430987 GigaChat решил через код на Python, а не вычислением — это корректное поведение.

Если нужно, чтобы модель учитывала специфику конкретной предметной области, есть два пути. Первый — дообучение (fine-tuning): берётся уже обученная базовая модель и проходит дополнительный цикл обучения на узкоспециализированных данных. Это быстрее и дешевле, чем обучение с нуля, но всё равно требует времени и бюджета. Второй путь — системный промпт и контекст: единственный способ повлиять на поведение модели без изменения весов. Никаких других механизмов нет.

Отдельный нюанс касается пользовательских данных. Многие провайдеры публичных LLM предлагают опцию передачи диалогов для обучения будущих версий моделей. При согласии пользователя диалоги обезличиваются и включаются в обучающую выборку следующих релизов. Таким образом, влияние на модель возможно — но не в момент разговора и не напрямую.

Для инженеров и аналитиков, выбирающих архитектуру решений на базе LLM, из этого следует практический вывод: надёжность системы определяется не «умом» модели, а качеством инструментов, к которым она имеет доступ, и точностью промптов, которые задают её поведение. Модель без инструментов работает только с текстом — и это не недостаток, а архитектурная особенность, которую нужно учитывать при проектировании.

LLM не считает, не слышит и не учится в диалоге — разбор базовых заблуждений

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска