Мультимодальность в ИИ-агенте для 1С: как работают входящие и исходящие скриншоты

Анализ 258 реальных диалогов показал, что 88,8% пользовательских скриншотов можно заменить текстовым описанием — и всё равно команда LLMStart.ru выбрала передавать оригиналы напрямую в контекст LLM. Разбираем, почему Multimodal RAG оказался лишним, а архитектура разделилась на два принципиально разных потока.

Сергей Смирнов, ИИ-инженер и основатель LLMStart.ru, опубликовал разбор архитектурных решений по мультимодальности в ИИ-агенте, который консультирует сотрудников компании Айтон по системе 1С:УНФ. Агент работает в Telegram: пользователь задаёт вопрос, часто прикладывает скриншот с ошибкой, агент ищет ответ в методичке и отвечает текстом плюс собственным скриншотом-инструкцией. Именно здесь обнаружилось, что входящие и исходящие картинки требуют принципиально разных подходов.

Для входящих скриншотов команда рассматривала два варианта. Первый — caption+tool: отдельная модель описывает картинку текстом, оригинал сохраняется и запрашивается агентом только при необходимости. Это экономит токены в контексте. Второй — image-only: оригинал картинки в base64 сразу попадает в контекст LLM. Чтобы выбрать, разработчики проанализировали 258 реальных диалогов. Результат: 88,8% скриншотов полностью заменяемы текстовым описанием, 8,9% дают частичную потерю деталей, и лишь 2,3% требуют оригинала. Казалось бы, экономия оправдана. Но у подхода caption+tool есть системный изъян: модель решает, нужен ли ей оригинал, опираясь на текстовое описание — то есть именно на тот источник, в котором уже потеряны детали. В 8,9% пограничных случаев она может не догадаться запросить картинку. При image-only оригинал всегда в контексте, и качество ответа не зависит от того, правильно ли модель оценила важность визуала.

Подход	Принцип работы	Примеры	Главный минус
CLIP-style	Текст и картинка в едином векторном пространстве	Cohere Embed Multimodal, Jina CLIP, ImageBind	Теряет мелкие визуальные детали
ColPali / late-interaction	Страница нарезается на патчи, каждый векторизуется отдельно	ColPali (Faysse et al., 2024)	Дороже в вычислениях
VLM-as-captioner	Модель описывает картинку текстом, текст векторизуется	Любая Vision-LLM	Детали, не попавшие в описание, невидимы для поиска

Дополнительный аргумент — масштаб. Коммерческий диалог в среднем занимает 3–5 сообщений, картинки есть лишь в 16% из них. Экономия от caption+tool составляет $0,01–0,03 за диалог. На текущей нагрузке это не окупает усложнение архитектуры и затруднение отладки: при image-only разработчик открывает логи и видит оригинальный скриншот. Переход на caption+tool авторы описывают как «отложенную оптимизацию» — она станет оправданной при существенном росте числа пользователей.

Входящие картинки передаются в LLM напрямую в base64 — без промежуточных описаний и инструментов.

Исходящие скриншоты — полностью другая задача. Агент находит в методичке нужный текстовый чанк, к которому прикреплена иллюстрация: «нажми сюда». Нейросети не нужно понимать эту картинку — ей нужно просто доставить её пользователю вместе с правильным текстом. Архитектура здесь трёхшаговая: файлы хранятся в MinIO, индексируются без векторизации (поиск идёт по тексту, картинка следует за своим чанком), доставляются клиенту в base64 внутри JSON-ответа. В Telegram это реализуется отправкой до 10 фото за раз через API.

Отдельно авторы разбирают Multimodal RAG — технологию, при которой картинки превращаются в векторы наравне с текстом и участвуют в семантическом поиске. В индустрии существует три основных семейства подходов. CLIP-style (Cohere Embed Multimodal, Jina CLIP, ImageBind) помещает текст и изображение в единое математическое пространство; подход дешёв, но теряет мелкие детали. ColPali (Faysse et al., 2024) рендерит страницу документа как картинку, нарезает её на патчи и векторизует каждый отдельно — дороже, но хорошо работает на диаграммах и таблицах. VLM-as-captioner использует языковую модель с поддержкой зрения для генерации текстового описания, которое затем векторизуется; самый дешёвый вариант, но «глухой» к визуальным нюансам, не попавшим в описание.

Для методички 1С:УНФ ни один из этих подходов не нужен: каждая картинка by design прикреплена к конкретному разделу и не имеет самостоятельного смысла без окружающего текста. Пользователь никогда не ищет по визуальному признаку — он ищет по задаче. Multimodal RAG оправдан, когда документы содержат разнородные изображения (графики, фото, схемы), когда пользователь может искать по внешнему виду объекта, или когда картинки несут информацию, недоступную в тексте. В противном случае это усложнение без выгоды.

Мультимодальность в ИИ-агенте для 1С: как работают входящие и исходящие скриншоты

Кратко