Почему ИИ-пилоты застревают перед производством и как архитектура это лечит

На конференции Data Fusion 8–9 апреля ВТБ публично признал: большинство ИИ-проектов банка не переходят из пилотной стадии в промышленную эксплуатацию. Причина — не в качестве конкретных моделей, а в архитектурном устройстве систем, которые накапливают ошибки на каждом шаге без верификации.

На конференции Data Fusion, прошедшей 8–9 апреля, представители ВТБ описали проблему, которую в российской корпоративной среде обычно замалчивают: ИИ-проекты банка застревают между пилотом и промышленной эксплуатацией. Яндекс и Сбер на ту же тему реагируют иначе — предлагают инструменты: YandexGPT, GigaChat, облачные API. Но ни одна из сторон не объяснила, почему переход от пилота к production системно не работает.

Объяснение лежит в математике, которую никто не считает при проектировании агентных систем. Пилот демонстрирует высокую точность потому, что представляет собой один шаг в контролируемых условиях. Реальное производство — это цепочка шагов, и на каждом из них неопределённость перемножается. Если взять восемь агентов с точностью 85% каждый — реальный показатель для RAG-систем и агентных пайплайнов — итоговая точность цепочки составит 0,85⁸, то есть около 27%. Три четверти результатов оказываются ошибочными, и система при этом не сигнализирует, какие именно. Anthropic формализовал этот эффект как рост variance с длиной цепочки. Число ИИ-инцидентов в мире выросло на 56% за год — данные открытых реестров инцидентов подтверждают, что это не теоретическая угроза.

Проблему усугубляет неверная метрика успеха. Индустрия измеряет процент задач, выполненных без участия человека. Инвесторы любят эту цифру, маркетинг её продаёт. Но она измеряет автономность, а не точность. Исследование Dratsch et al., опубликованное в 2023 году в журнале Radiology, зафиксировало: радиологи, работавшие с ИИ-подсказками, ошибались чаще, чем без них — в тех случаях, когда подсказка оказывалась неверной. ИИ породил новый класс ошибок — automation bias: человек перестаёт проверять систему и следует за ней даже тогда, когда она ошибается. Авиационная катастрофа Air France 447 в 2009 году, унёсшая 228 жизней, демонстрирует ту же механику деградации навыков при вытеснении человека из контура управления — хотя автопилот и не является LLM.

Исследование Dratsch et al. (2023, Radiology) показало: радиологи с ИИ-подсказками ошибались чаще, чем без них, когда подсказка была неверной.

Ещё одно последствие тотальной автоматизации — разрушение кадровой преемственности. Когда компания убирает начальные позиции, через десять лет некому становиться старшими специалистами: нижняя ступенька карьерной лестницы исчезает вместе с механизмом воспроизводства экспертизы. Принцип human-in-the-loop декларируется повсеместно, но конкретной архитектуры с уровнями, железом и циклом дообучения до сих пор не существовало — ни в западном, ни в китайском дискурсе. Исследователи Montgomery, Marin, Steinert и Dratsch описывают разные грани одной проблемы, не складывая их в единое решение.

Предложенная низкоэнтропийная архитектура строится на четырёх уровнях. Уровень 0 — оператор физически рядом с объектом: он видит то, что датчики не фиксируют, и является нижним контуром сброса энтропии данных. Уровень 1 — узкоспециализированные модели датчиков: каждая отвечает за один физический параметр, работает с температурой инференса равной нулю, запускается на CPU или Raspberry Pi 4/5 прямо на объекте и умеет говорить «не знаю» вместо того, чтобы галлюцинировать. Уровень 2 — координатор на GPU: агрегирует выходы, рассуждает и формирует рекомендацию для эксперта; именно эту модель обучал доменный специалист на своём датасете. Уровень 3 — доменный эксперт, который верифицирует рекомендацию и корректирует её; каждая коррекция возвращается в веса модели.

Технически ключевое отличие от стандартного подхода — в носителе знания. Обычная схема: большая модель плюс системный промпт плюс RAG. Промпт читается и забывается в конце контекстного окна; RAG подтягивает факты из внешней базы при каждом запросе. В низкоэнтропийной архитектуре основной носитель — LoRA или QLoRA-адаптер весом от 50 до 200 МБ, который накладывается поверх базовой модели и является её частью. Доменная интуиция эксперта — паттерны, а не факты — живёт в весах и не теряется. Цикл дообучения строится через SFT, где эксперт подтверждает или исправляет ответы, и DPO, где модель учится на парах предпочтений. Система архитектурно не работает без человека — это не ограничение, а принцип, обеспечивающий сброс накопленной неопределённости на каждом уровне.

Почему ИИ-пилоты застревают перед производством и как архитектура это лечит

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска