Галлюцинации — одна из главных проблем больших языковых моделей (LLM). Даже самые продвинутые модели допускают ошибки, а существующие методы их обнаружения далеки от совершенства. Стартап Probably, основанный Питером Элиасом, предлагает иной подход: вместо того чтобы полагаться только на саму модель, компания создала систему верификации, которая перепроверяет каждый ответ с помощью детерминированного валидатора.

Первый продукт Probably — инструмент для науки о данных, предназначенный для быстрого получения ответов на сложные запросы. Каждый результат сопровождается цитатой и аудиторским следом, что позволяет проследить, как был получен ответ. Однако ключевая инновация — это «экзоскелет для науки о данных», как называет его Элиас. Система работает так: LLM генерирует первичный ответ, затем детерминированный валидатор проверяет его на соответствие исходному набору данных. Если ответ не совпадает, он отбрасывается, и процесс повторяется. При этом саму LLM обучают взаимодействовать с этим валидатором, чтобы минимизировать число итераций.

По словам Элиаса, такой подход позволяет использовать значительно более слабые модели. «Чем лучше ваш харнес-инжиниринг, тем слабее может быть модель, — говорит он. — Если достаточно точно определить контекст, модели не нужно прикладывать большие усилия, чтобы сделать правильный выбор. Это упражнение по снижению неопределенности». В текущей версии Probably использует модель, которая «на четыре класса слабее передовых моделей», что позволяет запускать ее на локальном оборудовании, а не в дата-центре. Это существенно снижает затраты на токены, что особенно актуально на фоне их повышения и пересмотра ИИ-бюджетов многими компаниями.

Image Credits:Probably
Image Credits:Probably · Источник: TechCrunch AI

Элиас считает, что крупные ИИ-лаборатории не заинтересованы в создании подобных систем: «Они зарабатывают деньги тем, что вам приходится исправлять модель снова и снова». Технология Probably может быть расширена на другие точные области, такие как бухгалтерия или медицина. Однако пока компания фокусируется на науке о данных, и остается неясным, насколько эффективно система будет работать в более сложных сценариях с менее структурированными данными.