Сара Гуо о ценности, которую LLM не смогут достичь

Подготовлено редакцией Malakhov AI

Habr AI·16 июн.·2 минРоссияКод

Сара Гуо, основательница ИИ-фонда Conviction с $300 млн под управлением, объясняет, почему инвестиции в прикладной слой ИИ имеют смысл, несмотря на стремительное улучшение базовых моделей. Её ключевой аргумент: существует работа, которую невозможно свести к стандарту или измерить, а значит — нельзя обучить модели делать её лучше.

Кратко

—Сара Гуо считает, что LLM не могут захватить ценность в областях, которые невозможно измерить — это невидимый барьер для автоматизации.
—Программирование: ИИ-агенты теперь решают до 90% задач в бенчмарках, но исследование MIT показало, что объём реально внедрённого кода вырос лишь на 30% при росте написанного кода на 180%.
—Настоящая сложность — работа с унаследованными системами, где корректность проверяется годами реальной эксплуатации, а не тестами.
—Венчурные фонды продолжают инвестировать в прикладные продукты, а не только в инфраструктурные модели, видя ценность в слое, где человеческий фактор остаётся критическим.

Глоссарий · 3 термина▾

LLM: Большая языковая модель (Large Language Model) — тип ИИ, обученный на огромных объёмах текста для генерации и понимания естественного языка.
бенчмарк: Эталонный тест, используемый для сравнения производительности ИИ-моделей в определённых задачах.
Application Layer: Прикладной слой — продукты и сервисы, построенные поверх фундаментальных ИИ-моделей, решающие конкретные задачи пользователей.

Сара Гуо, основательница ИИ-фонда Conviction с $300 млн под управлением, опубликовала статью, в которой объясняет, почему она не разделяет «ИИ-психоз» инвесторов, опасающихся, что все деньги нужно вкладывать только в Anthropic и Nvidia. Её тезис: есть работа, которую невозможно свести к стандарту или измерить, а раз нельзя измерить — нельзя обучить модель делать её лучше.

Гуо приводит пример программирования. В 2024 году ИИ-агент Devin решал 13% задач в стандартном тестировании, и его не воспринимали всерьёз. Спустя полтора года лучшие ИИ-помощники показывают до 90% в таких же тестах и уже работают внутри Goldman Sachs и армии США. Вывод, который часто делают: модель «съела» профессию программиста. Но Гуо считает его неверным: модель поглотила лишь ту часть программирования, которую проще всего измерить. Исследователи из MIT (Мерт Демирер и соавторы) подсчитали, что среди более 100 тысяч разработчиков новые ИИ-инструменты увеличили объём написанного кода на 180%, а объём реально внедрённого в продукт — всего на 30%. Писать код стало дёшево, но всё остальное — проверка, интеграция, работа с десятилетним кодом — по-прежнему требует человека.

Показатель	Значение
Рост объёма написанного кода	~180%
Рост объёма реально внедрённого кода	~30%

Бенчмарк — это то, что можно измерить. А если что-то можно измерить, значит, можно натаскать модель делать это идеально. Но есть задачи, где «корректность» невозможно проверить никаким тестом. Например, изменение в старом десятилетнем коде, где минимум три причины существовать каждому модулю, и они нигде не задокументированы. Или система, держащаяся на автоматическом скрипте, запускаемом по расписанию, про который никто не хочет признаваться. Доверие к такой системе рождается спустя годы реальной работы. Даже Ноам Браун (исследователь OpenAI, руководивший разработкой o1/o3) недавно писал, что единственный надёжный способ оценить агента на горизонте в год — запустить его работать на год.

Программирование: ИИ-агенты теперь решают до 90% задач в бенчмарках, но исследование MIT показало, что объём реально внедрённого кода вырос лишь на 30% при росте написанного кода на 180%.

Гуо поясняет, что именно эта «медленная изменяемость» и создаёт защищённую ценность — ту, которую деньги не могут отнять быстро. Гейб Перейра, основатель Harvey (ИИ-компания в юриспруденции с $100 млн годовой выручки), говорит, что настоящая автоматизация — это когда продукт, модель, бизнес-процессы и сама компания улучшились все вместе. Три из четырёх этих вещей двигаются медленно и требуют человеческого участия.

Для венчурных инвесторов это означает, что вложение только в фундаментальные модели — не единственный путь. Прикладной слой, где люди берут на себя неформализуемые задачи, остаётся источником устойчивой ценности.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Сара Гуо о ценности, которую LLM не смогут достичь

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений