Разработчик с реальными AI-внедрениями для бизнеса и госструктур описал типичный сценарий найма на рынке СНГ: крупная компания сама вышла с оффером, пригласила на технический созвон — и вместо разговора об архитектуре агентов перешла к вопросам про типы очередей в RabbitMQ, материализованные представления в PostgreSQL и сравнение Django с альтернативами. При этом текущая AI-инфраструктура компании, по словам интервьюеров, выглядела так: «ребята что-то подняли через Ollama, гоняют через n8n».

Автор описывает устойчивый паттерн: когда руководство ставит задачу «внедрить ИИ», она падает на DevOps-инженера или бэкенд-разработчика, который «разбирается в технологиях». Тот гуглит вопросы для AI-собеседования, добавляет знакомые темы из своей области — и в итоге проводит собес на позицию старшего бэкенда, а не эксперта по ИИ-интеграции. Кандидат, который не знает про материализованные представления, «проваливается» — хотя только что описал архитектуру агента, способную решить исходную задачу.

Имитация AIРеальное внедрение
n8n + OllamaLangGraph + vLLM / llama.cpp
No-code конструкторыГраф с явным control flow
«Ребята что-то подняли»Контролируемая инфра с мониторингом
Prompt в текстовом полеУзлы, рёбра, условные переходы
Нет трейсингаLangSmith / LangFuse — каждый шаг виден
Один инстансRouting между моделями, очереди, fallback

Разрыв между имитацией и реальным внедрением автор формулирует конкретно. No-code связка n8n + Ollama против LangGraph с явным control flow и vLLM или llama.cpp для инференса. Промпт в текстовом поле против графа с узлами, рёбрами и условными переходами. Отсутствие трейсинга против LangSmith или LangFuse, где виден каждый шаг агента. Один инстанс против роутинга между моделями, очередей и fallback-сценариев при сбоях.

На AI-собеседовании вопросы свернули к Django, RabbitMQ и volume mount вместо архитектуры агентов

LangGraph — фреймворк от команды LangChain для построения агентов в виде ориентированного графа состояний: каждый узел выполняет отдельную операцию, рёбра задают условные переходы. Это позволяет явно контролировать логику агента и изолировать ошибки. vLLM — высокопроизводительный движок для запуска больших языковых моделей локально, с поддержкой батчинга и параллельных запросов. llama.cpp — более лёгкая альтернатива для запуска квантизованных моделей на потребительском железе. RAG (Retrieval-Augmented Generation) — подход, при котором модель перед ответом извлекает релевантные фрагменты из базы знаний, снижая число галлюцинаций.

Автор предлагает конкретный набор вопросов для оценки AI-разработчика. Про архитектуру агента: понимает ли человек разницу между цепочкой и графом, умеет ли изолировать логику в узлах — красный флаг «я просто пишу промпт и смотрю что выйдет». Про надёжность: есть ли валидация на выходе модели, retry-логика, fallback — красный флаг «модель обычно отвечает нормально». Про выбор модели: умеет ли кандидат просчитывать компромиссы между задержкой, стоимостью, сохранностью данных и качеством результата — красный флаг «мы везде используем ChatGPT». Про трейсинг: знает ли LangSmith, LangFuse или аналоги — красный флаг «смотрю в логи». Про масштабирование: знает ли про батчинг, несколько инстансов, роутинг между моделями — красный флаг «поставим сервер помощнее».

Проблема замкнутая: компании не могут найти AI-специалистов, потому что не умеют их искать, а специалисты не проходят фильтр из вопросов про Django. Рынок СНГ при этом располагает и железом, и задачами, и бюджетами. Автор фиксирует, что ситуация медленно меняется — появляются команды, которые понимают разницу между «поднять Ollama» и построить production AI-систему. Но пока разрыв между тем, что компании ищут на бумаге, и тем, что реально нужно для боевого внедрения, остаётся значительным.