Инженер провел эксперимент с локальной моделью Qwen 3.5 9B, запущенной через LM Studio на RTX 5080, для генерации Go-сервиса аутентификации. Целью была не абстрактная проверка бенчмарков, а практическая задача: создать рабочий backend с регистрацией, логином, JWT, PostgreSQL, Docker Compose и unit-тестами.

Главный вывод: простые типовые задачи уже можно отдавать дешевым локальным моделям, но не в формате «сделай весь проект». Рабочая схема оказалась иной: сильная модель (GPT-5.5) готовит подробное техническое задание и план разработки, разбивая проект на маленькие, хорошо описанные шаги. Затем локальная модель (Qwen 3.5 9B) через агент Opencode выполняет каждый шаг, причем критерий готовности — успешный запуск go test./....

ПараметрЗначение
ЗадачаDemo auth service
СтекGo, PostgreSQL, Docker
АгентOpencode
Модельqwen/qwen3.5-9b
ЗапускLM Studio
ЖелезоRTX 5080 16 GB, 64 GB RAM, i5-12600K
Скоростьпримерно 120 токенов/сек при контексте около 200K
Результатрабочий backend-скелет, 19 unit-тестов

Процесс включал шесть сессий: скелет проекта и доменные структуры, сервисный слой с fake repository, HTTP API и middleware, PostgreSQL repository с миграциями, Dockerfile и Docker Compose, финальная стабилизация. Для каждой сессии были заданы одна цель, список ожидаемых файлов, ограничения и команда проверки. Пример одной сессии: «Создай service layer, напиши тесты для регистрации, логина, смены пароля — не трогай HTTP». В результате получен рабочий скелет сервиса с 19 unit-тестами, 2 интеграционными тестами, миграциями и Docker Compose.

Ключевой подход: сильная модель (GPT-5.5) выступает архитектором и составляет план, локальная модель — исполнителем для отдельных маленьких сессий.

Отдельно автор подобрал skills для модели: golang-patterns, golang-testing, docker-patterns, database-migrations, security-best-practices, supabase-postgres-best-practices. Это важный момент: маленькая модель хуже удерживает в контексте специфичные практики структурирования кода, написания тестов и безопасности. Явное задание навыков компенсирует это.

Железо: RTX 5080 с 16 ГБ видеопамяти, 64 ГБ RAM, процессор i5-12600K. Модель полностью поместилась в GPU-память, скорость генерации составила около 120 токенов в секунду при контексте около 200,000 токенов. Для агентской работы скорость важна не меньше качества — медленная генерация сводит на нет экономию.

Эксперимент показывает, что локальные модели уже можно эффективно использовать для автоматизации рутинных backend-задач, если правильно организовать процесс: сильная модель — архитектор и постановщик, дешевая — исполнитель понятных шагов. Это снижает затраты на облачные API и позволяет сохранять код локально.