Инженер провел эксперимент с локальной моделью Qwen 3.5 9B, запущенной через LM Studio на RTX 5080, для генерации Go-сервиса аутентификации. Целью была не абстрактная проверка бенчмарков, а практическая задача: создать рабочий backend с регистрацией, логином, JWT, PostgreSQL, Docker Compose и unit-тестами.
Главный вывод: простые типовые задачи уже можно отдавать дешевым локальным моделям, но не в формате «сделай весь проект». Рабочая схема оказалась иной: сильная модель (GPT-5.5) готовит подробное техническое задание и план разработки, разбивая проект на маленькие, хорошо описанные шаги. Затем локальная модель (Qwen 3.5 9B) через агент Opencode выполняет каждый шаг, причем критерий готовности — успешный запуск go test./....
| Параметр | Значение |
|---|---|
| Задача | Demo auth service |
| Стек | Go, PostgreSQL, Docker |
| Агент | Opencode |
| Модель | qwen/qwen3.5-9b |
| Запуск | LM Studio |
| Железо | RTX 5080 16 GB, 64 GB RAM, i5-12600K |
| Скорость | примерно 120 токенов/сек при контексте около 200K |
| Результат | рабочий backend-скелет, 19 unit-тестов |
Процесс включал шесть сессий: скелет проекта и доменные структуры, сервисный слой с fake repository, HTTP API и middleware, PostgreSQL repository с миграциями, Dockerfile и Docker Compose, финальная стабилизация. Для каждой сессии были заданы одна цель, список ожидаемых файлов, ограничения и команда проверки. Пример одной сессии: «Создай service layer, напиши тесты для регистрации, логина, смены пароля — не трогай HTTP». В результате получен рабочий скелет сервиса с 19 unit-тестами, 2 интеграционными тестами, миграциями и Docker Compose.
Ключевой подход: сильная модель (GPT-5.5) выступает архитектором и составляет план, локальная модель — исполнителем для отдельных маленьких сессий.
Отдельно автор подобрал skills для модели: golang-patterns, golang-testing, docker-patterns, database-migrations, security-best-practices, supabase-postgres-best-practices. Это важный момент: маленькая модель хуже удерживает в контексте специфичные практики структурирования кода, написания тестов и безопасности. Явное задание навыков компенсирует это.
Железо: RTX 5080 с 16 ГБ видеопамяти, 64 ГБ RAM, процессор i5-12600K. Модель полностью поместилась в GPU-память, скорость генерации составила около 120 токенов в секунду при контексте около 200,000 токенов. Для агентской работы скорость важна не меньше качества — медленная генерация сводит на нет экономию.
Эксперимент показывает, что локальные модели уже можно эффективно использовать для автоматизации рутинных backend-задач, если правильно организовать процесс: сильная модель — архитектор и постановщик, дешевая — исполнитель понятных шагов. Это снижает затраты на облачные API и позволяет сохранять код локально.
