Потратил полгода на обучение своей ИИ с нуля на RTX 4060 — результат

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·1 минКод

За полгода энтузиаст обучил на домашней RTX 4060 модель dpp‑gptV2.1 Pro с 260 млн параметров, способную складывать многозначные числа и считать буквы в словах.

Кратко

—Модель dpp‑gptV2.1 Pro (260M параметров) обучена на одной RTX 4060 за полгода.
—На претрейне использовано 11.8 млрд токенов из Wikipedia, CulturaX, Cosmopedia и кода.
—Модель умеет считать по разрядам и разбивать слова по буквам, но может ошибаться в длинных примерах.
—В планах — обучить flash‑версию на 90 млн параметров.

Глоссарий · 6 терминов▾

LLM: Большая языковая модель — нейросеть, обученная предсказывать и генерировать текст.
RTX 4060: Видеокарта NVIDIA с 8 ГБ видеопамяти, ориентированная на игровой сегмент.
Параметры: Веса нейросети, определяющие её поведение; больше параметров обычно означает более высокое качество.
Токен: Единица текста (слово, часть слова или символ), которую обрабатывает модель.
Претрейн: Предварительное обучение модели на больших объёмах неразмеченных данных.
SFT: Supervised Fine-Tuning — дообучение с учителем на размеченных примерах.

За полгода энтузиаст под ником dikiyplayerpig обучил с нуля языковую модель dpp‑gptV2.1 Pro на одной видеокарте RTX 4060. Модель содержит 260 млн параметров (около 300 млн до обрезки) и использует архитектуру Llama 3 с 20 слоями, размерностью 1024 и 16 головами внимания. Контекстное окно — 4096 токенов, словарь — 16384 токена.

На претрейн ушло около трёх недель. Автор использовал 11,8 млрд токенов из Wikipedia (русский, английский, французский), датасета CulturaX, Cosmopedia и кода. Чтобы вписать обучение в 8 ГБ видеопамяти, пришлось накапливать градиенты и отрезать четыре слоя (с 24 до 20). Затем последовал SFT на 16,5 млн токенов синтетических данных, сгенерированных локально через Gemma 4, Qwen 3.5 и DeepSeek v4. На сбор и генерацию данных ушло около месяца.

Параметр	Значение
Архитектура	Llama 3 (20 слоев, 1024 dim, 16 голов)
Количество параметров	260 млн
Контекстное окно	4096 токенов
Словарь	16384 токена
Токенов на претрейне	11.8 млрд
Токенов на SFT	16.5 млн

Модель демонстрирует способность считать многозначные числа поразрядно и определять количество букв в словах (например, сколько 'r' в 'strawberry'). В длинных примерах возможны ошибки. Также модель понимает русский, английский и французский, может переводить простые фразы. Автор отмечает, что после SFT качество вычислений немного ухудшилось. Версия 2.1 доступна на Hugging Face как чат‑версия и базовая (продолжение текста). Сейчас автор обучает ещё более компактную flash‑версию на 90 млн параметров, чтобы проверить, сможет ли она решать те же задачи.

На претрейне использовано 11.8 млрд токенов из Wikipedia, CulturaX, Cosmopedia и кода.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Потратил полгода на обучение своей ИИ с нуля на RTX 4060 — результат

Кратко

Читать дальше

Как главред медиа о нейросетях сократил время на статью до часа

Amazon Bedrock AgentCore: встроенный веб-поиск для агентов ИИ

AWS запустила Continuum и Context: безопасность и контекст для ИИ-агентов