За полгода энтузиаст под ником dikiyplayerpig обучил с нуля языковую модель dpp‑gptV2.1 Pro на одной видеокарте RTX 4060. Модель содержит 260 млн параметров (около 300 млн до обрезки) и использует архитектуру Llama 3 с 20 слоями, размерностью 1024 и 16 головами внимания. Контекстное окно — 4096 токенов, словарь — 16384 токена.
На претрейн ушло около трёх недель. Автор использовал 11,8 млрд токенов из Wikipedia (русский, английский, французский), датасета CulturaX, Cosmopedia и кода. Чтобы вписать обучение в 8 ГБ видеопамяти, пришлось накапливать градиенты и отрезать четыре слоя (с 24 до 20). Затем последовал SFT на 16,5 млн токенов синтетических данных, сгенерированных локально через Gemma 4, Qwen 3.5 и DeepSeek v4. На сбор и генерацию данных ушло около месяца.
| Параметр | Значение |
|---|---|
| Архитектура | Llama 3 (20 слоев, 1024 dim, 16 голов) |
| Количество параметров | 260 млн |
| Контекстное окно | 4096 токенов |
| Словарь | 16384 токена |
| Токенов на претрейне | 11.8 млрд |
| Токенов на SFT | 16.5 млн |
Модель демонстрирует способность считать многозначные числа поразрядно и определять количество букв в словах (например, сколько 'r' в 'strawberry'). В длинных примерах возможны ошибки. Также модель понимает русский, английский и французский, может переводить простые фразы. Автор отмечает, что после SFT качество вычислений немного ухудшилось. Версия 2.1 доступна на Hugging Face как чат‑версия и базовая (продолжение текста). Сейчас автор обучает ещё более компактную flash‑версию на 90 млн параметров, чтобы проверить, сможет ли она решать те же задачи.
На претрейне использовано 11.8 млрд токенов из Wikipedia, CulturaX, Cosmopedia и кода.



