Qwen3.5 с именем Claude внутри: разбор файнтюна, который продают как «ИИ без цензуры»

Habr AI·6 мая·3 минРоссияКод

Модель с именем Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored вирусно распространялась в Telegram как «дообученный Claude без ограничений» — автор разбора на Habr вскрыл карточку на HuggingFace и выяснил, что к Claude она не имеет отношения, а физические константы в её ответах неверны.

Кратко

—Базовая модель — Qwen3 14B от Alibaba, раздутая до 21B через depth upscaling, а не оригинальный размер семейства.
—«Claude» в названии означает лишь дообучение на синтетических данных, сгенерированных запросами к Claude, — веса Anthropic закрыты.
—Abliteration — технический метод удаления «направления отказа» из весов трансформера; снижает качество на бенчмарках на 1–5%.
—В примере из карточки модели закон Стефана-Больцмана записан с неверной степенью, выдуманной фамилией и неправильной константой.
—«Uncensored» в названии — маркетинг: abliteration убирает только один механизм отказов, другие остаются.

Глоссарий · 7 терминов▾

Depth upscaling: Метод увеличения числа параметров модели путём дублирования или склейки слоёв существующей модели меньшего размера без добавления новых знаний.
Distillation: Обучение меньшей модели («ученика») имитировать поведение более крупной модели («учителя») на основе её выходных данных.
Abliteration: Техника удаления «направления отказа» из весов языковой модели путём ортогонализации весовых матриц, после чего модель перестаёт генерировать отказы на определённые запросы.
Residual stream: Внутреннее представление данных в трансформере — вектор, который последовательно модифицируется каждым слоем модели.
Refusal direction: Конкретное направление в пространстве активаций трансформера, активация которого приводит к генерации отказа на нежелательный запрос.
Open-weights: Модель, веса которой публично доступны для скачивания и использования, в отличие от закрытых моделей с доступом только через API.
Thinking-режим: Режим работы языковой модели, при котором она генерирует промежуточные рассуждения внутри специальных тегов перед финальным ответом, аналогично подходу DeepSeek-R1 и OpenAI o1.

Модель с именем Qwen3.5-21B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking появилась в русскоязычных Telegram-каналах с подачей «монстр без ограничений, дообученный до уровня Claude». Автор разбора на Habr — под ником, не раскрытым в тексте — провёл вечер над карточкой модели на HuggingFace и восстановил реальную цепочку операций.

Базовая модель — Qwen3 от Alibaba Cloud, open-weights LLM с открытыми весами. Оригинальное семейство выходит в размерах 0.6B, 1.7B, 4B, 8B, 14B, 32B и 235B параметров. Размера 21B в нём нет: его получают через depth upscaling — метод, описанный ещё в статье SOLAR 10.7B от Upstage. Суть проста: берётся модель меньшего размера, обычно 14B, её слои «склеиваются» так, чтобы суммарное число параметров выросло. Никаких новых знаний это не добавляет — только архитектурная манипуляция с уже существующими весами.

Часть имени	Что заявлено	Что реально
Qwen3.5	Базовая модель	Qwen3 от Alibaba Cloud — open-weights LLM
21B	Число параметров	Получено через depth upscaling из 14B, не оригинальный размер семейства
Claude-4.6-Opus	Дообучение до уровня Claude	Файнтюн на синтетических данных от Claude; веса Anthropic закрыты
Deckard	Не расшифровывается в названии	Файнтюн на текстах в стилистике Филипа К. Дика для творческого письма
Heretic-Uncensored	Полное снятие цензуры	Abliteration — удаление одного направления отказов; другие механизмы остаются
Thinking	Поддержка reasoning-цепочек	Встроено в базовый Qwen3 или добавлено файнтюном; теги <think>...</think>

«Claude-4.6-Opus» в названии — самая вводящая в заблуждение часть. Веса Claude закрыты, Anthropic их не публикует и не лицензирует для дообучения сторонних моделей. За этой надписью стоит distillation: автор файнтюнил Qwen на синтетическом датасете, сгенерированном запросами к Claude. В тегах модели видна ссылка на датасет TeichAI/claude-4.5-opus-high-reasoning-250x. Distillation может улучшить стиль и форматирование ответов, но не воспроизводит возможности исходной модели. «Deckard» — отсылка к персонажу Филипа К. Дика, файнтюн на датасете DavidAU/PkDick-Deckard-5-Datasets для художественного письма. На качество рассуждений не влияет.

«Claude» в названии означает лишь дообучение на синтетических данных, сгенерированных запросами к Claude, — веса Anthropic закрыты.

Наиболее технически интересная часть — abliteration, скрытая за словом «Heretic-Uncensored». Метод описан в работе Arditi, Obeso, Syed и соавторов, вошедшей в NeurIPS 2024 под названием «Refusal in Language Models Is Mediated by a Single Direction». Идея: когда LLM отклоняет запрос, в residual stream трансформера активируется конкретное направление в пространстве активаций — refusal direction. Его находят, сравнивая средние активации на «вредных» и «безвредных» промптах. Затем проекцию этого направления вычитают из весовых матриц, которые пишут в residual stream: матриц выходных проекций attention, MLP down_proj и embedding. После операции модель физически теряет способность активировать отказ через этот механизм. Heretic — инструмент, автоматизирующий этот пайплайн с удобным API.

Однако abliteration не безболезненна. Удаление направления сужает пространство представлений модели: замеры на MMLU, GSM8K и HumanEval показывают просадку на 1–5%. Для разговорных сценариев это незаметно, для математики и кода — ощутимо. Кроме того, метод убирает только отказы, реализованные через найденное направление. Если отказ возникает через другой механизм, он остаётся. Поэтому «Uncensored» — маркетинговое упрощение.

Автор разбора проверил пример из карточки модели: развёрнутый ответ про «10 способов использовать ночное радиационное охлаждение для климатической митигации». В блоке рассуждений модель написала «уравнение Стефана-Блэкманна-Вайнмана» с формулой P = εσC(T² − T²). Реальный закон Стефана-Больцмана выглядит как P = εσAT⁴ — степень четвёртая, площадь обозначается A, никакого Вайнмана не существует, а выражение T² − T² тождественно равно нулю. Значение константы модель привела как 2.378 × 10⁻³ K⁻³ — реальное значение 5.670 × 10⁻⁸ Вт/(м²·К⁴), то есть неверны и число, и порядок, и размерность. В таблицах с экономическими показателями числа для аналогичных площадей расходятся в 600 раз без объяснений.

Итоговая цепочка операций, скрытая за громким именем: depth-upscaled Qwen3 14B → дообучение на синтетических данных от Claude → дообучение на художественных текстах → abliteration через Heretic → поддержка thinking-режима с тегами <think>. Автор — DavidAU, известный в сообществе как мерджер моделей. Сама по себе техническая работа не тривиальна, но название модели описывает не то, что сделано, а то, что звучит убедительно для аудитории, незнакомой с устройством open-source экосистемы. Умение читать имена файнтюнов на HuggingFace — отдельный навык: каждый сегмент имени обычно указывает на датасет или метод, а не на реальное происхождение весов.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме