Рынок ИИ-ассистентов за последние два года перешёл из категории «интересная игрушка» в категорию рабочего инструмента. При этом большинство пользователей по-прежнему взаимодействуют с ними по схеме «задал вопрос — получил ответ», не задумываясь о том, как именно работает модель, где обрабатываются данные и почему одни задачи лучше решать локально, а другие — в облаке.

В основе любого ИИ-ассистента лежит большая языковая модель (LLM). Технически это нейронная сеть, обученная на огромных массивах текста: книгах, статьях, коде, документации. Модель не хранит готовые ответы — она предсказывает, какой токен (примерно слог или короткое слово) должен идти следующим, опираясь на гигантскую таблицу вероятностей. Когда вы пишете запрос в ChatGPT или Claude, текст разбивается на токены, превращается в числа, прогоняется через нейронную сеть — и обратно приходят числа, которые программа переводит в текст. Модель не «думает» в человеческом смысле, но результат на практике часто неотличим от осмысленного ответа.

СервисСтандартный планПродвинутый планКоманды
ChatGPTPlus — $20/месPro — $200/месTeam — $25-30/мес за пользователя
ClaudePro — $20/месMax — $100-200/месTeam — $25-30/мес за пользователя
GeminiAI Pro — $19.99/месAI Ultra — $249.99/месЧерез Google Workspace
GrokSuperGrok — $30/месHeavy — $300/месЧерез X Premium+

Есть два принципиально разных способа запустить LLM. Первый — локально, например через Ollama: вы скачиваете файл с весами модели, и вся обработка происходит на вашем железе. Данные не покидают машину, платить не нужно, интернет не требуется. Но есть жёсткое ограничение: качество ответа зависит от размера модели, а размер — от объёма видеопамяти. Модель на 7 миллиардов параметров помещается в видеокарту с 8 ГБ VRAM, но по качеству она заметно уступает облачным флагманам, у которых параметров на порядки больше. Локальные LLM хорошо подходят для обработки конфиденциальных данных клиентов, анонимизации документов перед отправкой в облако и работы в роли агента с собственными инструментами.

Локальная модель через Ollama работает без интернета и бесплатно, но требует видеокарты от 8 ГБ VRAM и заметно уступает облачным флагманам по качеству.

ИИ-ассистенты для начинающих: локальные модели, облако и промты
· Источник: Habr AI

Второй способ — облачные сервисы. Когда запрос уходит на серверы Anthropic или OpenAI, он обрабатывается на кластерах из GPU класса H100, стоимость которых исчисляется миллионами долларов. Пользователь получает доступ к моделям с сотнями миллиардов параметров без каких-либо требований к собственному железу — за подписку или оплату токенов через API. Данные при этом передаются по зашифрованному протоколу, но покидают периметр компании.

Среди облачных ассистентов сложилось несколько устойчивых позиций. ChatGPT от OpenAI — наиболее узнаваемый продукт, актуальные версии работают на GPT-5; он универсален и охватывает текст, код и генерацию изображений через DALL-E. Claude от Anthropic — актуальные модели Claude Opus 4.6, Claude Sonnet 4.6, Claude Haiku 4.5 — выделяется работой с длинными документами, качеством генерируемого кода и способностью создавать интерактивные React-компоненты прямо в чате. Gemini от Google на версии 3.x берёт глубокой интеграцией с экосистемой: Gmail, Docs, Drive подключены нативно.

Практический выбор между локальным и облачным решением определяется двумя факторами: требованиями к конфиденциальности данных и допустимым качеством ответов. Если данные нельзя передавать третьим сторонам — локальная модель с достаточным объёмом VRAM закрывает задачу. Если нужен максимум качества и скорости — облако. Многие команды комбинируют оба подхода: локальная LLM анонимизирует данные, после чего обезличенный запрос уходит в облачную модель.