Какую модель ИИ выбрать для анализа данных и как правильно составить промпт

Подготовлено редакцией Malakhov AI

Habr AI·6 мая·3 минРоссияКод

Claude, Gemini 2.5 Pro, DeepSeek и ChatGPT по-разному справляются с анализом таблиц и документов — выбор зависит от объёма данных, типа задачи и бюджета. Ключевой параметр, о котором часто забывают, — контекстное окно модели.

Кратко

—Контекстное окно определяет, сколько данных модель обрабатывает за один запрос: в 2022 году стандартом было 4096 токенов, к 2026-му — до 2 млн.
—Claude (до 1 млн токенов) лучше подходит для юридических документов и длинных отчётов с минимумом галлюцинаций.
—Gemini 2.5 Pro декларирует 2 млн токенов, но исследователи Стэнфорда и Беркли установили, что надёжно модель работает в пределах ~128 тысяч.
—DeepSeek работает в России бесплатно и без VPN, честно сообщает об отсутствии данных вместо того, чтобы их придумывать.
—Пять отдельных подписок (ChatGPT Plus, Claude Pro, Gemini, Perplexity, DeepSeek) обходятся в $80–100 в месяц; агрегаторы вроде SpeShu.AI предлагают оплату по факту использования.

Глоссарий · 5 терминов▾

Контекстное окно: Максимальный объём текста (в токенах), который языковая модель может обработать за один запрос, не «забывая» начало.
Токен: Минимальная единица текста, с которой работает языковая модель; в русском языке одно слово обычно занимает 2–4 токена.
Галлюцинация: Ситуация, когда языковая модель уверенно сообщает факты, которых нет в источнике и которые она фактически придумала.
LLM: Large Language Model — большая языковая модель, тип нейросети, обученной на текстах для генерации и анализа текста.
Промпт: Текстовый запрос, который пользователь отправляет языковой модели; от его формулировки во многом зависит качество ответа.

Обработать тысячу строк таблицы или многостраничный договор за один запрос — задача, с которой языковые модели справляются по-разному. Главный технический параметр здесь — контекстное окно: максимальное количество токенов, которые модель удерживает в памяти одновременно. Токен — это не слово и не символ, а фрагмент текста; в русском языке одно слово из-за особенностей кодировки нередко разбивается на 2–4 токена. Всё, что выходит за пределы окна, модель просто не учитывает.

В 2022 году стандартом считались 4096 токенов — несколько страниц текста. К началу 2026 года лидеры рынка предлагают от 200 000 до 10 миллионов токенов. Для ориентира: 128 000 токенов — примерно 250-страничная книга обычным шрифтом. Но большой контекст не означает равномерного внимания ко всему тексту: исследователи Стэнфорда и Беркли показали, что модели непропорционально много внимания уделяют началу и концу документа, тогда как середина «проваливается». Применительно к Gemini 2.5 Pro с его декларируемыми 2 млн токенов это означает, что реально надёжная зона работы — около 128 тысяч токенов.

Модель	Контекстное окно	Сильная сторона	Доступность в России
Claude	до 1 млн токенов	Юридические документы, минимум галлюцинаций	VPN / агрегаторы
Gemini 2.5 Pro	до 2 млн токенов (надёжно ~128 тыс.)	Сложные логические цепочки в аналитике	VPN / агрегаторы
ChatGPT	до 128 тыс. токенов	Генерация Python-скриптов, CSV/Excel	VPN / агрегаторы
DeepSeek	до 128 тыс. токенов	Финансовые отчёты, честное признание пробелов	Бесплатно, без VPN
Perplexity	до 128 тыс. токенов	Анализ с актуальными данными из интернета	VPN / агрегаторы

Среди пяти моделей, которые чаще всего используют для анализа данных, у каждой своя ниша. Claude с контекстом до 1 млн токенов лучше других справляется с юридическими документами и длинными аналитическими отчётами — модель реже «галлюцинирует», то есть не придумывает факты, которых нет в источнике. DeepSeek оптимален для финансовых отчётов: структурирует данные в таблицы и явно предупреждает, когда в источнике не хватает цифр для вывода. Это особенно ценно при работе с числами, где выдуманные данные могут стоить дорого. ChatGPT выделяется тем, что умеет генерировать Python-скрипты для нестандартной обработки CSV и Excel — если нужна автоматизация, а не разовый анализ. Gemini 2.5 Pro строит сложные логические цепочки при работе с аналитическими отчётами, но с оговоркой о реальном контексте выше. Perplexity незаменим, когда анализ требует сопоставления с актуальными данными из интернета: модель ищет информацию в сети и даёт ответы со ссылками на источники.

Claude (до 1 млн токенов) лучше подходит для юридических документов и длинных отчётов с минимумом галлюцинаций.

Качество результата примерно наполовину определяется тем, как сформулирован запрос. Несколько работающих принципов: указывать роль («ты финансовый аналитик», «ты юрист с опытом в договорном праве»), задавать конкретный формат вывода («представь в виде таблицы», «перечисли нумерованным списком») и явно ограничивать область анализа. Запрос «проанализируй это» даёт непредсказуемый результат — модель не знает, нужен ли общий вывод, поиск аномалий или сравнение с чем-то конкретным. Для таблицы продаж рабочий промпт выглядит так: «Найди три месяца с наибольшим падением. Предположи возможные причины, опираясь только на данные из таблицы. Если данных недостаточно для вывода — так и скажи».

С точки зрения стоимости, прямые подписки на ChatGPT Plus, Claude Pro, Gemini AI Pro и Perplexity Pro стоят около $20 в месяц каждая — итого $80–100, или 7000–9000 рублей ежемесячно, независимо от интенсивности использования. Большинство сервисов в России требуют VPN и иностранной карты. Агрегаторы наподобие SpeShu.AI объединяют эти модели в одном интерфейсе с оплатой по факту использования — это позволяет, например, загрузить один документ в Claude и DeepSeek одновременно и сравнить результаты, или последовательно использовать разные модели для разных этапов одной задачи.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Какую модель ИИ выбрать для анализа данных и как правильно составить промпт

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США