Как подключить Firecrawl к Claude Code и перестать сжигать токены на парсинге

Habr AI·21 апр.·3 минРоссияКод

Claude Code умеет работать с вебом, но на сайтах с динамическим контентом и антибот-защитой — Ozon, LinkedIn, SimilarWeb — встроенный поиск либо возвращает пустую страницу, либо кашу из тегов. Firecrawl, open-source-инструмент с 110 000 звёзд на GitHub, решает эту проблему как промежуточный слой между агентом и браузером.

Кратко

—Встроенный веб-поиск Claude Code не справляется с JS-тяжёлыми страницами и антибот-защитой крупных сайтов.
—Firecrawl рендерит JavaScript, обходит защиты и отдаёт агенту чистый Markdown или JSON вместо HTML-мусора.
—Подключить инструмент можно тремя способами: официальный плагин, MCP-сервер вручную или CLI через npx skills.
—Кредитная система нелинейна: Extract стоит 5 кредитов за страницу, Crawl — 2, поэтому реальный лимит Hobby-плана ($16/мес) — около 400–600 страниц, а не 3000.
—Обход антибот-защиты доступен только в платной версии; open-source-вариант на AGPL-3.0 работает лишь с незащищёнными сайтами.

Глоссарий · 6 терминов▾

LLM-агент: Языковая модель, которой дан доступ к инструментам — браузеру, терминалу, файлам — и которая самостоятельно выбирает, какой инструмент использовать для выполнения задачи.
MCP-сервер: Model Context Protocol — стандарт Anthropic для подключения внешних инструментов к Claude; сервер по этому протоколу расширяет возможности агента без изменения его кода.
Headless-браузер: Браузер без графического интерфейса, который исполняет JavaScript и рендерит страницы так же, как обычный браузер, но управляется программно.
Антибот-защита: Набор технических мер на стороне сайта — капчи, анализ поведения, блокировка по IP — направленных на предотвращение автоматического сбора данных.
AGPL-3.0: Лицензия open-source, требующая публиковать исходный код любого продукта, который использует или распространяет лицензированное ПО, включая сетевые сервисы.
Markdown: Текстовый формат с минимальной разметкой — заголовки через #, жирный через **, ссылки в скобках — который языковые модели обрабатывают эффективнее, чем HTML.

Когда просишь Claude Code собрать данные с реального сайта, сценарий часто один: агент бодро берётся за задачу, уходит по соседним ссылкам, натыкается на антибот-защиту и возвращает либо пустой результат, либо несколько килобайт HTML с крупицей нужного контента. Токены потрачены, задача не выполнена.

Проблема не в агенте — она архитектурная. Claude Code хорошо работает с кодом, файлами и терминалом, но встроенный веб-поиск рассчитан на простые статичные страницы. Стоит зайти на сайт с динамическим контентом, пагинацией или серьёзной защитой — у Amazon, Ozon, LinkedIn, SimilarWeb — и инструмент пасует. Эти компании защищают данные не только от ботов: иногда живой пользователь проходит через три капчи.

Режим	Суть	Когда нужен
Scrape	Одна страница → Markdown/JSON	Конкретный URL
Batch Scrape	Пачка URL параллельно	Есть список страниц
Crawl	Обход сайта по ссылкам	Нужен весь сайт или раздел
Search	Поиск + скрапинг результатов	Найти и получить контент за один запрос
Map	Карта URL сайта	Разведка перед crawl
Extract	Данные в JSON по схеме	Цены, вакансии, контакты
Agent	Сам выбирает инструмент	Сложная задача, неясно с чего начать
Interact	Chromium, клики, действия	Пагинация, "Загрузить ещё", формы

Стандартные альтернативы имеют свою цену. curl не исполняет JavaScript, поэтому на JS-тяжёлых страницах данных просто не будет. Playwright и Puppeteer работают, но требуют отдельного скрипта под каждый сайт — при таком подходе агент превращается в среду выполнения, а не помощника. Платформы вроде ScraperAPI или Apify решают задачу промышленно, но стоят от $99 в месяц и требуют отдельной интеграции.

Firecrawl рендерит JavaScript, обходит защиты и отдаёт агенту чистый Markdown или JSON вместо HTML-мусора.

Типо ClaudeCode который пробирается через тонны мусора и частичка успешных данных. · Источник: Habr AI

Firecrawl занимает нишу между этими крайностями. Принцип простой: даёшь URL — получаешь чистый Markdown или структурированный JSON. Между этими двумя точками сервис рендерит JavaScript, обрабатывает динамический контент и убирает разметочный шум. Проект набрал больше 110 000 звёзд на GitHub и позиционирует себя как «Web Data API for AI». В той же нише работает Jina Reader, но Firecrawl сейчас считается более зрелым решением.

Инструмент предлагает восемь режимов работы. Scrape забирает одну страницу, Batch Scrape — список URL параллельно, Crawl обходит сайт по ссылкам, Search ищет и скрапит за один запрос, Map строит карту URL перед обходом, Extract вытаскивает структурированные данные по схеме, Agent сам выбирает инструменты для сложных задач, Interact управляет Chromium для кликов и форм. Для большинства задач достаточно Scrape и Extract.

Подключить Firecrawl к Claude Code проще всего через официальный плагин одной командой: /plugin install firecrawl@claude-plugins-official. После перезапуска агента и настройки API-ключа через /firecrawl:setup появляются нативные slash-команды. Альтернативный путь — попросить Claude настроить MCP-сервер вручную, передав ему ссылку на документацию и указав, что ключ лежит в .env. Третий вариант — CLI через npx skills add.

Кредитная система устроена нелинейно, и это важно понимать до оплаты. Scrape одной страницы стоит 1 кредит, Crawl — 2 кредита за страницу, Extract — 5 кредитов за страницу, Agent — переменная стоимость в зависимости от сложности. Типичный пайплайн «обойти сайт и извлечь структурированные данные» обходится в 7 кредитов на страницу. На Hobby-плане за $16 в месяц это означает около 400 страниц, а не 3000, как следует из названия тарифа.

Open-source-версия на AGPL-3.0 разворачивается через Docker бесплатно, но лишена проприетарного обходчика антибот-защиты — он доступен только в платной версии. Для документации, блогов и новостных сайтов без агрессивной защиты self-hosted вариант работает. Для Ozon или LinkedIn — нет. Лицензия AGPL-3.0 также накладывает ограничения при использовании в коммерческих продуктах.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Читать также

Habr AI·4 часа назад

Норны из Creatures: как британский программист-самоучка строил искусственную жизнь в 90-х

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Россия

CNews·8 часов назад

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска

Стартапы

RB.ru·2 дня назад

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска

Продолжить по разделам