Когда просишь Claude Code собрать данные с реального сайта, сценарий часто один: агент бодро берётся за задачу, уходит по соседним ссылкам, натыкается на антибот-защиту и возвращает либо пустой результат, либо несколько килобайт HTML с крупицей нужного контента. Токены потрачены, задача не выполнена.

Проблема не в агенте — она архитектурная. Claude Code хорошо работает с кодом, файлами и терминалом, но встроенный веб-поиск рассчитан на простые статичные страницы. Стоит зайти на сайт с динамическим контентом, пагинацией или серьёзной защитой — у Amazon, Ozon, LinkedIn, SimilarWeb — и инструмент пасует. Эти компании защищают данные не только от ботов: иногда живой пользователь проходит через три капчи.

РежимСутьКогда нужен
ScrapeОдна страница → Markdown/JSONКонкретный URL
Batch ScrapeПачка URL параллельноЕсть список страниц
CrawlОбход сайта по ссылкамНужен весь сайт или раздел
SearchПоиск + скрапинг результатовНайти и получить контент за один запрос
MapКарта URL сайтаРазведка перед crawl
ExtractДанные в JSON по схемеЦены, вакансии, контакты
AgentСам выбирает инструментСложная задача, неясно с чего начать
InteractChromium, клики, действияПагинация, "Загрузить ещё", формы

Стандартные альтернативы имеют свою цену. curl не исполняет JavaScript, поэтому на JS-тяжёлых страницах данных просто не будет. Playwright и Puppeteer работают, но требуют отдельного скрипта под каждый сайт — при таком подходе агент превращается в среду выполнения, а не помощника. Платформы вроде ScraperAPI или Apify решают задачу промышленно, но стоят от $99 в месяц и требуют отдельной интеграции.

Firecrawl рендерит JavaScript, обходит защиты и отдаёт агенту чистый Markdown или JSON вместо HTML-мусора.

Типо ClaudeCode который пробирается через тонны мусора и частичка успешных данных.
Типо ClaudeCode который пробирается через тонны мусора и частичка успешных данных. · Источник: Habr AI

Firecrawl занимает нишу между этими крайностями. Принцип простой: даёшь URL — получаешь чистый Markdown или структурированный JSON. Между этими двумя точками сервис рендерит JavaScript, обрабатывает динамический контент и убирает разметочный шум. Проект набрал больше 110 000 звёзд на GitHub и позиционирует себя как «Web Data API for AI». В той же нише работает Jina Reader, но Firecrawl сейчас считается более зрелым решением.

Инструмент предлагает восемь режимов работы. Scrape забирает одну страницу, Batch Scrape — список URL параллельно, Crawl обходит сайт по ссылкам, Search ищет и скрапит за один запрос, Map строит карту URL перед обходом, Extract вытаскивает структурированные данные по схеме, Agent сам выбирает инструменты для сложных задач, Interact управляет Chromium для кликов и форм. Для большинства задач достаточно Scrape и Extract.

Подключить Firecrawl к Claude Code проще всего через официальный плагин одной командой: /plugin install firecrawl@claude-plugins-official. После перезапуска агента и настройки API-ключа через /firecrawl:setup появляются нативные slash-команды. Альтернативный путь — попросить Claude настроить MCP-сервер вручную, передав ему ссылку на документацию и указав, что ключ лежит в .env. Третий вариант — CLI через npx skills add.

Кредитная система устроена нелинейно, и это важно понимать до оплаты. Scrape одной страницы стоит 1 кредит, Crawl — 2 кредита за страницу, Extract — 5 кредитов за страницу, Agent — переменная стоимость в зависимости от сложности. Типичный пайплайн «обойти сайт и извлечь структурированные данные» обходится в 7 кредитов на страницу. На Hobby-плане за $16 в месяц это означает около 400 страниц, а не 3000, как следует из названия тарифа.

Open-source-версия на AGPL-3.0 разворачивается через Docker бесплатно, но лишена проприетарного обходчика антибот-защиты — он доступен только в платной версии. Для документации, блогов и новостных сайтов без агрессивной защиты self-hosted вариант работает. Для Ozon или LinkedIn — нет. Лицензия AGPL-3.0 также накладывает ограничения при использовании в коммерческих продуктах.