Когда просишь Claude Code собрать данные с реального сайта, сценарий часто один: агент бодро берётся за задачу, уходит по соседним ссылкам, натыкается на антибот-защиту и возвращает либо пустой результат, либо несколько килобайт HTML с крупицей нужного контента. Токены потрачены, задача не выполнена.
Проблема не в агенте — она архитектурная. Claude Code хорошо работает с кодом, файлами и терминалом, но встроенный веб-поиск рассчитан на простые статичные страницы. Стоит зайти на сайт с динамическим контентом, пагинацией или серьёзной защитой — у Amazon, Ozon, LinkedIn, SimilarWeb — и инструмент пасует. Эти компании защищают данные не только от ботов: иногда живой пользователь проходит через три капчи.
| Режим | Суть | Когда нужен |
|---|---|---|
| Scrape | Одна страница → Markdown/JSON | Конкретный URL |
| Batch Scrape | Пачка URL параллельно | Есть список страниц |
| Crawl | Обход сайта по ссылкам | Нужен весь сайт или раздел |
| Search | Поиск + скрапинг результатов | Найти и получить контент за один запрос |
| Map | Карта URL сайта | Разведка перед crawl |
| Extract | Данные в JSON по схеме | Цены, вакансии, контакты |
| Agent | Сам выбирает инструмент | Сложная задача, неясно с чего начать |
| Interact | Chromium, клики, действия | Пагинация, "Загрузить ещё", формы |
Стандартные альтернативы имеют свою цену. curl не исполняет JavaScript, поэтому на JS-тяжёлых страницах данных просто не будет. Playwright и Puppeteer работают, но требуют отдельного скрипта под каждый сайт — при таком подходе агент превращается в среду выполнения, а не помощника. Платформы вроде ScraperAPI или Apify решают задачу промышленно, но стоят от $99 в месяц и требуют отдельной интеграции.
Firecrawl рендерит JavaScript, обходит защиты и отдаёт агенту чистый Markdown или JSON вместо HTML-мусора.

Firecrawl занимает нишу между этими крайностями. Принцип простой: даёшь URL — получаешь чистый Markdown или структурированный JSON. Между этими двумя точками сервис рендерит JavaScript, обрабатывает динамический контент и убирает разметочный шум. Проект набрал больше 110 000 звёзд на GitHub и позиционирует себя как «Web Data API for AI». В той же нише работает Jina Reader, но Firecrawl сейчас считается более зрелым решением.
Инструмент предлагает восемь режимов работы. Scrape забирает одну страницу, Batch Scrape — список URL параллельно, Crawl обходит сайт по ссылкам, Search ищет и скрапит за один запрос, Map строит карту URL перед обходом, Extract вытаскивает структурированные данные по схеме, Agent сам выбирает инструменты для сложных задач, Interact управляет Chromium для кликов и форм. Для большинства задач достаточно Scrape и Extract.
Подключить Firecrawl к Claude Code проще всего через официальный плагин одной командой: /plugin install firecrawl@claude-plugins-official. После перезапуска агента и настройки API-ключа через /firecrawl:setup появляются нативные slash-команды. Альтернативный путь — попросить Claude настроить MCP-сервер вручную, передав ему ссылку на документацию и указав, что ключ лежит в .env. Третий вариант — CLI через npx skills add.
Кредитная система устроена нелинейно, и это важно понимать до оплаты. Scrape одной страницы стоит 1 кредит, Crawl — 2 кредита за страницу, Extract — 5 кредитов за страницу, Agent — переменная стоимость в зависимости от сложности. Типичный пайплайн «обойти сайт и извлечь структурированные данные» обходится в 7 кредитов на страницу. На Hobby-плане за $16 в месяц это означает около 400 страниц, а не 3000, как следует из названия тарифа.
Open-source-версия на AGPL-3.0 разворачивается через Docker бесплатно, но лишена проприетарного обходчика антибот-защиты — он доступен только в платной версии. Для документации, блогов и новостных сайтов без агрессивной защиты self-hosted вариант работает. Для Ozon или LinkedIn — нет. Лицензия AGPL-3.0 также накладывает ограничения при использовании в коммерческих продуктах.

