Сквозная аналитика для B2C за две недели: Google Sheets, Python и Claude Code

Подготовлено редакцией Malakhov AI

Habr Startups·15 июн.·3 минСтартапыРоссия

Разработчик собрал MVP сквозной аналитики для B2C-продукта за две недели, используя Claude Code, Google Sheets и Python — без Kafka, Airflow и хранилища данных. Связка трёх источников (Яндекс.Директ, Метрика, биллинг) дала замкнутый контур «клик → деньги», но честная атрибуция потребовала ещё нескольких месяцев.

Кратко

—MVP из трёх источников (реклама, веб-аналитика, биллинг) собирается за ~две недели без тяжёлой инфраструктуры.
—Claude Code ускорил написание кода примерно в пять раз, но архитектуру атрибуции LLM не заменяет.
—Google Sheets используется как витрина данных: ноль инфраструктуры, бесплатный UI, но без транзакций и типов.
—Фаззи-резолвинг namespace спасает там, где до 70% кампаний не имеют UTM-меток — только название.
—Идемпотентный upsert по стабильному ключу — ключевой паттерн против дублей при инкрементальном сборе.

Глоссарий · 7 терминов▾

Сквозная аналитика: Система, связывающая рекламный клик с конкретной оплатой и выручкой через единую воронку данных.
ROMI: Return on Marketing Investment — коэффициент возврата инвестиций в маркетинг: сколько выручки принёс каждый рубль рекламного бюджета.
ETL: Extract, Transform, Load — процесс извлечения данных из источников, их преобразования и загрузки в хранилище или витрину.
Идемпотентный upsert: Операция обновления данных, при которой повторный запуск с теми же данными не создаёт дублей — новая запись перезаписывает старую по ключу.
Фаззи-матч (fuzzy matching): Нечёткое сравнение строк, позволяющее находить совпадения даже при опечатках или незначительных различиях в написании.
Namespace: Пространство имён — набор идентификаторов в одной системе; проблема возникает, когда один объект имеет разные имена в разных системах.
LLM: Large Language Model — большая языковая модель, тип нейросети, обученной на текстах и способной генерировать код, текст и ответы на вопросы.

Сквозная аналитика — это попытка проследить путь денег от рекламного клика до оплаты. Звучит как стандартная задача, но на практике данные живут в пяти разных кабинетах, каждый из которых отвечает только на часть вопроса. Рекламный кабинет знает расход, веб-аналитика — визиты, биллинг — оплаты, и ни один из них не знает про остальные.

Автор кейса, опубликованного на Habr, собрал минимальный рабочий вариант за две недели. Ядро — три источника: Яндекс.Директ (расход и клики), Яндекс.Метрика (трафик как опережающий сигнал, не абсолютные цифры) и собственный биллинг с UTM-привязкой оплат. Поверх — Python с pandas в роли ETL, Google Sheets как витрина и BI-дашборд. Оркестратор — cron. Никаких Kafka, Airflow или облачного хранилища данных: на старте они только замедляют.

Источник	Что даёт	Ограничение
Яндекс.Директ	Расход, клики, показы, CTR, CPC по кампаниям	Конверсии — внутренние цели кабинета, не реальные оплаты
Яндекс.Метрика	Источники трафика, динамика визитов	Погрешность, нет данных о деньгах, только опережающий сигнал
Биллинг (своя БД)	Оплаты с UTM-привязкой, выручка	Не знает, из какой рекламы пришёл пользователь

Самое спорное решение в архитектуре — Google Sheets вместо базы данных. Каждый Python-модуль собирает один лист: build_channel_spend.py пишет расходы по каналам, build_leads.py — лиды. Лист работает как материализованное представление: все джойны делаются в pandas в памяти, в таблицу попадает уже готовый результат. Плюсы очевидны: сервис-аккаунт, библиотека gspread, и через десять минут данные уже пишутся. Маркетолог видит их без SQL. Минусы тоже реальны: API отдаёт ошибки 429 и 503 на пиках, числа читаются строками, дат нет как типа — каждый загрузчик приводит типы сам. Когда Sheets перестал тянуть на этапе BI с прямым коннектором, схему перенесли в Postgres — но к тому моменту она уже была отлажена, и перенос оказался механическим.

Claude Code ускорил написание кода примерно в пять раз, но архитектуру атрибуции LLM не заменяет.

Ключевой паттерн против дублей при инкрементальном сборе — идемпотентный upsert по стабильному ключу. Автор споткнулся здесь: в качестве ключа для рекламного объявления взял слаг плюс заголовок плюс дату. Часть креативов совпадала по заголовку и минуте создания — upsert схлопывал разные объявления в одно. Лечение простое: ключ должен быть идентификатором из самой системы, а не «вроде бы уникальной» комбинацией полей.

Claude Code дал, по оценке автора, ускорение примерно в пять раз на рутинных задачах: разведка незнакомых API, написание ETL, парсинг, тесты, бойлерплейт. Но там, где нужно принимать продуктовые решения, LLM скорее мешает: его скорость генерации кода опережает скорость осмысления задачи. Атрибуцию, определение сущности «лид» и логику резолвинга namespace разработчик строил сам.

Namespace-ад — отдельная история. «Продукт» в системе живёт в трёх несводимых пространствах: слаг лендинга в URL, utm_campaign в ссылке объявления и идентификатор в биллинге. Маркетолог пишет UTM-метки как привык, лендинг живёт своей жизнью, биллинг — третьей. Решение — приоритетный резолвер: сначала официальная карта utm → продукт, потом слаг посадочной, потом фаззи-матч по имени кампании. Третий шаг критичен: в одном рекламном источнике до 70% кампаний оказались лид-формами без ссылки на сайт — у них нет ни UTM, ни landing-slug, только название. Дополнительная деталь: универсальная нормализация строк убивала символы ++ и #, и C++ склеивался с C# — реальный баг на 200 с лишним объявлениях.

Дедупликация лидов — ещё одно продуктовое решение, которое нельзя делегировать инструменту. Один человек мог оставить заявку, заказать обратный звонок и записаться на вебинар — это один лид или три? Договорились считать по формуле «человек × продукт = один лид» с приоритетной категорией. Без дедупа воронки завышены кратно. Технически это обычный groupby, но определение сущности — решение команды, а не алгоритма.

В итоге MVP, который «собирается за две недели», на практике превратился в несколько месяцев работы — именно из-за атрибуции, namespace-резолвинга и честного определения метрик. Кейс честно разделяет две части: что просто и быстро, и где начинается настоящая сложность аналитической системы.

Разобраться глубже

Как выбрать первый ИИ-проект в бизнесе: скоринг и 12 кандидатов

Как выбрать первый ИИ-проект в бизнесе: семь критериев со взвешенным скорингом (повторяемость, метрика, данные, владелец, цена ошибки, сложность, регуляторика), оценка 12 типовых сценариев и кейс решения в дистрибьюторской компании.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Сквозная аналитика для B2C за две недели: Google Sheets, Python и Claude Code

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента