Google представила два новых TPU восьмого поколения — отдельно для обучения и инференса

Ars Technica·22 апр.·3 минИсследования

Google анонсировала чипы TPU 8t и TPU 8i — первое в линейке разделение на специализированные ускорители для обучения и запуска ИИ-моделей. Производительность кластера TPU 8t достигает 121 EFlops в формате FP4, что почти втрое превышает показатели предыдущего поколения Ironwood.

Кратко

—TPU 8t предназначен для обучения моделей: кластер из 9600 чипов с 2 петабайтами общей памяти HBM.
—TPU 8i оптимизирован для инференса: кластер вырос с 256 до 1152 чипов, объём SRAM на чипе утроен до 384 МБ.
—Оба чипа работают исключительно с ARM-процессорами Axion собственной разработки Google — по одному CPU на два TPU.
—Google заявляет о двукратном росте производительности на ватт по сравнению с Ironwood.
—Акции Nvidia кратковременно упали на 1,5% после анонса, но быстро восстановились выше $200.

Глоссарий · 7 терминов▾

TPU (Tensor Processing Unit): Специализированный процессор Google, разработанный для ускорения матричных вычислений в задачах машинного обучения.
Инференс: Режим работы обученной нейросети, при котором она генерирует ответы на запросы пользователей — в отличие от этапа обучения.
EFlops: Экзафлопс — единица измерения вычислительной производительности, равная 10¹⁸ операций с плавающей точкой в секунду.
KV-кэш: Структура данных в трансформерных моделях, хранящая промежуточные результаты вычислений для ускорения обработки длинных текстов.
HBM (High Bandwidth Memory): Высокоскоростная память с широкой шиной данных, применяемая в ИИ-ускорителях для быстрого обмена данными между чипами.
SRAM: Статическая оперативная память, размещённая непосредственно на чипе; работает быстрее внешней памяти, но дороже в производстве.
FP4: Формат представления чисел с плавающей точкой в 4 битах; используется для ускорения вычислений при обучении ИИ-моделей за счёт снижения точности.

Google выпустила восьмое поколение своих фирменных ускорителей, разделив линейку на два специализированных чипа: TPU 8t для обучения моделей и TPU 8i для их запуска. Это отход от прежней логики, при которой один чип выполнял обе задачи. Предыдущее поколение — Ironwood — было анонсировано в 2025 году и стало седьмым в серии Tensor Processing Unit, которую Google развивает с 2016 года как альтернативу GPU-инфраструктуре Nvidia.

TPU (Tensor Processing Unit) — специализированный процессор, оптимизированный под матричные вычисления, которые лежат в основе обучения и работы нейросетей. В отличие от GPU, изначально созданных для графики и лишь адаптированных под ИИ-задачи, TPU проектировались с нуля под нужды машинного обучения. Google использует их как основу собственной облачной ИИ-инфраструктуры и предоставляет сторонним разработчикам через Google Cloud.

Тренировочный чип TPU 8t объединяется в кластеры («поды») по 9600 единиц с двумя петабайтами общей высокоскоростной памяти. Производительность одного пода — 121 EFlops в формате FP4, что в 2,8 раза выше потолка Ironwood. Google утверждает, что архитектура допускает линейное масштабирование до миллиона чипов в одном логическом кластере. Показатель «goodpute» — доля времени, когда чип реально продвигает обучение, а не простаивает из-за сбоев или неравномерного доступа к памяти, — заявлен на уровне 97%. Это достигается автоматической обработкой аппаратных сбоев и телеметрией в реальном времени по всем подключённым чипам.

TPU 8i оптимизирован для инференса: кластер вырос с 256 до 1152 чипов, объём SRAM на чипе утроен до 384 МБ.

TPU 8t chips on a board · Источник: Ars Technica

TPU 8i решает другую задачу. Инференс — режим, в котором обученная модель отвечает на запросы пользователей — требует не максимальной вычислительной мощности, а низкой задержки и эффективной работы с несколькими параллельными агентами. Кластер TPU 8i вырос с 256 чипов у Ironwood до 1152, а объём SRAM на каждом чипе утроен до 384 МБ. Больший кэш позволяет хранить на чипе расширенный KV-кэш — структуру данных, критичную для моделей с длинным контекстом. Суммарная производительность пода — 11,6 EFlops, значительно меньше, чем у TPU 8t, что отражает разную природу задач.

Оба чипа восьмого поколения первыми в линейке полностью перешли на ARM-процессоры Axion собственной разработки Google. Прежде каждый x86-процессор обслуживал четыре TPU; теперь соотношение изменилось до одного Axion на два TPU. Google называет это «полностековым» ARM-подходом и связывает с ним рост энергоэффективности: по заявлению компании, производительность на ватт удвоилась относительно Ironwood. Центры обработки данных, по словам Google, «совместно спроектированы» с чипами: интеграция сети и вычислений на одном кристалле и оптимизированная компоновка подов дали шестикратный рост вычислений на единицу потреблённой электроэнергии. Система жидкостного охлаждения четвёртого поколения адаптирована под новые чипы с активным управлением потоком воды в зависимости от нагрузки.

Оба ускорителя поддерживают стандартные фреймворки — JAX, PyTorch, MaxText, SGLang и vLLM, — что снижает порог входа для сторонних разработчиков. В перспективе TPU 8t и TPU 8i станут основой для агентов на базе Gemini. Реакция рынка оказалась сдержанной: акции Nvidia после анонса упали примерно на 1,5%, но быстро вернулись выше $200. Спрос на ИИ-ускорители за последний год более чем удвоил капитализацию Nvidia, и единичный анонс конкурента пока не меняет расстановку сил.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме