
Три поколения дата-центровых GPU от NVIDIA: Hopper H100, H200 и Blackwell B200. Разбираем характеристики, производительность и ценообразование для AI и HPC в Казахстане.
Таблица характеристик
H100 vs H200 vs B200
Три поколения GPU для дата-центров. Каждое следующее — шаг вперёд по памяти, вычислительной мощности и энергоэффективности.
| Параметр | H100 SXM | H200 SXM | B200 |
|---|---|---|---|
| Архитектура | Hopper | Hopper | Blackwell |
| VRAM | 80 GB HBM3 | 141 GB HBM3e | 192 GB HBM3e |
| Bandwidth | 3.35 TB/s | 4.8 TB/s | 8.0 TB/s |
| FP8 TFLOPS | 3 958 | 3 958 | 9 000 |
| FP16 TFLOPS | 1 979 | 1 979 | 4 500 |
| TDP | 700W | 700W | 1 000W |
| Interconnect | NVLink 4.0 (900 GB/s) | NVLink 4.0 (900 GB/s) | NVLink 5.0 (1 800 GB/s) |
| Transformer Engine | 1-е поколение | 1-е поколение | 2-е поколение |
* Спецификации SXM-версий для дата-центров. PCIe-версии имеют сниженные характеристики.
Память и
пропускная способность
VRAM и memory bandwidth — два параметра, которые чаще всего определяют выбор GPU. Разница между поколениями здесь максимальна.
Главное различие между H100 и H200 — в памяти. Вычислительные ядра у них идентичны (GH100), но H200 получил 141 GB HBM3e вместо 80 GB HBM3, а пропускная способность выросла с 3.35 до 4.8 TB/s. Это +76% объёма и +43% bandwidth.
На практике это значит: модель Llama 3 70B, которая на H100 требует минимум 2 GPU (по 80 GB каждый), на H200 помещается на одну карту в FP8 квантизации. Меньше GPU = меньше коммуникационных накладных, проще архитектура.
B200 делает ещё один рывок: 192 GB HBM3e с пропускной способностью 8.0 TB/s. Модели 100B+ параметров помещаются на одну карту. А NVLink 5.0 удваивает скорость inter-GPU коммуникации до 1.8 TB/s, что критично для обучения на 8 GPU.
H100
- Модели до 30B (FP16)
- Модели до 70B (FP8/INT8)
- Fine-tuning 13B (full)
H200
- Модели до 70B (FP16)
- Модели до 130B (FP8)
- Fine-tuning 70B (full)
B200
- Модели до 90B (FP16)
- Модели до 180B (FP8)
- Pre-training 100B+
Производительность
в задачах AI
Реальная производительность зависит не только от TFLOPS, но и от memory bandwidth, размера кэша и оптимизации Transformer Engine.
| Задача | H100 (базис) | H200 | B200 |
|---|---|---|---|
| Обучение LLM 70B | 1.0x | 1.2x | 2.2x |
| Инференс Llama 3 70B | 1.0x | 1.45x | 2.5x |
| Stable Diffusion XL | 1.0x | 1.1x | 2.0x |
| GPT-4 level pre-training | 1.0x | 1.15x | 2.4x |
| FLOPS/ватт | 1.0x | 1.0x | 1.6x |
* Относительная производительность на 8-GPU сервере. Данные NVIDIA + внутренние тесты, февраль 2026.
H200 vs H100: ключевое преимущество H200 — в задачах, ограниченных памятью (memory-bound). Инференс больших моделей ускоряется до 1.45x благодаря более быстрой HBM3e. Для compute-bound задач (обучение с маленькими моделями) разница минимальна, так как ядра идентичны.
B200 vs H200: Blackwell — это новая архитектура с удвоенным числом вычислительных блоков и 2-м поколением Transformer Engine. B200 показывает 2-2.5x ускорение практически во всех задачах при росте TDP лишь на 43% (1000W vs 700W). Энергоэффективность выросла на 60%.
Цены и
окупаемость
Стоимость GPU — лишь часть TCO. Считаем полную стоимость владения с учётом энергопотребления и производительности.
| Конфигурация | 8x H100 | 8x H200 | 8x B200 |
|---|---|---|---|
| Стоимость сервера | от 134 млн ₸ | от 168 млн ₸ | от 216 млн ₸ |
| Электричество / мес | ~300 000 ₸ | ~300 000 ₸ | ~430 000 ₸ |
| Производительность | Базис | +20-45% | +100-150% |
| Цена за TFLOPS FP8 | 4 240 ₸ | 5 310 ₸ | 3 000 ₸ |
* Цены ориентировочные на март 2026. Зависят от объёма заказа и конфигурации.
Вывод: По цене за TFLOPS B200 выигрывает у обоих предшественников. Но при ограниченном бюджете H100 остаётся отличным выбором — проверенная архитектура, зрелая экосистема и самая низкая стартовая цена. H200 оптимален когда нужно максимум VRAM при том же TDP.
Какой GPU
для какой задачи
Конкретные рекомендации по выбору GPU в зависимости от вашего workload.
Обучение LLM (fine-tuning / pre-training)
Для fine-tuning моделей до 70B — H100 (оптимальная цена, зрелые инструменты). Для pre-training моделей 100B+ или когда нужна максимальная скорость — B200. H200 — если VRAM H100 не хватает, но бюджет на B200 не позволяет.
Инференс (продакшен)
Инференс ограничен memory bandwidth — здесь H200 показывает лучший баланс цена/производительность. B200 оправдан при максимальных требованиях к throughput и задержке. Для моделей до 13B — рассмотрите L40S как экономичную альтернативу.
HPC и научные вычисления
Для молекулярной динамики, климатического моделирования и CFD — FP64 производительность имеет значение. H100 и H200 идентичны в FP64 (34 TFLOPS). B200 удваивает FP64 до ~68 TFLOPS. Если бюджет позволяет — B200, иначе H100 как проверенный стандарт.
Миграция между
поколениями GPU
Переход с одного поколения на другое — проще, чем кажется. Но есть нюансы.
H100 → H200: Самый простой переход. Физически совместимые сокеты (SXM5), тот же NVLink 4.0, идентичный софтварный стек. Можно заменить GPU в существующем сервере без замены платформы. Драйверы и CUDA совместимы.
H100/H200 → B200: Требует замены всей платформы. Новый NVLink 5.0, увеличенное энергопотребление (1000W vs 700W на карту) — нужны новые блоки питания и система охлаждения. Софтверная совместимость сохраняется через CUDA 13+, но некоторые оптимизации (FP4, 2-й Transformer Engine) требуют обновления фреймворков.
Совет: Если у вас сейчас H100, не спешите менять на H200 — прирост 20-45% может не оправдать затраты. Дождитесь B200 для следующего значительного скачка. Если покупаете новый сервер сегодня — H200 предпочтительнее H100 при разнице в цене до 25%.
H200 — это лучшее, что случилось с инференсом в 2025. На 45% быстрее H100 на больших моделях при том же TDP. Для обучения ждём B200 — там настоящая революция.
Частые вопросы
H100, H200, B200
Ответы на популярные вопросы о выборе между поколениями GPU NVIDIA.
Задать вопросH200 — это эволюция H100 с увеличенным VRAM (141 GB HBM3e vs 80 GB HBM3) и более высокой пропускной способностью памяти (4.8 TB/s vs 3.35 TB/s). Вычислительные ядра идентичны. H200 лучше для задач с большими моделями (70B+ параметров) и инференса, где ключевой фактор — объём памяти. H100 дешевле и достаточен для моделей до 70B.
B200 (Blackwell) предлагает 192 GB HBM3e, 2-е поколение Transformer Engine и вдвое выше производительность FP4/FP8 по сравнению с H200. Выбирайте B200 для pre-training моделей нового масштаба (200B+ параметров), максимальной производительности инференса и задач с горизонтом планирования 3+ года.
Ориентировочные цены за полный сервер (8 GPU) в 2026: H100 — от 134 400 000 ₸, H200 — от 168 000 000 ₸, B200 — от 216 000 000 ₸. Цена одной карты: H100 SXM — от 14 400 000 ₸, H200 SXM — от 18 000 000 ₸, B200 — от 24 000 000 ₸.
Технически H100 и H200 используют одинаковый SXM5 сокет и совместимы по NVLink 4.0. Однако разный объём VRAM усложняет tensor parallelism, а разница в bandwidth создаёт асимметрию. Используйте однородные GPU в одном сервере.
Оптимальный баланс цена/производительность — H100 или A100. A100 80GB стоит примерно вдвое дешевле H100 и покрывает 80% задач fine-tuning и инференса. H100 оправдан если вы планируете pre-training или работу с моделями 70B+. B200 — избыточен для большинства стартапов.
Нужна помощь с выбором GPU?
Наш инженер подберёт оптимальное поколение GPU под ваши задачи и бюджет. Бесплатная консультация за 2 часа.
или напишите в WhatsApp