Зачем нужен InfiniBand в GPU кластере?

InfiniBand NDR обеспечивает 400 Gbps с задержкой менее 1 мкс между нодами. Для распределённого обучения LLM это критично: Ethernet 100GbE даёт в 4 раза меньшую пропускную способность и на порядок большую задержку. При обучении на 32+ GPU разница в скорости обучения может достигать 40-60%.

Какое охлаждение нужно для GPU кластера?

Один сервер 8×H100 потребляет 10-12 кВт. Кластер из 16 таких серверов — 160-200 кВт. Воздушное охлаждение работает до плотности 20-25 кВт на стойку. Выше — нужно жидкостное охлаждение (direct-to-chip или immersion). Для B200 (1000W на GPU) жидкостное охлаждение практически обязательно.

Какой оркестратор использовать: Slurm или Kubernetes?

Slurm — стандарт для HPC и обучения моделей. Оптимален для batch-задач, поддерживает GPU scheduling из коробки, зрелая экосистема. Kubernetes — для инференса и микросервисов, лучше масштабируется для API-сервисов. Многие организации используют оба: Slurm для обучения, K8s для деплоя.

Сколько времени занимает развертывание GPU кластера?

Проектирование: 2-4 недели. Заказ и поставка серверов: 4-12 недель (зависит от наличия GPU). Инсталляция и коммутация: 1-2 недели. Настройка ПО и тестирование: 1-2 недели. Итого: 2-5 месяцев. Мы можем ускорить до 6-8 недель при наличии серверов на складе.

ИНФРАСТРУКТУРА

GPU КЛАСТЕР
ДЛЯ ДАТА-ЦЕНТРА: ПРОЕКТИРОВАНИЕ И СТОИМОСТЬ

Как спроектировать и построить GPU кластер для обучения AI-моделей и HPC. Архитектура, InfiniBand, охлаждение, оркестрация и реальная стоимость в Казахстане.

1 марта 2026

14 мин чтения

Динара Сагинтаева, CTO

Содержание

ОСНОВЫ

Что такое
GPU кластер

GPU кластер — это группа GPU серверов, объединённых высокоскоростной сетью для совместного выполнения вычислений. Если один сервер с 8× H100 позволяет обучить модель 70B параметров, то кластер из 16 таких серверов (128 GPU) способен обучить модель масштаба GPT-4.

Ключевое отличие кластера от набора отдельных серверов — сетевой интерконнект. GPU в разных серверах обмениваются данными (градиенты, активации) с минимальной задержкой, работая как единая вычислительная система. Для этого используется InfiniBand или высокоскоростной Ethernet.

Три основных сценария для GPU кластеров: pre-training LLM (модели от 70B параметров), высокопроизводительные вычисления (климатические модели, молекулярная динамика, CFD) и масштабируемый инференс (обслуживание тысяч запросов в секунду).

32 GPU

Минимальный кластер

4 ноды × 8 GPU. Обучение моделей до 130B. Хороший старт для AI-лаборатории.

128 GPU

Средний кластер

16 нод × 8 GPU. Pre-training моделей 200B+. Корпоративный стандарт для серьёзного AI.

1000+ GPU

Суперкластер

125+ нод. Обучение frontier-моделей. Уровень OpenAI, Google, национальных AI-программ.

АРХИТЕКТУРА

Архитектура
GPU кластера

Типовая архитектура GPU кластера состоит из четырёх уровней: compute, network, storage и management.

Compute Layer (вычислительные ноды)

Каждая нода — полноценный GPU сервер: 8× GPU (H100/H200/B200), 2× CPU (EPYC/Xeon), 1-2 TB RAM, 4-16 TB NVMe. Ноды идентичны для упрощения управления и scheduling. Стандартный форм-фактор: 4U-8U для воздушного охлаждения, 2U для жидкостного.

Network Layer (сеть)

Два независимых контура: compute network (InfiniBand NDR 400 Gbps для GPU-to-GPU) и management network (Ethernet 25GbE для управления, мониторинга, PXE boot). Топология: fat-tree или rail-optimized для минимизации hop count.

Storage Layer (хранилище)

Параллельная файловая система (Lustre, GPFS, WekaFS) с совокупной пропускной способностью от 100 GB/s. Для кластера на 128 GPU нужно минимум 200 TB быстрого хранилища + 1 PB+ для архивных данных. Тёплое хранилище на NVMe, холодное — на HDD.

Management Layer (управление)

Head node(s) для Slurm/K8s master, мониторинг (Prometheus + Grafana), DCGM для GPU-метрик, BMC/IPMI для out-of-band управления, DNS, NTP, LDAP. Отдельные ноды для login и компиляции — чтобы не нагружать compute-ноды.

СЕТЬ

InfiniBand vs
Ethernet

Сеть — второй по важности компонент после GPU. Неправильный выбор может снизить производительность кластера на 40-60%.

Параметр	InfiniBand NDR	Ethernet 400GbE
Bandwidth	400 Gbps	400 Gbps
Задержка	0.5-1 мкс	5-10 мкс
RDMA	Нативный	RoCE v2 (настройка)
GPU Direct	Полная поддержка	Ограниченная
Стоимость (16 нод)	~60-80 млн ₸	~30-40 млн ₸
Для кого	Обучение LLM, HPC	Инференс, бюджет

Рекомендация: InfiniBand — обязателен для обучения. 10x разница в задержке напрямую влияет на скорость gradient synchronization при distributed training. Для кластеров под инференс можно рассмотреть Ethernet 400GbE как более экономичную альтернативу.

ИНЖЕНЕРИЯ

Охлаждение и
электропитание

Охлаждение — самый недооценённый аспект GPU кластера. Ошибка здесь приводит к троттлингу, снижению производительности и выходу оборудования из строя.

Воздушное охлаждение

Работает при плотности до 20-25 кВт на стойку. Для серверов 8×H100 (10-12 кВт) — одна стойка на 1-2 сервера. Требует hot/cold aisle containment и мощные CRAC. PUE: 1.4-1.6.

Подходит для: H100, H200 (до 8 нод)

Жидкостное охлаждение

Обязательно при плотности выше 25 кВт на стойку. Direct-to-chip (DLC) или полное погружение (immersion). Позволяет 60-80 кВт+ на стойку. PUE: 1.1-1.2. На 20-30% дороже на старте, но экономит на электричестве.

Обязательно для: B200, крупные кластеры (16+ нод)

Питание: Кластер из 16 нод × 8 H100 потребляет 160-200 кВт. С учётом охлаждения (PUE 1.4) — до 280 кВт. Для B200 — умножайте на 1.4x. Нужны резервные источники (UPS, генератор), двойное подключение к электросети. Стоимость электричества в Казахстане — одна из самых низких в регионе: 15-25 ₸/кВт·ч для дата-центров.

ПО

Оркестрация:
Slurm и Kubernetes

Программный стек для управления GPU кластером: планировщик задач, мониторинг, контейнеризация.

Slurm

Стандарт для HPC и обучения AI. Batch scheduling, поддержка GPU из коробки (GRES), интеграция с MPI. Используется в 90% суперкомпьютеров мира.

Идеален для обучения
Multi-GPU, multi-node jobs
Fair-share scheduling

Kubernetes + GPU Operator

Лучше для инференса и ML-платформ. NVIDIA GPU Operator автоматизирует драйверы, CUDA, мониторинг. Интеграция с KubeFlow, Triton, vLLM.

Идеален для инференса
Автоскейлинг
CI/CD для ML-пайплайнов

Совет: Не выбирайте между Slurm и K8s — используйте оба. Slurm для обучения (batch, multi-node), K8s для инференса (API, автоскейлинг). Разделите кластер на пулы или используйте разные ноды для разных задач.

БЮДЖЕТ

Стоимость
GPU кластера

Реальные цены на GPU кластеры разного масштаба в Казахстане.

Компонент	4 ноды (32 GPU)	16 нод (128 GPU)
Серверы (8×H100)	536 млн ₸	2 144 млн ₸
InfiniBand NDR	24 млн ₸	72 млн ₸
Хранилище (Lustre)	14 млн ₸	48 млн ₸
Management ноды	4.8 млн ₸	9.6 млн ₸
Стойки, PDU, кабели	7.2 млн ₸	24 млн ₸
Инсталляция и настройка	4.8 млн ₸	14.4 млн ₸
ИТОГО	~591 млн ₸	~2 312 млн ₸

* На базе H100 SXM. Для H200 добавить ~25%, для B200 ~60%. Без стоимости помещения и охлаждения ДЦ.

GPU кластер — это не просто много серверов. Это инженерная система, где сеть, охлаждение и софт так же важны, как сами GPU. Мы видели кластеры за миллиард тенге, которые работали на 40% мощности из-за неправильной сетевой топологии.

ДС

Динара Сагинтаева

CTO, GPU Server Kazakhstan

FAQ

Частые вопросы
о GPU кластерах

Ответы на популярные вопросы о проектировании и стоимости GPU кластеров.

Задать вопрос

Минимальный GPU кластер (4 ноды × 8 H100 = 32 GPU) стоит от 600 млн ₸ включая серверы, InfiniBand-сеть, хранилище и инсталляцию. Кластер средней мощности (16 нод × 8 H100 = 128 GPU) — от 2.3 млрд ₸.

InfiniBand NDR обеспечивает 400 Gbps с задержкой менее 1 мкс между нодами. Для распределённого обучения LLM это критично: при обучении на 32+ GPU разница в скорости обучения может достигать 40-60% по сравнению с Ethernet.

Один сервер 8×H100 потребляет 10-12 кВт. Воздушное охлаждение работает до 20-25 кВт на стойку. Выше — нужно жидкостное (DLC или immersion). Для B200 (1000W на GPU) жидкостное охлаждение практически обязательно.

Slurm — для обучения (batch, multi-node). Kubernetes — для инференса (API, автоскейлинг). Оптимально — оба, с разделением по пулам.

Проектирование: 2-4 недели. Поставка серверов: 4-12 недель. Инсталляция: 1-2 недели. Настройка ПО: 1-2 недели. Итого: 2-5 месяцев. Мы можем ускорить до 6-8 недель при наличии серверов на складе.

Проектируем GPU кластер под ваши задачи

От архитектуры до ввода в эксплуатацию. Бесплатная консультация и предварительный расчёт — за 3 рабочих дня.

Получить предложение +7 (777) 386-38-88

или напишите в WhatsApp

GPU КЛАСТЕР
ДЛЯ ДАТА-ЦЕНТРА: ПРОЕКТИРОВАНИЕ И СТОИМОСТЬ

Содержание

Что такое
GPU кластер

Архитектура
GPU кластера

Compute Layer (вычислительные ноды)

Network Layer (сеть)

Storage Layer (хранилище)

Management Layer (управление)

InfiniBand vs
Ethernet

Охлаждение и
электропитание

Воздушное охлаждение

Жидкостное охлаждение

Оркестрация:
Slurm и Kubernetes

Slurm

Kubernetes + GPU Operator

Стоимость
GPU кластера

Частые вопросы
о GPU кластерах

Читайте также

Как выбрать GPU сервер

H100 vs H200 vs B200

Стоимость GPU сервера

Обучение AI

Проектируем GPU кластер под ваши задачи

GPU Server Kazakhstan

Свяжитесь с нами

GPU КЛАСТЕРДЛЯ ДАТА-ЦЕНТРА: ПРОЕКТИРОВАНИЕ И СТОИМОСТЬ

Содержание

Что такоеGPU кластер

АрхитектураGPU кластера

Compute Layer (вычислительные ноды)

Network Layer (сеть)

Storage Layer (хранилище)

Management Layer (управление)

InfiniBand vsEthernet

Охлаждение иэлектропитание

Воздушное охлаждение

Жидкостное охлаждение

Оркестрация:Slurm и Kubernetes

Slurm

Kubernetes + GPU Operator

СтоимостьGPU кластера

Частые вопросыо GPU кластерах

Читайте также

Как выбрать GPU сервер

H100 vs H200 vs B200

Стоимость GPU сервера

Обучение AI

Проектируем GPU кластер под ваши задачи

GPU Server Kazakhstan

Свяжитесь с нами

GPU КЛАСТЕР
ДЛЯ ДАТА-ЦЕНТРА: ПРОЕКТИРОВАНИЕ И СТОИМОСТЬ

Что такое
GPU кластер

Архитектура
GPU кластера

InfiniBand vs
Ethernet

Охлаждение и
электропитание

Оркестрация:
Slurm и Kubernetes

Стоимость
GPU кластера

Частые вопросы
о GPU кластерах