
Как спроектировать и построить GPU кластер для обучения AI-моделей и HPC. Архитектура, InfiniBand, охлаждение, оркестрация и реальная стоимость в Казахстане.
Что такое
GPU кластер
GPU кластер — это группа GPU серверов, объединённых высокоскоростной сетью для совместного выполнения вычислений. Если один сервер с 8× H100 позволяет обучить модель 70B параметров, то кластер из 16 таких серверов (128 GPU) способен обучить модель масштаба GPT-4.
Ключевое отличие кластера от набора отдельных серверов — сетевой интерконнект. GPU в разных серверах обмениваются данными (градиенты, активации) с минимальной задержкой, работая как единая вычислительная система. Для этого используется InfiniBand или высокоскоростной Ethernet.
Три основных сценария для GPU кластеров: pre-training LLM (модели от 70B параметров), высокопроизводительные вычисления (климатические модели, молекулярная динамика, CFD) и масштабируемый инференс (обслуживание тысяч запросов в секунду).
4 ноды × 8 GPU. Обучение моделей до 130B. Хороший старт для AI-лаборатории.
16 нод × 8 GPU. Pre-training моделей 200B+. Корпоративный стандарт для серьёзного AI.
125+ нод. Обучение frontier-моделей. Уровень OpenAI, Google, национальных AI-программ.
Архитектура
GPU кластера
Типовая архитектура GPU кластера состоит из четырёх уровней: compute, network, storage и management.
Compute Layer (вычислительные ноды)
Каждая нода — полноценный GPU сервер: 8× GPU (H100/H200/B200), 2× CPU (EPYC/Xeon), 1-2 TB RAM, 4-16 TB NVMe. Ноды идентичны для упрощения управления и scheduling. Стандартный форм-фактор: 4U-8U для воздушного охлаждения, 2U для жидкостного.
Network Layer (сеть)
Два независимых контура: compute network (InfiniBand NDR 400 Gbps для GPU-to-GPU) и management network (Ethernet 25GbE для управления, мониторинга, PXE boot). Топология: fat-tree или rail-optimized для минимизации hop count.
Storage Layer (хранилище)
Параллельная файловая система (Lustre, GPFS, WekaFS) с совокупной пропускной способностью от 100 GB/s. Для кластера на 128 GPU нужно минимум 200 TB быстрого хранилища + 1 PB+ для архивных данных. Тёплое хранилище на NVMe, холодное — на HDD.
Management Layer (управление)
Head node(s) для Slurm/K8s master, мониторинг (Prometheus + Grafana), DCGM для GPU-метрик, BMC/IPMI для out-of-band управления, DNS, NTP, LDAP. Отдельные ноды для login и компиляции — чтобы не нагружать compute-ноды.
InfiniBand vs
Ethernet
Сеть — второй по важности компонент после GPU. Неправильный выбор может снизить производительность кластера на 40-60%.
| Параметр | InfiniBand NDR | Ethernet 400GbE |
|---|---|---|
| Bandwidth | 400 Gbps | 400 Gbps |
| Задержка | 0.5-1 мкс | 5-10 мкс |
| RDMA | Нативный | RoCE v2 (настройка) |
| GPU Direct | Полная поддержка | Ограниченная |
| Стоимость (16 нод) | ~60-80 млн ₸ | ~30-40 млн ₸ |
| Для кого | Обучение LLM, HPC | Инференс, бюджет |
Рекомендация: InfiniBand — обязателен для обучения. 10x разница в задержке напрямую влияет на скорость gradient synchronization при distributed training. Для кластеров под инференс можно рассмотреть Ethernet 400GbE как более экономичную альтернативу.
Охлаждение и
электропитание
Охлаждение — самый недооценённый аспект GPU кластера. Ошибка здесь приводит к троттлингу, снижению производительности и выходу оборудования из строя.
Воздушное охлаждение
Работает при плотности до 20-25 кВт на стойку. Для серверов 8×H100 (10-12 кВт) — одна стойка на 1-2 сервера. Требует hot/cold aisle containment и мощные CRAC. PUE: 1.4-1.6.
Жидкостное охлаждение
Обязательно при плотности выше 25 кВт на стойку. Direct-to-chip (DLC) или полное погружение (immersion). Позволяет 60-80 кВт+ на стойку. PUE: 1.1-1.2. На 20-30% дороже на старте, но экономит на электричестве.
Питание: Кластер из 16 нод × 8 H100 потребляет 160-200 кВт. С учётом охлаждения (PUE 1.4) — до 280 кВт. Для B200 — умножайте на 1.4x. Нужны резервные источники (UPS, генератор), двойное подключение к электросети. Стоимость электричества в Казахстане — одна из самых низких в регионе: 15-25 ₸/кВт·ч для дата-центров.
Оркестрация:
Slurm и Kubernetes
Программный стек для управления GPU кластером: планировщик задач, мониторинг, контейнеризация.
Slurm
Стандарт для HPC и обучения AI. Batch scheduling, поддержка GPU из коробки (GRES), интеграция с MPI. Используется в 90% суперкомпьютеров мира.
- Идеален для обучения
- Multi-GPU, multi-node jobs
- Fair-share scheduling
Kubernetes + GPU Operator
Лучше для инференса и ML-платформ. NVIDIA GPU Operator автоматизирует драйверы, CUDA, мониторинг. Интеграция с KubeFlow, Triton, vLLM.
- Идеален для инференса
- Автоскейлинг
- CI/CD для ML-пайплайнов
Совет: Не выбирайте между Slurm и K8s — используйте оба. Slurm для обучения (batch, multi-node), K8s для инференса (API, автоскейлинг). Разделите кластер на пулы или используйте разные ноды для разных задач.
Стоимость
GPU кластера
Реальные цены на GPU кластеры разного масштаба в Казахстане.
| Компонент | 4 ноды (32 GPU) | 16 нод (128 GPU) |
|---|---|---|
| Серверы (8×H100) | 536 млн ₸ | 2 144 млн ₸ |
| InfiniBand NDR | 24 млн ₸ | 72 млн ₸ |
| Хранилище (Lustre) | 14 млн ₸ | 48 млн ₸ |
| Management ноды | 4.8 млн ₸ | 9.6 млн ₸ |
| Стойки, PDU, кабели | 7.2 млн ₸ | 24 млн ₸ |
| Инсталляция и настройка | 4.8 млн ₸ | 14.4 млн ₸ |
| ИТОГО | ~591 млн ₸ | ~2 312 млн ₸ |
* На базе H100 SXM. Для H200 добавить ~25%, для B200 ~60%. Без стоимости помещения и охлаждения ДЦ.
GPU кластер — это не просто много серверов. Это инженерная система, где сеть, охлаждение и софт так же важны, как сами GPU. Мы видели кластеры за миллиард тенге, которые работали на 40% мощности из-за неправильной сетевой топологии.
Частые вопросы
о GPU кластерах
Ответы на популярные вопросы о проектировании и стоимости GPU кластеров.
Задать вопросМинимальный GPU кластер (4 ноды × 8 H100 = 32 GPU) стоит от 600 млн ₸ включая серверы, InfiniBand-сеть, хранилище и инсталляцию. Кластер средней мощности (16 нод × 8 H100 = 128 GPU) — от 2.3 млрд ₸.
InfiniBand NDR обеспечивает 400 Gbps с задержкой менее 1 мкс между нодами. Для распределённого обучения LLM это критично: при обучении на 32+ GPU разница в скорости обучения может достигать 40-60% по сравнению с Ethernet.
Один сервер 8×H100 потребляет 10-12 кВт. Воздушное охлаждение работает до 20-25 кВт на стойку. Выше — нужно жидкостное (DLC или immersion). Для B200 (1000W на GPU) жидкостное охлаждение практически обязательно.
Slurm — для обучения (batch, multi-node). Kubernetes — для инференса (API, автоскейлинг). Оптимально — оба, с разделением по пулам.
Проектирование: 2-4 недели. Поставка серверов: 4-12 недель. Инсталляция: 1-2 недели. Настройка ПО: 1-2 недели. Итого: 2-5 месяцев. Мы можем ускорить до 6-8 недель при наличии серверов на складе.
Проектируем GPU кластер под ваши задачи
От архитектуры до ввода в эксплуатацию. Бесплатная консультация и предварительный расчёт — за 3 рабочих дня.
или напишите в WhatsApp