Купить видеокарту NVIDIA H100 80GB в Казахстане

Спецификация платформы

Базовая конфигурация сервера на 8 видеокартах NVIDIA H100 80GB SXM5. Под конкретную задачу состав CPU, RAM и хранилища подбираем индивидуально.

GPU

8x NVIDIA H100 80GB SXM5

Архитектура: Hopper
CUDA Cores: 16 896 на GPU (135 168 всего)
Tensor Cores: 528 (4 поколение)
Память: 80GB HBM3, 3.35 TB/s
FP8 (Transformer Engine): 3 958 TFLOPS на GPU
FP16 / BF16: 1 979 TFLOPS на GPU
FP64: 67 TFLOPS на GPU
TDP: 700 Вт на GPU

Interconnect

NVLink 4.0 + InfiniBand

NVLink между GPU: 900 GB/s
NVSwitch: полная связность 8 GPU
InfiniBand: NDR 400Gb/s (по запросу)
PCIe Gen5: x16 на каждый GPU
Сетевые порты: 2x 100GbE, опционально 8x 400Gb
Out-of-band управление: IPMI 2.0, Redfish

Платформа

Шасси и питание

Бренды: Dell PowerEdge, Supermicro, HPE, Lenovo, Inspur
Форм-фактор: 6U-8U rack-mount
CPU: 2x Intel Xeon Platinum 8480+ или AMD EPYC 9004
RAM: 1-4 TB DDR5-4800 ECC
Хранилище: 8x NVMe SSD до 30 TB суммарно
Питание: 4-6x 3000 Вт PSU, hot-swap
Охлаждение: воздух или жидкость (по запросу)

Софт и поддержка

Что включено

ОС: Ubuntu 22.04, RHEL 9, Rocky Linux 9
Драйверы NVIDIA: CUDA 12.4+, cuDNN, NCCL
Контейнеризация: Docker, NVIDIA Container Toolkit
Оркестрация: Kubernetes, Slurm, NVIDIA Base Command
Тесты: CUDA-Z, NVIDIA-SMI, MLPerf benchmarks
Стресс-тест: 72 часа полной нагрузки
Гарантия: 3 года, выезд инженера, подменный фонд

Видеокарты для сервера

Профессиональные видеокарты NVIDIA для AI, инференса, рендеринга и научных вычислений. Сравните объём VRAM, bandwidth, TFLOPS, цену и подберите GPU под вашу задачу.

Сравнение видеокарт NVIDIA в Казахстане по объёму VRAM, bandwidth, производительности FP16 и цене для AI, обучения нейросетей, инференса LLM, рендеринга и HPC
Модель	Память	Bandwidth, GB/s	FP16, TFLOPS dense	TDP, W	Область применения	Рейтинг	Цена
NVIDIA B200Blackwell	192 GB HBM3e	8.0 TB/s	1125	1000W	Обучение LLM, суперкомпьютерные кластеры	★★★★★	25 000 000 ₸
NVIDIA H200 NVLHopper	141 GB HBM3e	4.8 TB/s	835	600W	PCIe-серверы, обучение и инференс LLM	★★★★★
NVIDIA H100 NVLHopper	94 GB HBM3	3.94 TB/s	835	400W	Инференс больших LLM, продакшн-сервинг	★★★★★
NVIDIA H200 SXMХИТHopper	141 GB HBM3e	4.8 TB/s	494	700W	Генеративный AI, большие языковые модели	★★★★★	18 000 000 ₸
NVIDIA H100 SXMHopper	80 GB HBM3	3.35 TB/s	494	700W	Fine-tuning моделей, дата-центры	★★★★★	15 000 000 ₸
NVIDIA H100 PCIeHopper	80 GB HBM3	2.0 TB/s	378	350W	Высокопроизводительные вычисления, HPC	★★★★☆
NVIDIA L40SAda	48 GB GDDR6	864 GB/s	181	350W	Генерация изображений, мультимодальный AI	★★★★☆
NVIDIA A100 PCIeAmpere	80 GB HBM2e	1.94 TB/s	156	300W	Распознавание образов, автоматизация	★★★☆☆
NVIDIA Tesla V100Volta	32 GB HBM2	900 GB/s	125	300W	Инференс классических моделей, легаси-задачи	★★☆☆☆
NVIDIA L40Ada	48 GB GDDR6	864 GB/s	90.5	300W	Облачные вычисления, виртуальные десктопы	★★☆☆☆
NVIDIA A40Ampere	48 GB GDDR6	696 GB/s	74.8	300W	Медицина, фармацевтика, 3D-графика	★★★☆☆
NVIDIA L4Ada	24 GB GDDR6	300 GB/s	60	72W	Видеонаблюдение, потоковая аналитика	★★★☆☆

GPU-инженеры и DevOps по AI

Каждый проект ведёт менеджер и инженер. Сборка идёт в нашей лаборатории, логистика и таможня через партнёров, финансовые и бухгалтерские вопросы закрывает бэк-офис.

Архитектура и сборка

Инженеры по конфигурации серверов

Подбирают конфигурацию под задачу: модель GPU (H100, H200, B200, L40S, RTX 6000 Ada), CPU, RAM, NVLink или PCIe-топология, сеть и охлаждение. Собирают сервер, прошивают BIOS и IPMI, прогоняют нагрузочные тесты перед отгрузкой. Можно собрать свою конфигурацию в онлайн-конфигураторе.

NVIDIA HGX / DGXNVLink / InfiniBandBIOS / IPMIStress-test

Продажа и сопровождение

Менеджер проекта

Разбирается в задаче, готовит спецификацию и коммерческое предложение. Помогает посчитать стоимость владения в сравнении с облаком, подобрать схему оплаты. С клиентом работает один человек от брифа до ввода в эксплуатацию.

Расчёт TCOСпецификацияСопровождение сделки

Гарантия и поддержка

Сервисные инженеры

Гарантия 3 года на серверы собственной сборки. Удалённая диагностика через IPMI, iDRAC, iLO, выезд инженера в Алматы и Астану. По критичным инцидентам работаем в приоритете, ходовые ЗИП-позиции держим на складе.

Гарантия 3 годаВыезд инженераУдалённая диагностикаЗИП на складе

Софт-стек и DevOps

ML и DevOps инженеры

Помогаем с установкой Ubuntu или Rocky Linux, CUDA, cuDNN, NCCL, NVIDIA Container Toolkit, NGC-контейнеров с PyTorch, TensorFlow и Triton. При необходимости поднимаем Kubernetes с GPU Operator или Slurm для HPC-кластеров.

CUDA / cuDNNKubernetes GPU OperatorSlurmNGC / Triton

Pre-sales и бенчмарки

Технические консультанты

По запросу прогоняем тестовые бенчмарки на стенде: инференс и обучение LLM, Stable Diffusion, рендер-нагрузки. Готовим сравнение конфигураций и расчёт окупаемости относительно AWS, GCP и Azure.

LLM benchmarksMLPerf / HuggingFaceTCO vs CloudPOC и тесты

Закупки и поставки

Закупка компонентов

Работаем через авторизованных дистрибьюторов NVIDIA и производителей платформ Dell, Supermicro, HPE и Lenovo. Дефицитные GPU заказываем заранее под конкретный проект, ходовые позиции держим на складе в Алматы.

Дистрибьюторы NVIDIADell / Supermicro / HPEСклад в АлматыПланирование поставок

Логистика и ВЭД

Доставка и таможня

Отправляем серверы по Казахстану и странам СНГ через проверенных перевозчиков с GPS-трекингом и противоударной упаковкой. Таможенное оформление в РФ, Узбекистане и Кыргызстане через профильного брокера, страхование груза на полную стоимость.

Доставка по КазахстануВЭД KZ / РФ / УЗТаможенный брокерСтрахование груза

Финансы и документы

Бухгалтерия и расчёты

Безналичный расчёт для ТОО и ИП, SWIFT-переводы в USD и EUR для международных клиентов. Kaspi Pay для физлиц в рамках лимита, НДС и счёт-фактура. Получить КП за 2 часа у менеджера.

Безнал KZTSWIFT USD / EURЛизинг KZKaspi Pay / НДС

Применение

Когда нужен сервер 8x H100

🧠

Обучение LLM

Pretraining моделей до 70B параметров на одном узле. Файн-тюнинг 175B+ моделей с FSDP. Скорость обучения Llama 3 70B - около 3 дней на 1.5T токенов.

⚡

Инференс с низкой задержкой

Production-нагрузка LLM с тысячами одновременных запросов. Llama 3 70B в FP8 - 2400 токенов/сек, GPT-4-class на 4 GPU из 8.

🔬

HPC и научные расчёты

Молекулярная динамика, CFD, рендеринг, геномика. FP64 67 TFLOPS на GPU - 4-5x быстрее A100. Подходит под NAMD, GROMACS, OpenFOAM.

Чем H100 отличается от A100 на практике

NVIDIA H100 архитектуры Hopper даёт прирост в 2-6 раз по сравнению с A100 (Ampere) на современных AI-нагрузках. Главное отличие - встроенный Transformer Engine, который автоматически переключает точность между FP16 и FP8 на каждом слое нейросети. На GPT-3 175B обучение ускоряется в 4 раза, на Llama-style моделях - в 3 раза.

HBM3 память даёт 3.35 TB/s против 2.0 TB/s у HBM2e на A100. Это критично для inference больших моделей, где скорость доступа к весам важнее compute. NVLink 4.0 на 900 GB/s между GPU позволяет обучать модели до 70B параметров без шардинга по узлам - всё помещается в одном сервере.

Метрика	A100 80GB	H100 80GB SXM5	Прирост
FP16 / BF16 TFLOPS	312	1 979	6.3x
FP8 TFLOPS	нет	3 958	новое
Память HBM	80 GB HBM2e	80 GB HBM3	+68% bandwidth
Пропускная памяти	2.0 TB/s	3.35 TB/s	1.7x
NVLink	600 GB/s	900 GB/s	1.5x
TDP на GPU	400 Вт	700 Вт	+75%

Что мы поставляем под ключ

Сборка под задачу, не магазин коробок. Каждый сервер собирается из проверенных компонентов под конкретное применение клиента. Заказ начинается с интервью на 30-40 минут, где обсуждаем модель которую планируете обучать или запускать в инференс, объёмы данных, требования к latency и доступности.

После согласования спецификации платформа собирается на нашем складе в Алматы. Каждый сервер проходит 72-часовой стресс-тест на полной нагрузке: NCCL all-reduce между всеми 8 GPU, термотесты, проверка стабильности FP8 на эталонных моделях, проверка ECC памяти. Только после успешного прохождения теста сервер отгружается клиенту.

«За 4 года поставили 47 серверов с H100. Все продолжают работать в продакшене, ноль возвратов по неисправности GPU. Главное - правильно подобрать охлаждение под помещение клиента.» Технический директор GPU Server Kazakhstan

Кластеризация и масштабирование

Один сервер 8x H100 даёт 31 664 TFLOPS FP8 - этого достаточно для обучения моделей до 70B параметров. Если нужно больше - собираем кластер из 2-64 узлов на InfiniBand NDR 400Gb с топологией fat-tree. Типичный проект на 32 узла (256 H100) реализуется за 4-6 недель: согласование спецификации, заказ компонентов, сборка, монтаж в дата-центре клиента, пуско-наладка с MLPerf-бенчмарками.

До 8 GPU: один сервер, NVLink 4.0, без межузловой сети
8-16 GPU (2 узла): InfiniBand NDR между узлами, NCCL автоматически выбирает топологию
16-256 GPU (2-32 узла): fat-tree InfiniBand с неблокирующим коммутатором, оркестрация Slurm или NVIDIA Base Command
256+ GPU: dual-rail InfiniBand, проектирование под конкретный workload и помещение

FAQ

Частые вопросы по серверу 8x H100

Чем H100 отличается от A100 в реальных задачах+

NVIDIA H100 на архитектуре Hopper даёт прирост в 2-6 раз по сравнению с A100 (Ampere) при обучении трансформерных моделей. Ключевые отличия: поддержка FP8 (3 958 TFLOPS, у A100 нет), память HBM3 с пропускной способностью 3.35 TB/s (vs 2.0 TB/s HBM2e), NVLink 4.0 на 900 GB/s (vs 600 GB/s), а также встроенный Transformer Engine, который автоматически выбирает оптимальную точность для каждого слоя нейросети.

Сколько VRAM нужно для обучения LLM+

Правило оценки: для обучения в FP16 нужно примерно 2 байта на параметр модели плюс оптимизатор Adam добавляет около 12 байт на параметр. Модель 7B требует около 100 GB VRAM (2x H100), 13B - около 200 GB (3-4x H100), 70B - около 560 GB (8x H100 c NVLink), 180B и выше - кластер из нескольких узлов. Файн-тюнинг с LoRA или QLoRA снижает требования в 4-8 раз: 7B помещается на 1x H100, 70B - на 2-4x H100.

H100 SXM5 или H100 PCIe - что выбрать+

H100 SXM5 - для максимальной производительности: 700 Вт TDP, NVLink 4.0 (900 GB/s между GPU), HBM3 на полной скорости. Идеален для обучения больших моделей где межгпушная связь критична. H100 PCIe - более доступный вариант (350 Вт TDP), устанавливается в стандартные серверы, NVLink только через мост (2 GPU). Подходит для инференса и файн-тюнинга где не нужна связь 4-8 GPU. Для серьёзного обучения LLM рекомендуем SXM5.

Можно ли масштабировать до кластера+

Да. Наши серверы проектируются для кластерной работы: NVLink 4.0 для связи внутри узла (до 900 GB/s), InfiniBand NDR 400GbE для межузлового соединения, поддержка NVIDIA Base Command и Slurm для оркестрации. Мы строим кластеры от 2 до 64 узлов (до 512 GPU H100). Топология fat-tree с неблокирующим InfiniBand-коммутатором. Типичный проект кластера на 32 узла (256x H100) реализуется за 4-6 недель.

Какое охлаждение нужно для H100+

H100 SXM5 потребляет до 700 Вт на GPU. Сервер с 8x H100 генерирует около 10 кВт тепла. Для единичных серверов достаточно воздушного охлаждения в серверной с кондиционированием (температура на входе до 35°C). Для кластеров от 8 узлов рекомендуем жидкостное охлаждение (direct liquid cooling) - снижает PUE с 1.5 до 1.1, уменьшает шум и позволяет плотнее размещать серверы. Мы проектируем системы охлаждения под конкретные помещения.

Сроки поставки H100 серверов+

Одиночные серверы 1-2x H100: 5-7 рабочих дней, компоненты в наличии на складе. Серверы с NVLink 4-8x H100: 10-14 рабочих дней, включая сборку, прошивку и 72-часовой стресс-тест. Кластерные решения (10+ узлов): 3-6 недель в зависимости от масштаба и требований к сети. Экспресс-сборка: +30% к стоимости, сроки сокращаются вдвое. Каждый сервер проходит тестирование CUDA, NVLink bandwidth, памяти и термалов.

Похожие платформы