Видеокарта NVIDIA H100 80GB на архитектуре Hopper для AI, обучения LLM и HPC. Доступна в SXM5 и PCIe исполнении, HBM3 на 3.35 TB/s, FP8 3958 TFLOPS на GPU, NVLink 900 GB/s. От 25 680 000 тг с гарантией 3 года, наличие в Алматы, доставка по Казахстану.

Популярные конфигурации серверов
Готовые серверы на видеокартах NVIDIA для AI, LLM, инференса и HPC. Сборка оборудования под любую задачу, стресс-тест 72 часа, доставка в любую точку мира.
Базовый
Инференс, запуск нейросетей и прототипирование
- 4× NVIDIA Tesla V100 32GB HBM2
- 2× Intel Xeon Gold
- 256GB RAM
- 3.84TB SSD
- 10GbE Network
Продвинутый
Обучение моделей, production LLM, мощные нагрузки
- 2× NVIDIA H200 NVL 141GB HBM3e
- 2× AMD EPYC
- 512GB RAM
- 7.68TB SSD
- 25GbE Network
Максимальный
HPC-кластер, обучение LLM, HGX H200 SXM5 платформа
- 8× NVIDIA HGX H200 141GB HBM3e SXM5
- 2× Xeon Gold / AMD EPYC
- 1.536TB RAM
- 2× 7.68TB SSD
- 8× 400G NDR/ETH OSFP Network
Соберите сервер под свою задачу
Расскажите о задаче в 4 вопросах, инженер подберёт оптимальный сервер под вас и пришлёт КП с ориентиром по бюджету и сроку поставки. Без сложного выбора GPU и расчётов памяти.
Спецификация платформы
Базовая конфигурация сервера на 8 видеокартах NVIDIA H100 80GB SXM5. Под конкретную задачу состав CPU, RAM и хранилища подбираем индивидуально.
8x NVIDIA H100 80GB SXM5
- Архитектура: Hopper
- CUDA Cores: 16 896 на GPU (135 168 всего)
- Tensor Cores: 528 (4 поколение)
- Память: 80GB HBM3, 3.35 TB/s
- FP8 (Transformer Engine): 3 958 TFLOPS на GPU
- FP16 / BF16: 1 979 TFLOPS на GPU
- FP64: 67 TFLOPS на GPU
- TDP: 700 Вт на GPU
NVLink 4.0 + InfiniBand
- NVLink между GPU: 900 GB/s
- NVSwitch: полная связность 8 GPU
- InfiniBand: NDR 400Gb/s (по запросу)
- PCIe Gen5: x16 на каждый GPU
- Сетевые порты: 2x 100GbE, опционально 8x 400Gb
- Out-of-band управление: IPMI 2.0, Redfish
Шасси и питание
- Бренды: Dell PowerEdge, Supermicro, HPE, Lenovo, Inspur
- Форм-фактор: 6U-8U rack-mount
- CPU: 2x Intel Xeon Platinum 8480+ или AMD EPYC 9004
- RAM: 1-4 TB DDR5-4800 ECC
- Хранилище: 8x NVMe SSD до 30 TB суммарно
- Питание: 4-6x 3000 Вт PSU, hot-swap
- Охлаждение: воздух или жидкость (по запросу)
Что включено
- ОС: Ubuntu 22.04, RHEL 9, Rocky Linux 9
- Драйверы NVIDIA: CUDA 12.4+, cuDNN, NCCL
- Контейнеризация: Docker, NVIDIA Container Toolkit
- Оркестрация: Kubernetes, Slurm, NVIDIA Base Command
- Тесты: CUDA-Z, NVIDIA-SMI, MLPerf benchmarks
- Стресс-тест: 72 часа полной нагрузки
- Гарантия: 3 года, выезд инженера, подменный фонд

Видеокарты для сервера
Профессиональные видеокарты NVIDIA для AI, инференса, рендеринга и научных вычислений. Сравните объём VRAM, bandwidth, TFLOPS, цену и подберите GPU под вашу задачу.
GPU-инженеры и DevOps по AI
Каждый проект ведёт менеджер и инженер. Сборка идёт в нашей лаборатории, логистика и таможня через партнёров, финансовые и бухгалтерские вопросы закрывает бэк-офис.
Подбирают конфигурацию под задачу: модель GPU (H100, H200, B200, L40S, RTX 6000 Ada), CPU, RAM, NVLink или PCIe-топология, сеть и охлаждение. Собирают сервер, прошивают BIOS и IPMI, прогоняют нагрузочные тесты перед отгрузкой. Можно собрать свою конфигурацию в онлайн-конфигураторе.
Разбирается в задаче, готовит спецификацию и коммерческое предложение. Помогает посчитать стоимость владения в сравнении с облаком, подобрать схему оплаты. С клиентом работает один человек от брифа до ввода в эксплуатацию.
Гарантия 3 года на серверы собственной сборки. Удалённая диагностика через IPMI, iDRAC, iLO, выезд инженера в Алматы и Астану. По критичным инцидентам работаем в приоритете, ходовые ЗИП-позиции держим на складе.
Помогаем с установкой Ubuntu или Rocky Linux, CUDA, cuDNN, NCCL, NVIDIA Container Toolkit, NGC-контейнеров с PyTorch, TensorFlow и Triton. При необходимости поднимаем Kubernetes с GPU Operator или Slurm для HPC-кластеров.
По запросу прогоняем тестовые бенчмарки на стенде: инференс и обучение LLM, Stable Diffusion, рендер-нагрузки. Готовим сравнение конфигураций и расчёт окупаемости относительно AWS, GCP и Azure.
Работаем через авторизованных дистрибьюторов NVIDIA и производителей платформ Dell, Supermicro, HPE и Lenovo. Дефицитные GPU заказываем заранее под конкретный проект, ходовые позиции держим на складе в Алматы.
Отправляем серверы по Казахстану и странам СНГ через проверенных перевозчиков с GPS-трекингом и противоударной упаковкой. Таможенное оформление в РФ, Узбекистане и Кыргызстане через профильного брокера, страхование груза на полную стоимость.
Безналичный расчёт для ТОО и ИП, SWIFT-переводы в USD и EUR для международных клиентов. Kaspi Pay для физлиц в рамках лимита, НДС и счёт-фактура. Получить КП за 2 часа у менеджера.
Когда нужен сервер 8x H100
Обучение LLM
Pretraining моделей до 70B параметров на одном узле. Файн-тюнинг 175B+ моделей с FSDP. Скорость обучения Llama 3 70B - около 3 дней на 1.5T токенов.
Инференс с низкой задержкой
Production-нагрузка LLM с тысячами одновременных запросов. Llama 3 70B в FP8 - 2400 токенов/сек, GPT-4-class на 4 GPU из 8.
HPC и научные расчёты
Молекулярная динамика, CFD, рендеринг, геномика. FP64 67 TFLOPS на GPU - 4-5x быстрее A100. Подходит под NAMD, GROMACS, OpenFOAM.
Чем H100 отличается от A100 на практике
NVIDIA H100 архитектуры Hopper даёт прирост в 2-6 раз по сравнению с A100 (Ampere) на современных AI-нагрузках. Главное отличие - встроенный Transformer Engine, который автоматически переключает точность между FP16 и FP8 на каждом слое нейросети. На GPT-3 175B обучение ускоряется в 4 раза, на Llama-style моделях - в 3 раза.
HBM3 память даёт 3.35 TB/s против 2.0 TB/s у HBM2e на A100. Это критично для inference больших моделей, где скорость доступа к весам важнее compute. NVLink 4.0 на 900 GB/s между GPU позволяет обучать модели до 70B параметров без шардинга по узлам - всё помещается в одном сервере.
Что мы поставляем под ключ
Сборка под задачу, не магазин коробок. Каждый сервер собирается из проверенных компонентов под конкретное применение клиента. Заказ начинается с интервью на 30-40 минут, где обсуждаем модель которую планируете обучать или запускать в инференс, объёмы данных, требования к latency и доступности.
После согласования спецификации платформа собирается на нашем складе в Алматы. Каждый сервер проходит 72-часовой стресс-тест на полной нагрузке: NCCL all-reduce между всеми 8 GPU, термотесты, проверка стабильности FP8 на эталонных моделях, проверка ECC памяти. Только после успешного прохождения теста сервер отгружается клиенту.
«За 4 года поставили 47 серверов с H100. Все продолжают работать в продакшене, ноль возвратов по неисправности GPU. Главное - правильно подобрать охлаждение под помещение клиента.» Технический директор GPU Server Kazakhstan
Кластеризация и масштабирование
Один сервер 8x H100 даёт 31 664 TFLOPS FP8 - этого достаточно для обучения моделей до 70B параметров. Если нужно больше - собираем кластер из 2-64 узлов на InfiniBand NDR 400Gb с топологией fat-tree. Типичный проект на 32 узла (256 H100) реализуется за 4-6 недель: согласование спецификации, заказ компонентов, сборка, монтаж в дата-центре клиента, пуско-наладка с MLPerf-бенчмарками.
- До 8 GPU: один сервер, NVLink 4.0, без межузловой сети
- 8-16 GPU (2 узла): InfiniBand NDR между узлами, NCCL автоматически выбирает топологию
- 16-256 GPU (2-32 узла): fat-tree InfiniBand с неблокирующим коммутатором, оркестрация Slurm или NVIDIA Base Command
- 256+ GPU: dual-rail InfiniBand, проектирование под конкретный workload и помещение
Частые вопросы по серверу 8x H100
Чем H100 отличается от A100 в реальных задачах+
Сколько VRAM нужно для обучения LLM+
H100 SXM5 или H100 PCIe - что выбрать+
Можно ли масштабировать до кластера+
Какое охлаждение нужно для H100+
Сроки поставки H100 серверов+

Получите КП на сервер за 2 часа
Расскажите о задаче - инженер подготовит оптимальную конфигурацию и расчёт окупаемости
Получить предложение
Заполните форму - мы свяжемся с вами