ПОЛУЧИТЬ КП
Видеокарта NVIDIA H100 80GB Hopper для AI и HPC
NVIDIA Preferred Partner

Купить видеокарту
H100 80GB

Видеокарта NVIDIA H100 80GB на архитектуре Hopper для AI, обучения LLM и HPC. Доступна в SXM5 и PCIe исполнении, HBM3 на 3.35 TB/s, FP8 3958 TFLOPS на GPU, NVLink 900 GB/s. От 25 680 000 тг с гарантией 3 года, наличие в Алматы, доставка по Казахстану.

Характеристики
FP8
3958TFLOPS
пиковая на одну H100
VRAM
80GB HBM3
3.35 TB/s пропускная
CUDA
16 896ядер
плюс 528 Tensor Cores
наличие
5-7дней
доставка из Алматы

Популярные конфигурации серверов

Готовые серверы на видеокартах NVIDIA для AI, LLM, инференса и HPC. Сборка оборудования под любую задачу, стресс-тест 72 часа, доставка в любую точку мира.

Базовый

Инференс, запуск нейросетей и прототипирование

  • 4× NVIDIA Tesla V100 32GB HBM2
  • 2× Intel Xeon Gold
  • 256GB RAM
  • 3.84TB SSD
  • 10GbE Network

Максимальный

HPC-кластер, обучение LLM, HGX H200 SXM5 платформа

  • 8× NVIDIA HGX H200 141GB HBM3e SXM5
  • 2× Xeon Gold / AMD EPYC
  • 1.536TB RAM
  • 2× 7.68TB SSD
  • 8× 400G NDR/ETH OSFP Network
284 890 000
Получить КП

Соберите сервер под свою задачу

Расскажите о задаче в 4 вопросах, инженер подберёт оптимальный сервер под вас и пришлёт КП с ориентиром по бюджету и сроку поставки. Без сложного выбора GPU и расчётов памяти.

1Задача
2Масштаб
3Срок
4Бюджет
Для чего вам нужен сервер?
Выберите основное направление - подберем оптимальное решение.
1 из 4 · нажмите вариант или напишите свой
NVIDIAPartner Network
DellTechnologies Partner
SupermicroPlatform Partner
HPEBusiness Partner
LenovoBusiness Partner
Red HatAdvanced Partner
Технические характеристики

Спецификация платформы

Базовая конфигурация сервера на 8 видеокартах NVIDIA H100 80GB SXM5. Под конкретную задачу состав CPU, RAM и хранилища подбираем индивидуально.

GPU

8x NVIDIA H100 80GB SXM5

  • Архитектура: Hopper
  • CUDA Cores: 16 896 на GPU (135 168 всего)
  • Tensor Cores: 528 (4 поколение)
  • Память: 80GB HBM3, 3.35 TB/s
  • FP8 (Transformer Engine): 3 958 TFLOPS на GPU
  • FP16 / BF16: 1 979 TFLOPS на GPU
  • FP64: 67 TFLOPS на GPU
  • TDP: 700 Вт на GPU
Interconnect

NVLink 4.0 + InfiniBand

  • NVLink между GPU: 900 GB/s
  • NVSwitch: полная связность 8 GPU
  • InfiniBand: NDR 400Gb/s (по запросу)
  • PCIe Gen5: x16 на каждый GPU
  • Сетевые порты: 2x 100GbE, опционально 8x 400Gb
  • Out-of-band управление: IPMI 2.0, Redfish
Платформа

Шасси и питание

  • Бренды: Dell PowerEdge, Supermicro, HPE, Lenovo, Inspur
  • Форм-фактор: 6U-8U rack-mount
  • CPU: 2x Intel Xeon Platinum 8480+ или AMD EPYC 9004
  • RAM: 1-4 TB DDR5-4800 ECC
  • Хранилище: 8x NVMe SSD до 30 TB суммарно
  • Питание: 4-6x 3000 Вт PSU, hot-swap
  • Охлаждение: воздух или жидкость (по запросу)
Софт и поддержка

Что включено

  • ОС: Ubuntu 22.04, RHEL 9, Rocky Linux 9
  • Драйверы NVIDIA: CUDA 12.4+, cuDNN, NCCL
  • Контейнеризация: Docker, NVIDIA Container Toolkit
  • Оркестрация: Kubernetes, Slurm, NVIDIA Base Command
  • Тесты: CUDA-Z, NVIDIA-SMI, MLPerf benchmarks
  • Стресс-тест: 72 часа полной нагрузки
  • Гарантия: 3 года, выезд инженера, подменный фонд

Видеокарты для сервера

Профессиональные видеокарты NVIDIA для AI, инференса, рендеринга и научных вычислений. Сравните объём VRAM, bandwidth, TFLOPS, цену и подберите GPU под вашу задачу.

Сравнение видеокарт NVIDIA в Казахстане по объёму VRAM, bandwidth, производительности FP16 и цене для AI, обучения нейросетей, инференса LLM, рендеринга и HPC
МодельПамятьBandwidth, GB/sFP16, TFLOPS
dense
TDP, WОбласть примененияРейтингЦена
NVIDIA B200Blackwell192 GB HBM3e8.0 TB/s11251000WОбучение LLM, суперкомпьютерные кластеры★★★★★25 000 000 ₸
NVIDIA H200 NVLHopper141 GB HBM3e4.8 TB/s835600WPCIe-серверы, обучение и инференс LLM★★★★★
NVIDIA H100 NVLHopper94 GB HBM33.94 TB/s835400WИнференс больших LLM, продакшн-сервинг★★★★★
NVIDIA H200 SXMХИТHopper141 GB HBM3e4.8 TB/s494700WГенеративный AI, большие языковые модели★★★★★18 000 000 ₸
NVIDIA H100 SXMHopper80 GB HBM33.35 TB/s494700WFine-tuning моделей, дата-центры★★★★★15 000 000 ₸
NVIDIA H100 PCIeHopper80 GB HBM32.0 TB/s378350WВысокопроизводительные вычисления, HPC★★★★
NVIDIA L40SAda48 GB GDDR6864 GB/s181350WГенерация изображений, мультимодальный AI★★★★
NVIDIA A100 PCIeAmpere80 GB HBM2e1.94 TB/s156300WРаспознавание образов, автоматизация★★★☆☆
NVIDIA Tesla V100Volta32 GB HBM2900 GB/s125300WИнференс классических моделей, легаси-задачи★★☆☆☆
NVIDIA L40Ada48 GB GDDR6864 GB/s90.5300WОблачные вычисления, виртуальные десктопы★★☆☆☆
NVIDIA A40Ampere48 GB GDDR6696 GB/s74.8300WМедицина, фармацевтика, 3D-графика★★★☆☆
NVIDIA L4Ada24 GB GDDR6300 GB/s6072WВидеонаблюдение, потоковая аналитика★★★☆☆

GPU-инженеры и DevOps по AI

Каждый проект ведёт менеджер и инженер. Сборка идёт в нашей лаборатории, логистика и таможня через партнёров, финансовые и бухгалтерские вопросы закрывает бэк-офис.

Архитектура и сборка
Инженеры по конфигурации серверов

Подбирают конфигурацию под задачу: модель GPU (H100, H200, B200, L40S, RTX 6000 Ada), CPU, RAM, NVLink или PCIe-топология, сеть и охлаждение. Собирают сервер, прошивают BIOS и IPMI, прогоняют нагрузочные тесты перед отгрузкой. Можно собрать свою конфигурацию в онлайн-конфигураторе.

NVIDIA HGX / DGXNVLink / InfiniBandBIOS / IPMIStress-test
Продажа и сопровождение
Менеджер проекта

Разбирается в задаче, готовит спецификацию и коммерческое предложение. Помогает посчитать стоимость владения в сравнении с облаком, подобрать схему оплаты. С клиентом работает один человек от брифа до ввода в эксплуатацию.

Расчёт TCOСпецификацияСопровождение сделки
Гарантия и поддержка
Сервисные инженеры

Гарантия 3 года на серверы собственной сборки. Удалённая диагностика через IPMI, iDRAC, iLO, выезд инженера в Алматы и Астану. По критичным инцидентам работаем в приоритете, ходовые ЗИП-позиции держим на складе.

Гарантия 3 годаВыезд инженераУдалённая диагностикаЗИП на складе
Софт-стек и DevOps
ML и DevOps инженеры

Помогаем с установкой Ubuntu или Rocky Linux, CUDA, cuDNN, NCCL, NVIDIA Container Toolkit, NGC-контейнеров с PyTorch, TensorFlow и Triton. При необходимости поднимаем Kubernetes с GPU Operator или Slurm для HPC-кластеров.

CUDA / cuDNNKubernetes GPU OperatorSlurmNGC / Triton
Pre-sales и бенчмарки
Технические консультанты

По запросу прогоняем тестовые бенчмарки на стенде: инференс и обучение LLM, Stable Diffusion, рендер-нагрузки. Готовим сравнение конфигураций и расчёт окупаемости относительно AWS, GCP и Azure.

LLM benchmarksMLPerf / HuggingFaceTCO vs CloudPOC и тесты
Закупки и поставки
Закупка компонентов

Работаем через авторизованных дистрибьюторов NVIDIA и производителей платформ Dell, Supermicro, HPE и Lenovo. Дефицитные GPU заказываем заранее под конкретный проект, ходовые позиции держим на складе в Алматы.

Дистрибьюторы NVIDIADell / Supermicro / HPEСклад в АлматыПланирование поставок
Логистика и ВЭД
Доставка и таможня

Отправляем серверы по Казахстану и странам СНГ через проверенных перевозчиков с GPS-трекингом и противоударной упаковкой. Таможенное оформление в РФ, Узбекистане и Кыргызстане через профильного брокера, страхование груза на полную стоимость.

Доставка по КазахстануВЭД KZ / РФ / УЗТаможенный брокерСтрахование груза
Финансы и документы
Бухгалтерия и расчёты

Безналичный расчёт для ТОО и ИП, SWIFT-переводы в USD и EUR для международных клиентов. Kaspi Pay для физлиц в рамках лимита, НДС и счёт-фактура. Получить КП за 2 часа у менеджера.

Безнал KZTSWIFT USD / EURЛизинг KZKaspi Pay / НДС
Применение

Когда нужен сервер 8x H100

🧠

Обучение LLM

Pretraining моделей до 70B параметров на одном узле. Файн-тюнинг 175B+ моделей с FSDP. Скорость обучения Llama 3 70B - около 3 дней на 1.5T токенов.

Инференс с низкой задержкой

Production-нагрузка LLM с тысячами одновременных запросов. Llama 3 70B в FP8 - 2400 токенов/сек, GPT-4-class на 4 GPU из 8.

🔬

HPC и научные расчёты

Молекулярная динамика, CFD, рендеринг, геномика. FP64 67 TFLOPS на GPU - 4-5x быстрее A100. Подходит под NAMD, GROMACS, OpenFOAM.

Чем H100 отличается от A100 на практике

NVIDIA H100 архитектуры Hopper даёт прирост в 2-6 раз по сравнению с A100 (Ampere) на современных AI-нагрузках. Главное отличие - встроенный Transformer Engine, который автоматически переключает точность между FP16 и FP8 на каждом слое нейросети. На GPT-3 175B обучение ускоряется в 4 раза, на Llama-style моделях - в 3 раза.

HBM3 память даёт 3.35 TB/s против 2.0 TB/s у HBM2e на A100. Это критично для inference больших моделей, где скорость доступа к весам важнее compute. NVLink 4.0 на 900 GB/s между GPU позволяет обучать модели до 70B параметров без шардинга по узлам - всё помещается в одном сервере.

Метрика A100 80GB H100 80GB SXM5 Прирост
FP16 / BF16 TFLOPS3121 9796.3x
FP8 TFLOPSнет3 958новое
Память HBM80 GB HBM2e80 GB HBM3+68% bandwidth
Пропускная памяти2.0 TB/s3.35 TB/s1.7x
NVLink600 GB/s900 GB/s1.5x
TDP на GPU400 Вт700 Вт+75%

Что мы поставляем под ключ

Сборка под задачу, не магазин коробок. Каждый сервер собирается из проверенных компонентов под конкретное применение клиента. Заказ начинается с интервью на 30-40 минут, где обсуждаем модель которую планируете обучать или запускать в инференс, объёмы данных, требования к latency и доступности.

После согласования спецификации платформа собирается на нашем складе в Алматы. Каждый сервер проходит 72-часовой стресс-тест на полной нагрузке: NCCL all-reduce между всеми 8 GPU, термотесты, проверка стабильности FP8 на эталонных моделях, проверка ECC памяти. Только после успешного прохождения теста сервер отгружается клиенту.

«За 4 года поставили 47 серверов с H100. Все продолжают работать в продакшене, ноль возвратов по неисправности GPU. Главное - правильно подобрать охлаждение под помещение клиента.» Технический директор GPU Server Kazakhstan

Кластеризация и масштабирование

Один сервер 8x H100 даёт 31 664 TFLOPS FP8 - этого достаточно для обучения моделей до 70B параметров. Если нужно больше - собираем кластер из 2-64 узлов на InfiniBand NDR 400Gb с топологией fat-tree. Типичный проект на 32 узла (256 H100) реализуется за 4-6 недель: согласование спецификации, заказ компонентов, сборка, монтаж в дата-центре клиента, пуско-наладка с MLPerf-бенчмарками.

  • До 8 GPU: один сервер, NVLink 4.0, без межузловой сети
  • 8-16 GPU (2 узла): InfiniBand NDR между узлами, NCCL автоматически выбирает топологию
  • 16-256 GPU (2-32 узла): fat-tree InfiniBand с неблокирующим коммутатором, оркестрация Slurm или NVIDIA Base Command
  • 256+ GPU: dual-rail InfiniBand, проектирование под конкретный workload и помещение
FAQ

Частые вопросы по серверу 8x H100

Чем H100 отличается от A100 в реальных задачах+
NVIDIA H100 на архитектуре Hopper даёт прирост в 2-6 раз по сравнению с A100 (Ampere) при обучении трансформерных моделей. Ключевые отличия: поддержка FP8 (3 958 TFLOPS, у A100 нет), память HBM3 с пропускной способностью 3.35 TB/s (vs 2.0 TB/s HBM2e), NVLink 4.0 на 900 GB/s (vs 600 GB/s), а также встроенный Transformer Engine, который автоматически выбирает оптимальную точность для каждого слоя нейросети.
Сколько VRAM нужно для обучения LLM+
Правило оценки: для обучения в FP16 нужно примерно 2 байта на параметр модели плюс оптимизатор Adam добавляет около 12 байт на параметр. Модель 7B требует около 100 GB VRAM (2x H100), 13B - около 200 GB (3-4x H100), 70B - около 560 GB (8x H100 c NVLink), 180B и выше - кластер из нескольких узлов. Файн-тюнинг с LoRA или QLoRA снижает требования в 4-8 раз: 7B помещается на 1x H100, 70B - на 2-4x H100.
H100 SXM5 или H100 PCIe - что выбрать+
H100 SXM5 - для максимальной производительности: 700 Вт TDP, NVLink 4.0 (900 GB/s между GPU), HBM3 на полной скорости. Идеален для обучения больших моделей где межгпушная связь критична. H100 PCIe - более доступный вариант (350 Вт TDP), устанавливается в стандартные серверы, NVLink только через мост (2 GPU). Подходит для инференса и файн-тюнинга где не нужна связь 4-8 GPU. Для серьёзного обучения LLM рекомендуем SXM5.
Можно ли масштабировать до кластера+
Да. Наши серверы проектируются для кластерной работы: NVLink 4.0 для связи внутри узла (до 900 GB/s), InfiniBand NDR 400GbE для межузлового соединения, поддержка NVIDIA Base Command и Slurm для оркестрации. Мы строим кластеры от 2 до 64 узлов (до 512 GPU H100). Топология fat-tree с неблокирующим InfiniBand-коммутатором. Типичный проект кластера на 32 узла (256x H100) реализуется за 4-6 недель.
Какое охлаждение нужно для H100+
H100 SXM5 потребляет до 700 Вт на GPU. Сервер с 8x H100 генерирует около 10 кВт тепла. Для единичных серверов достаточно воздушного охлаждения в серверной с кондиционированием (температура на входе до 35°C). Для кластеров от 8 узлов рекомендуем жидкостное охлаждение (direct liquid cooling) - снижает PUE с 1.5 до 1.1, уменьшает шум и позволяет плотнее размещать серверы. Мы проектируем системы охлаждения под конкретные помещения.
Сроки поставки H100 серверов+
Одиночные серверы 1-2x H100: 5-7 рабочих дней, компоненты в наличии на складе. Серверы с NVLink 4-8x H100: 10-14 рабочих дней, включая сборку, прошивку и 72-часовой стресс-тест. Кластерные решения (10+ узлов): 3-6 недель в зависимости от масштаба и требований к сети. Экспресс-сборка: +30% к стоимости, сроки сокращаются вдвое. Каждый сервер проходит тестирование CUDA, NVLink bandwidth, памяти и термалов.
СВЯЗАТЬСЯ

Получите КП на сервер за 2 часа

Расскажите о задаче - инженер подготовит оптимальную конфигурацию и расчёт окупаемости

Бесплатная консультация и подбор конфигурации
Ответ в течение 2 часов в рабочее время
NDA по запросу

Получить предложение

Заполните форму - мы свяжемся с вами

Или свяжитесь напрямую: +7 (777) 386-38-88 · WhatsApp