AI / ML TRAINING

СЕРВЕР ДЛЯ LLM
В КАЗАХСТАНЕ

Локальный ChatGPT, LLaMA 3, Mistral, Qwen — полный контроль над данными, без лимитов API, фиксированная стоимость

Подобрать конфигурацию Смотреть конфигурации

141 GB

VRAM на GPU

<5 мс

латентность инференса

100+

моделей LLM

99.9%

аптайм серверов

Зачем запускать
LLM локально

Конфиденциальность данных

Данные не покидают ваш периметр. Критично для банков, госорганов, медицины. Соответствие требованиям хранения ПДн в РК.

Нет платы за токены

Фиксированная стоимость сервера. Генерируйте миллионы токенов в день без оглядки на счёт. Окупаемость — 4-8 месяцев при активном использовании.

Без лимитов rate-limit

Никаких ограничений на количество запросов. Подключайте всю команду или интегрируйте в продукт без квот.

Полная кастомизация

Fine-tuning на своих данных, кастомные системные промпты, RAG с вашей базой знаний. Полный контроль над поведением модели.

Требования GPU по размеру модели

7-8B (Mistral, LLaMA 3)1× RTX 4090 24GB

13-34B (CodeLlama, Yi)1× H100 80GB

70B (LLaMA 3, Qwen 2.5)2-4× H100 80GB

405B+ (LLaMA 3.1 405B)8× H100 SXM

Поддерживаемые
фреймворки и модели

Мы устанавливаем и настраиваем любой фреймворк. Сервер приходит с готовой средой — подключайте модель и работайте.

vLLM

Высокопроизводительный inference с PagedAttention. Throughput в 2-4× выше наивного подхода. Поддержка continuous batching.

Ollama

Простой запуск моделей одной командой. Идеально для тестирования и небольших команд. OpenAI-совместимый API.

llama.cpp

Оптимизированный inference на CPU и GPU. Поддержка квантизации GGUF. Минимальные требования к ресурсам.

TGI

Text Generation Inference от Hugging Face. Готовый production-сервер с API, мониторингом и авто-масштабированием.

TensorRT-LLM

Максимальная производительность от NVIDIA. Оптимизация графа вычислений. До 3× ускорение vs обычный PyTorch.

Open WebUI

Веб-интерфейс как у ChatGPT для вашей локальной модели. Управление пользователями, история чатов, RAG.

Конфигурации серверов
для LLM

Подберём оптимальную конфигурацию под вашу модель и нагрузку

Стартовый

1× NVIDIA H100 80GB

Модели до 34B параметров

✓ Intel Xeon w5-3425 / AMD EPYC 9354
✓ 256GB DDR5 ECC
✓ 2TB NVMe Gen4
✓ LLaMA 3 8B: ~120 tok/s
✓ Mistral 7B: ~140 tok/s

от 25 700 000 ₸

Популярный

4× NVIDIA H100 SXM

Модели до 70B, fine-tuning

✓ Dual AMD EPYC 9454
✓ 1TB DDR5 ECC
✓ 4TB NVMe Gen5 RAID
✓ NVLink 900 GB/s
✓ LLaMA 3 70B: ~80 tok/s

от 57 600 000 ₸

Максимальный

8× NVIDIA H200 141GB

Модели 405B+, кластеры

✓ Dual AMD EPYC 9654
✓ 2TB DDR5 ECC
✓ 8TB NVMe Gen5 RAID
✓ NVLink + InfiniBand 400GbE
✓ LLaMA 3.1 405B: ~50 tok/s

от 112 000 000 ₸

Смотрите также

Обучение AI/ML

GPU серверы для training

Инференс AI

Деплой AI моделей

Рендеринг и 3D

Blender, V-Ray, OctaneRender

Серверы для 1С

1С:Предприятие, ERP, УТ

Видеонаблюдение

Хранение и AI-аналитика

Виртуализация

VMware, Proxmox, Hyper-V

Хранение данных

NAS, SAN, резервное копирование

Частые вопросы

Зависит от размера модели. Модели 7B (Mistral 7B, LLaMA 3 8B) — 1× GPU с 24GB VRAM (RTX 4090). Модели 13-34B — 1× H100 80GB. Модели 70B — 2-4× H100 с NVLink. Модели 405B+ — 8× H100 SXM или кластер. Мы подберём конфигурацию под вашу модель.

При генерации от 50 млн токенов в месяц собственный сервер окупается за 4-8 месяцев. GPT-4o стоит ~$5/1M output tokens. На своём сервере с H100 стоимость стремится к нулю после окупации железа. Плюс нет лимитов rate-limit.

vLLM — лучший для высоконагруженного inference с PagedAttention. Ollama — простой запуск для тестирования. llama.cpp — оптимизированный CPU+GPU inference. Text Generation Inference (TGI) от Hugging Face. Мы устанавливаем и настраиваем окружение.

Да. Серверы подходят как для inference, так и для fine-tuning через LoRA/QLoRA. Для fine-tuning модели 70B рекомендуем 4× H100 с DeepSpeed. Результат — ваша кастомная модель, обученная на ваших данных.

Сервер физически находится у вас или в дата-центре в Алматы. Данные не покидают периметр. Нет зависимости от внешних API. Подходит для банков, госорганов, медицинских компаний с требованиями к хранению данных в РК.