
Локальный ChatGPT, LLaMA 3, Mistral, Qwen — полный контроль над данными, без лимитов API, фиксированная стоимость
Зачем запускать
LLM локально
Требования GPU по размеру модели
Поддерживаемые
фреймворки и модели
Мы устанавливаем и настраиваем любой фреймворк. Сервер приходит с готовой средой — подключайте модель и работайте.
Конфигурации серверов
для LLM
Подберём оптимальную конфигурацию под вашу модель и нагрузку
- ✓ Intel Xeon w5-3425 / AMD EPYC 9354
- ✓ 256GB DDR5 ECC
- ✓ 2TB NVMe Gen4
- ✓ LLaMA 3 8B: ~120 tok/s
- ✓ Mistral 7B: ~140 tok/s
- ✓ Dual AMD EPYC 9454
- ✓ 1TB DDR5 ECC
- ✓ 4TB NVMe Gen5 RAID
- ✓ NVLink 900 GB/s
- ✓ LLaMA 3 70B: ~80 tok/s
- ✓ Dual AMD EPYC 9654
- ✓ 2TB DDR5 ECC
- ✓ 8TB NVMe Gen5 RAID
- ✓ NVLink + InfiniBand 400GbE
- ✓ LLaMA 3.1 405B: ~50 tok/s
Частые вопросы
Готовы обсудить проект?
Наш инженер подберёт конфигурацию под вашу задачу за 2 часа. Бесплатная консультация.
или напишите в WhatsApp