h3llo cloud/продукты/AI-платформа
● ai-платформаopenai-совместимо

OpenAI-совместимыйAPI на наших GPUв РФ

OpenAI-совместимый API на наших GPU в РФ. Llama 3.1, Qwen 2.5, Mixtral — стриминг, function calling, JSON mode. Fine-tuning на B300. ФЗ-152 совместимо. Без vendor lock и без перевода данных за границу.

Llama · Qwen · Mixtral · embeddings · fine-tuning · ФЗ-152
llama-3.1-70b · streaming · msk-1
active
curl /v1/chat/completions
$
OpenAI-совместимый APILlama 3.1 70B · 240 ток/секB300 Blackwell · in-housefine-tuning из коробкиembeddings · multilingualstreaming · function callingФЗ-152 · данные в РФпосекундный биллингdrop-in замена openai
OpenAI-совместимый APILlama 3.1 70B · 240 ток/секB300 Blackwell · in-housefine-tuning из коробкиembeddings · multilingualstreaming · function callingФЗ-152 · данные в РФпосекундный биллингdrop-in замена openai

Зачем нам ещё одна inference-платформа

Frontier-модели от OpenAI и Anthropic — отличные, но за границей. Open-source-модели в один клик не найти. Своя VM с vLLM — хрупко. Мы сделали то, что между.

альтернатива А

OpenAI / Anthropic напрямую

  • Самые свежие frontier-модели
  • Данные уходят за границу
  • Цены в долларах · валютный риск
  • ФЗ-152 — нет, ФЗ-242 — нет
  • Latency p99 ≥ 800 мс из РФ
h3llo · ai

AI-платформа h3llo

  • OpenAI-совместимый API — drop-in замена
  • Open-source модели на B300/H100 в РФ
  • Цены в рублях, посекундный биллинг
  • ФЗ-152, ФЗ-242, ФСТЭК — да
  • p99 ≤ 80 мс по Москве, fine-tuning из коробки
  • Свой dashboard, RBAC, audit log
альтернатива Б

Запустить vLLM на VM самому

  • Полный контроль над инференсом
  • Сами настраиваете batching и KV-cache
  • Сами разбираетесь с GPU-utilization
  • Сами держите autoscaling под нагрузку
  • Нет drop-in OpenAI совместимости
● dx

Один base_url — и весь openai SDK ваш

Не нужно учить новый SDK или переписывать клиент. Меняете base_url в openai-клиенте — всё, ваш код работает на наших моделях.

curl · drop-incopy
# drop-in замена openai api
$ curl https://api.h3llo.cloud/v1/chat/completions \
    -H "Authorization: Bearer h3llo_•••" \
    -H "Content-Type: application/json" \
    -d '{
      "model": "llama-3.1-70b",
      "stream": true,
      "messages": [
        {"role": "user", "content": "Объясни Raft за 3 предложения"}
      ]
    }'

# через ~80 мс — первый токен:
data: {"choices":[{"delta":{"content":"Raft"}}]}
data: {"choices":[{"delta":{"content":" — алгоритм"}}]}
data: {"choices":[{"delta":{"content":" консенсуса..."}}]}
Python · openai SDKSDK
# тот же openai SDK, изменён только base_url
from openai import OpenAI

client = OpenAI(
    base_url="https://api.h3llo.cloud/v1",
    api_key="h3llo_•••",
)

resp = client.chat.completions.create(
    model="llama-3.1-70b",
    messages=[{"role": "user", "content": "..."}],
    stream=True,
)
for chunk in resp:
    print(chunk.choices[0].delta.content, end="")
● каталогобновляется

Модели, которые крутятся прямо сейчас

Цены в рублях, посекундный биллинг. Контекст — фактический, без скрытых ограничений.

МодельКонтекстInput · ₽/MOutput · ₽/Mтокенов/сек
llama-3.1-70b128K75 ₽240 ₽240
llama-3.1-405b128K320 ₽1 100 ₽62
llama-3.1-8bbest · ₽/токен128K12 ₽32 ₽920
qwen-2.5-72b128K84 ₽260 ₽210
qwen-2.5-32b128K38 ₽120 ₽480
mixtral-8x22b64K92 ₽280 ₽180
e5-mistral-embed8K5 ₽
multilingual-e5-large5122 ₽

TPS измерены при batch-size 1, int8-квантизация, B300 MIG 141 ГБ. На больших батчах TPS кратно выше — детали в /price.

● use cases

Под что обычно подключаются

01 / rag
RAG в проде
Embedding-модели + чат-инференс с function calling. p99 ≤ 800 мс на корпусе из 4 млн документов.
02 / agents
Агенты и tool use
Function calling, JSON mode, structured outputs. Llama 70B и Qwen 72B держат сложные multi-turn разговоры.
03 / fine-tune
Fine-tuning под домен
Загружаете jsonl, запускаете job на B300. На выходе — endpoint с вашей версией Llama. От 4 часов.
04 / batch
Batch-инференс
Async-job для миллионов запросов. Дешевле inference в 4×, latency в задаче не критична.
● цены

Платите так, как вам удобнее

Per-token биллинг для прототипов и переменной нагрузки. Reserved GPU для предсказуемых счётов. Dedicated — для регулируемых рынков.

pay-as-you-go
Платите за каждый токен. Без минимумов и подписок. Идеально для прототипов и переменной нагрузки.
от 12 ₽ / 1M input · llama-3.1-8b
  • Все модели в каталоге
  • Streaming + function calling
  • Rate-limit 1 000 RPM
  • Биллинг per-token, посекундно
популярный
reserved gpu
Зарезервированные MIG-партиции на B300. Гарантированная пропускная способность, фиксированный счёт.
от 250 ₽ / час · MIG 40 ГБ
  • Гарантированный latency p99
  • MIG 40 / 80 / 141 ГБ или Full B300
  • Биллинг почасовой
  • Свои custom-модели в endpoint
  • Rate-limit отключаем
dedicated
Целиком ваши B300 ноды, изолированный inference. Под госсектор и регулируемые рынки.
по запросу
  • Dedicated B300 / H100 кластер
  • Изолированный inference контур
  • ФЗ-152 / ФСТЭК / PCI DSS
  • Custom SLA от 99,99%
  • Персональный ML-инженер
● материалыбесплатно

Гайды и обзоры по AI-инфраструктуре

Реальные практики, бенчмарки, кейсы. Без воды и маркетинга — забираете PDF, в понедельник применяете.

Все материалы →
Бенчмарк · 2025
B300 vs H100 на Llama 70B

GPU-бенчмарк: реальные токены/сек на нашем железе

Llama 3.1 70B, Qwen 2.5: TPS, latency p99, стоимость 1М токенов на разных батчах.

отчёт~15 мин
Гайд · 28 стр
RAG в проде от 0 до 200 RPS

Архитектура RAG: hybrid retrieval, reranking, p95

Как мы держим p95 ≤ 800 мс на корпусе из 4 млн документов. С формулами и кодом.

PDF~30 мин
Кейс · Hyperion
Inference 200 RPS на дешёвых GPU

Hyperion AI: 0 → 200 RPS за 6 недель

Что мерили, что оптимизировали, какие батчи держим. Реальные цифры до/после.

кейс~25 мин
Чек-лист · PDF
Fine-tuning перед боем

26 пунктов перед запуском fine-tune в прод

Качество датасета, валидация, eval-метрики, rollback. Что обязательно проверить.

12 стр~20 мин
Гайд · 22 стр
Безопасность LLM без паранойи

Prompt injection, data leakage, audit

Threat-модель для LLM-сервиса в продакшене. С примерами и приоритетами.

PDF~25 мин
Шаблоны · GitHub
Terraform для AI-стека

Готовые модули: API + vector DB + observability

Production-ready: gateway, OpenAI-compat proxy, Qdrant, Grafana. Для dev/staging/prod.

репо5 модулей
● quickstart

Поменять base_url — и вы уже на h3llo

Не переписываете SDK. Не учите новый API. Просто меняете base_url — и ваш код работает на наших моделях в РФ.

Получить ключ →
1

Получить API-ключ

h3llo auth login · h3llo ai key create — за 30 секунд.
2

Поменять base_url

https://api.openai.com/v1 https://api.h3llo.cloud/v1. Всё.
3

Выбрать модель

model: "llama-3.1-70b" вместо gpt-4. Стриминг работает.
4

Деплоить, что хочется

Ваш код не меняется — только endpoint. Function calling, JSON mode, embeddings — всё на месте.
● faq

Что обычно спрашивают

Это правда OpenAI-совместимый API?
Да, целиком. Если ваш код работает с openai.com SDK — он работает с h3llo. Поменяйте base_url и api_key — и всё. Поддерживаем /v1/chat/completions, /v1/completions, /v1/embeddings, streaming, function calling, JSON mode.
Какие модели доступны?
Llama 3.1 (8B / 70B / 405B), Qwen 2.5 (7B / 32B / 72B), Mixtral 8x22B, плюс embedding-модели e5-mistral и multilingual-e5. Список расширяется — раз в 2 недели добавляем что-то по запросам клиентов.
Где физически крутятся модели?
На наших B300 и H100 в дата-центрах в РФ. Никаких внешних API за кулисами, никаких отправок ваших данных через границу. ФЗ-152 и ФЗ-242 совместимо.
А fine-tuning?
Да, на Llama 3.1 и Qwen 2.5. Загружаете датасет (jsonl, до 10 GB), запускаете job через CLI или Web UI — мы тренируем на B300 и отдаём вам endpoint c вашей версией модели. Биллинг — за GPU-часы.
Сколько это стоит?
Inference — посекундный per-token биллинг по моделям (Llama 70B input ≈ 75 ₽/M токенов, output ≈ 240 ₽/M). Fine-tuning — 820 ₽/час GPU MIG 141 ГБ. Dedicated — от 1 600 ₽/час за полный B300. Точные цены в /price.
Есть rate-limits и квоты?
Да, по умолчанию 1 000 RPM и 200 000 TPM на аккаунт — этого хватит почти всем. Если нужно больше — увеличиваем по запросу за минуты.
● drop-in замена openai

30 секунд —
и ваш код на h3llo

Без миграций, без переписывания, без vendor lock. Получаете ключ, меняете base_url — работает.

Получить API-ключ →Документация