OpenAI-совместимый API на наших GPU в РФ. Llama 3.1, Qwen 2.5, Mixtral — стриминг, function calling, JSON mode. Fine-tuning на B300. ФЗ-152 совместимо. Без vendor lock и без перевода данных за границу.
Frontier-модели от OpenAI и Anthropic — отличные, но за границей. Open-source-модели в один клик не найти. Своя VM с vLLM — хрупко. Мы сделали то, что между.
Не нужно учить новый SDK или переписывать клиент. Меняете base_url в openai-клиенте — всё, ваш код работает на наших моделях.
# drop-in замена openai api
$ curl https://api.h3llo.cloud/v1/chat/completions \
-H "Authorization: Bearer h3llo_•••" \
-H "Content-Type: application/json" \
-d '{
"model": "llama-3.1-70b",
"stream": true,
"messages": [
{"role": "user", "content": "Объясни Raft за 3 предложения"}
]
}'
# через ~80 мс — первый токен:
data: {"choices":[{"delta":{"content":"Raft"}}]}
data: {"choices":[{"delta":{"content":" — алгоритм"}}]}
data: {"choices":[{"delta":{"content":" консенсуса..."}}]}# тот же openai SDK, изменён только base_url
from openai import OpenAI
client = OpenAI(
base_url="https://api.h3llo.cloud/v1",
api_key="h3llo_•••",
)
resp = client.chat.completions.create(
model="llama-3.1-70b",
messages=[{"role": "user", "content": "..."}],
stream=True,
)
for chunk in resp:
print(chunk.choices[0].delta.content, end="")Цены в рублях, посекундный биллинг. Контекст — фактический, без скрытых ограничений.
| Модель | Контекст | Input · ₽/M | Output · ₽/M | токенов/сек |
|---|---|---|---|---|
| llama-3.1-70b | 128K | 75 ₽ | 240 ₽ | 240 |
| llama-3.1-405b | 128K | 320 ₽ | 1 100 ₽ | 62 |
| llama-3.1-8bbest · ₽/токен | 128K | 12 ₽ | 32 ₽ | 920 |
| qwen-2.5-72b | 128K | 84 ₽ | 260 ₽ | 210 |
| qwen-2.5-32b | 128K | 38 ₽ | 120 ₽ | 480 |
| mixtral-8x22b | 64K | 92 ₽ | 280 ₽ | 180 |
| e5-mistral-embed | 8K | 5 ₽ | — | — |
| multilingual-e5-large | 512 | 2 ₽ | — | — |
TPS измерены при batch-size 1, int8-квантизация, B300 MIG 141 ГБ. На больших батчах TPS кратно выше — детали в /price.
Per-token биллинг для прототипов и переменной нагрузки. Reserved GPU для предсказуемых счётов. Dedicated — для регулируемых рынков.
Реальные практики, бенчмарки, кейсы. Без воды и маркетинга — забираете PDF, в понедельник применяете.
Llama 3.1 70B, Qwen 2.5: TPS, latency p99, стоимость 1М токенов на разных батчах.
Как мы держим p95 ≤ 800 мс на корпусе из 4 млн документов. С формулами и кодом.
Что мерили, что оптимизировали, какие батчи держим. Реальные цифры до/после.
Качество датасета, валидация, eval-метрики, rollback. Что обязательно проверить.
Threat-модель для LLM-сервиса в продакшене. С примерами и приоритетами.
Production-ready: gateway, OpenAI-compat proxy, Qdrant, Grafana. Для dev/staging/prod.
Не переписываете SDK. Не учите новый API. Просто меняете base_url — и ваш код работает на наших моделях в РФ.
Получить ключ →h3llo auth login · h3llo ai key create — за 30 секунд.https://api.openai.com/v1 → https://api.h3llo.cloud/v1. Всё.model: "llama-3.1-70b" вместо gpt-4. Стриминг работает.Без миграций, без переписывания, без vendor lock. Получаете ключ, меняете base_url — работает.