Это правда OpenAI-совместимый API?

Да, целиком. Если ваш код работает с openai.com SDK — он работает с h3llo. Поменяйте base_url и api_key — и всё. Поддерживаем /v1/chat/completions, /v1/completions, /v1/embeddings, streaming, function calling, JSON mode.

Какие модели доступны?

Llama 3.1 (8B / 70B / 405B), Qwen 2.5 (7B / 32B / 72B), Mixtral 8x22B, плюс embedding-модели e5-mistral и multilingual-e5. Список расширяется — раз в 2 недели добавляем что-то по запросам клиентов.

Где физически крутятся модели?

На наших B300 и H100 в дата-центрах в РФ. Никаких внешних API за кулисами, никаких отправок ваших данных через границу. ФЗ-152 и ФЗ-242 совместимо.

Да, на Llama 3.1 и Qwen 2.5. Загружаете датасет (jsonl, до 10 GB), запускаете job через CLI или Web UI — мы тренируем на B300 и отдаём вам endpoint c вашей версией модели. Биллинг — за GPU-часы.

Сколько это стоит?

Inference — посекундный per-token биллинг по моделям (Llama 70B input ≈ 75 ₽/M токенов, output ≈ 240 ₽/M). Fine-tuning — 820 ₽/час GPU MIG 141 ГБ. Dedicated — от 1 600 ₽/час за полный B300. Точные цены в /price.

Есть rate-limits и квоты?

Да, по умолчанию 1 000 RPM и 200 000 TPM на аккаунт — этого хватит почти всем. Если нужно больше — увеличиваем по запросу за минуты.

AI-платформа — h3llo cloud

OpenAI-совместимый API на наших GPU в РФ

OpenAI-совместимый API на наших GPU в РФ. Llama 3.1, Qwen 2.5, Mixtral — стриминг, function calling, JSON mode. Fine-tuning на B300. ФЗ-152 совместимо. Без vendor lock и без перевода данных за границу.

Llama · Qwen · Mixtral · embeddings · fine-tuning · ФЗ-152

# drop-in замена openai api $ curl https://api.h3llo.cloud/v1/chat/completions \ -H "Authorization: Bearer h3llo_•••" \ -H "Content-Type: application/json" \ -d '{ "model": "llama-3.1-70b", "stream": true, "messages": [ {"role": "user", "content": "Объясни Raft за 3 предложения"} ] }' # через ~80 мс — первый токен: data: {"choices":[{"delta":{"content":"Raft"}}]} data: {"choices":[{"delta":{"content":" — алгоритм"}}]} data: {"choices":[{"delta":{"content":" консенсуса..."}}]}

# тот же openai SDK, изменён только base_url from openai import OpenAI client = OpenAI( base_url="https://api.h3llo.cloud/v1", api_key="h3llo_•••", ) resp = client.chat.completions.create( model="llama-3.1-70b", messages=[{"role": "user", "content": "..."}], stream=True, ) for chunk in resp: print(chunk.choices[0].delta.content, end="")

LLM · Llama

llama-3.1-70b

Универсальная рабочая лошадка для чата и RAG. Стриминг, function calling, JSON mode.

Контекст128K

Input75 ₽/M

Output240 ₽/M

Tok/sec240

LLM · Llama

llama-3.1-405b

Frontier-класс для самых сложных задач. Reasoning, длинные цепочки, агенты.

Контекст128K

Input320 ₽/M

Output1 100 ₽/M

Tok/sec62

LLM · Llama · best ₽/токен

llama-3.1-8b

Самая дешёвая модель в каталоге. Идеально для batch-инференса и простых задач.

Контекст128K

Input12 ₽/M

Output32 ₽/M

Tok/sec920

LLM · Qwen

qwen-2.5-72b

Сильна на коде и многоязычии. Альтернатива Llama 70B с лучшим китайским/русским.

Контекст128K

Input84 ₽/M

Output260 ₽/M

Tok/sec210

LLM · Qwen

qwen-2.5-32b

Средний класс — баланс цены и качества. Подходит для агентов и tool use.

Контекст128K

Input38 ₽/M

Output120 ₽/M

Tok/sec480

LLM · MoE

mixtral-8x22b

Mixture-of-Experts: 141 B параметров, активны 39 B. Хорош на reasoning и multi-turn.

Контекст64K

Input92 ₽/M

Output280 ₽/M

Tok/sec180

Embeddings

e5-mistral-embed

Multilingual embeddings для RAG. 4 096-мерный вектор, sentence-aware.

Контекст8K

Input5 ₽/M

Output—

Tok/sec—

Embeddings · лёгкий

multilingual-e5-large

Дешёвая multilingual модель для embeddings — 100+ языков, 1 024-мерный вектор.

Контекст512

Input2 ₽/M

Output—

Tok/sec—

Под что обычно подключаются

01 / rag

RAG в проде

Embedding-модели + чат-инференс с function calling. p99 ≤ 800 мс на корпусе из 4 млн документов.

02 / agents

Агенты и tool use

Function calling, JSON mode, structured outputs. Llama 70B и Qwen 72B держат сложные multi-turn разговоры.

03 / fine-tune

Fine-tuning под домен

Загружаете jsonl, запускаете job на B300. На выходе — endpoint с вашей версией Llama. От 4 часов.

04 / batch

Batch-инференс

Async-job для миллионов запросов. Дешевле inference в 4×, latency в задаче не критична.

OpenAI-совместимый API на наших GPU в РФ

Зачем нам ещё одна inference-платформа

OpenAI / Anthropic напрямую