Лучшее из h3llo, раз в две недели
Анонсы новых постов, эпизодов подкастов, серий и материалов в библиотеке. Без новостей и анонсов фич. Отписаться — одна кнопка, без танцев и тёплых писем «жалко расставаться».
Архив выпусков
42 выпуска · с мая 2024etcd, control plane и AI-инференс
Как мы переписали control plane K8s до 90 секунд, новый бенчмарк B300 на Llama 70B и три статьи про FinOps. Длинно, по делу.
FinOps, DDoS-сезон и новый GPU B300
Гайд по right-sizing с реальными метриками, разбор октябрьских DDoS-инцидентов и первые цифры B300 на инференсе.
On-call в 2025-м: roster, эскалации, метрики
Как у нас устроены дежурства: правила, MTTR-цели, что мы делаем в 3 утра и почему PagerDuty — не наш выбор.
Network policies без боли. ML-инференс на 200 RPS
Превращаем пустой кластер в zero-trust за час. И параллельно — как держать стабильные 200 RPS на инференсе LLM.
Migration с EKS, Postgres operator и Helm 4
Кейс Hyperion AI: 86 микросервисов, 6 недель, −2.4 М ₽/мес. Плюс мнение о Helm 4 и Postgres operator в проде.
RAG в проде: latency, hybrid retrieval, p95
Как мы держим p95 ≤ 800 мс на корпусе из 4 млн документов: hybrid retrieval, query rewriting, переранжирование.
etcd-инциденты лета и как мы их разобрали
Два постмортема, девять настроек, которые мы теперь применяем по умолчанию, и список метрик для алертинга.
GPU B300 vs H100: бенчмарк на LLM 70B
Llama 3.1 70B, Qwen 2.5: токены/сек, latency p50/p95/p99, стоимость 1М токенов. Цифры с нашего железа.
ФСТЭК для облачников: что от вас потребуют
Опыт прохождения проверки ФСТЭК: документы, аттестация клиентского контура, типичные грабли.
Pod Security Admission и три профиля
Restricted ломает половину helm-чартов. Рассказываем, как мы накатывали PSA постепенно, без даунтайма и грязных слов.