рассылка раз в две недели · по делу

Лучшее из h3llo, раз в две недели

Анонсы новых постов, эпизодов подкастов, серий и материалов в библиотеке. Без новостей и анонсов фич. Отписаться — одна кнопка, без танцев и тёплых писем «жалко расставаться».

42

выпуска в архиве

14 800

подписчиков

52%

средний open rate

Архив выпусков

42 выпуска · с мая 2024

12 ноября 2025

etcd, control plane и AI-инференс

Как мы переписали control plane K8s до 90 секунд, новый бенчмарк B300 на Llama 70B и три статьи про FinOps. Длинно, по делу.

Как мы переписали control plane Kubernetesetcd, который не падает: бэкапы и фрагментацияInference-кластер на 200 RPS — что переделали

29 октября 2025

FinOps, DDoS-сезон и новый GPU B300

Гайд по right-sizing с реальными метриками, разбор октябрьских DDoS-инцидентов и первые цифры B300 на инференсе.

Right-sizing без боли: режем счёт в 2 разаDDoS-2025: что мы видели и чем заканчивалосьB300 vs H100: первые бенчмарки на наших кластерах

15 октября 2025

On-call в 2025-м: roster, эскалации, метрики

Как у нас устроены дежурства: правила, MTTR-цели, что мы делаем в 3 утра и почему PagerDuty — не наш выбор.

Inside h3llo: как мы устроили on-callMTTR ≤ 15 минут — как держимPostmortem-шаблон, который реально работает

1 октября 2025

Network policies без боли. ML-инференс на 200 RPS

Превращаем пустой кластер в zero-trust за час. И параллельно — как держать стабильные 200 RPS на инференсе LLM.

Network policies для тех, кто откладывалInference-кластер на 200 RPSПочему мы выкинули свой mesh и поставили Cilium

17 сентября 2025

Migration с EKS, Postgres operator и Helm 4

Кейс Hyperion AI: 86 микросервисов, 6 недель, −2.4 М ₽/мес. Плюс мнение о Helm 4 и Postgres operator в проде.

Hyperion AI: миграция с EKS за 6 недельPostgres operator: где работает, где ломаетсяHelm 4: что меняется и стоит ли спешить

3 сентября 2025

RAG в проде: latency, hybrid retrieval, p95

Как мы держим p95 ≤ 800 мс на корпусе из 4 млн документов: hybrid retrieval, query rewriting, переранжирование.

RAG в проде: вектора, latency, p95Чем плох наивный similarity searchQuery rewriting на open-source-моделях

20 августа 2025

etcd-инциденты лета и как мы их разобрали

Два постмортема, девять настроек, которые мы теперь применяем по умолчанию, и список метрик для алертинга.

etcd, который не падаетЧто мы поменяли после читаемого read-impact 14 авгТоп-9 настроек etcd для прода

6 августа 2025

GPU B300 vs H100: бенчмарк на LLM 70B

Llama 3.1 70B, Qwen 2.5: токены/сек, latency p50/p95/p99, стоимость 1М токенов. Цифры с нашего железа.

B300 vs H100 на реальном инференсеЧто выбирать под inference, что под trainingMIG-партиции: когда они выгодны

23 июля 2025

ФСТЭК для облачников: что от вас потребуют

Опыт прохождения проверки ФСТЭК: документы, аттестация клиентского контура, типичные грабли.

Госсектор и облака: проверка ФСТЭК (без паники)УЗ-3 / УЗ-4: что выбирать в зависимости от данныхАттестация клиентского контура — план на 8 недель

9 июля 2025

Pod Security Admission и три профиля

Restricted ломает половину helm-чартов. Рассказываем, как мы накатывали PSA постепенно, без даунтайма и грязных слов.

Pod Security Admission: три профиля и одна засадаЧек-лист по приоритетам effort/impactКак договариваться с product-командами о security