контент-хаб блог · туториалы · серии · библиотека · подкасты

Блог h3llo — длинные разборы, кейсы, постмортемы

Инженерные статьи от команды h3llo и наших клиентов: от «kubernetes без бубна» до «inference на 1000 RPS». Без marketing-fluff.

тема

⌕

Engineering · долгий разбор

Как мы переписали control plane Kubernetes — и стали поднимать кластер за 90 секунд

Раньше у нас уходило 6–8 минут от «нажал кнопку» до working API. Это разбор того, что мы переписали в провижене, etcd-snapshotting и образах нод — и какие тупики прошли по дороге.

ИСИлья Самойленко · Lead, Platform·12 ноября · 18 мин

Кейс

Свежие материалы

9 материалов

Engineering

Network policies для тех, кто всё откладывал на потом

Берём пустой кластер и за час превращаем его в zero-trust. На реальных примерах с egress, dns и инцидент-постмортемом.

МЛМаша Лопатина9 нояб · 11 мин

AI · ML

Inference-кластер на 200 RPS: что нам пришлось переделать

Batching, KV-cache, autoscaling по latency, а не по CPU. Что сломалось в первый день, что — во второй, и что наконец заработало.

АПАртём Панов6 нояб · 16 мин

FinOps

Right-sizing без боли: как мы режем счёт за k8s в два раза

VPA в режиме рекомендаций, реалистичные requests, ночные spot-ноды. Готовая методика и Grafana-дашборды (можно копировать).

АЗАлина Зуева1 нояб · 10 мин

Кейс

Lazyboard: как мы переехали с трёх облаков на одно за 11 дней

Стартап, 22 микросервиса, 4 БД и одна паника по дороге. Подробный таймлайн и где именно мы остановились бы, если б не дедлайн.

LBкоманда Lazyboard28 окт · 13 мин

Inside h3llo

Почему у нас нет «Premium-поддержки» и почему так и останется

Спойлер: потому что это нечестная сделка. Объясняем, как устроен support-tier у h3llo и сколько стоит каждая минута SRE-инженера.

ДФДима Фёдоров24 окт · 8 мин

Security

Pod Security Admission: три профиля и одна засада

Restricted-профиль ломает половину helm-чартов. Рассказываем, как мы накатывали PSA постепенно, без даунтайма и грязных слов.

ВМВлад Морозов18 окт · 12 мин

Engineering

etcd, который не падает: бэкапы, watch-задачи и фрагментация

Постмортем по двум инцидентам и список из 9 настроек, которые мы теперь применяем по умолчанию. С метриками, которые надо мониторить.

ИСИлья Самойленко15 окт · 15 мин

AI · ML

RAG в проде: вектора, latency и что не пишут в туториалах

Hybrid retrieval, переранжирование, query rewriting. Как мы держим p95 ≤ 800 мс на корпусе из 4 млн документов.

ЛКЛиза Калмыкова10 окт · 13 мин

Кейс

Госсектор и облака: как мы провели проверку ФСТЭК (и не сошли с ума)

Что от нас потребовали, чем закончилось, какие документы пригодились. Полезно тем, кто только думает о сертификации УЗ-3/4.

НКНаташа Кравец5 окт · 11 мин

Блог h3llo — длинные разборы, кейсы, постмортемы

Как мы переписали control plane Kubernetes — и стали поднимать кластер за 90 секунд

Hyperion AI: миграция с EKS за 6 недель и −2.4 млн ₽/мес

B300 Blackwell vs H100 на Llama 3.1 70B: реальные цифры

Как мы устроили on-call: roster, эскалации и пейджеры из 2024-го

Свежие материалы

Network policies для тех, кто всё откладывал на потом

Inference-кластер на 200 RPS: что нам пришлось переделать

Right-sizing без боли: как мы режем счёт за k8s в два раза

Lazyboard: как мы переехали с трёх облаков на одно за 11 дней

Почему у нас нет «Premium-поддержки» и почему так и останется

Pod Security Admission: три профиля и одна засада

etcd, который не падает: бэкапы, watch-задачи и фрагментация

RAG в проде: вектора, latency и что не пишут в туториалах

Госсектор и облака: как мы провели проверку ФСТЭК (и не сошли с ума)

Раз в две недели — лучшее в почту

Блог h3llo — длинные разборы, кейсы, постмортемы

Как мы переписали control plane Kubernetes — и стали поднимать кластер за 90 секунд

Hyperion AI: миграция с EKS за 6 недель и −2.4 млн ₽/мес

B300 Blackwell vs H100 на Llama 3.1 70B: реальные цифры

Как мы устроили on-call: roster, эскалации и пейджеры из 2024-го

Свежие материалы

Network policies для тех, кто всё откладывал на потом

Inference-кластер на 200 RPS: что нам пришлось переделать

Right-sizing без боли: как мы режем счёт за k8s в два раза

Lazyboard: как мы переехали с трёх облаков на одно за 11 дней

Почему у нас нет «Premium-поддержки» и почему так и останется

Pod Security Admission: три профиля и одна засада

etcd, который не падает: бэкапы, watch-задачи и фрагментация

RAG в проде: вектора, latency и что не пишут в туториалах

Госсектор и облака: как мы провели проверку ФСТЭК (и не сошли с ума)

Раз в две недели — лучшее в почту