SRE: data-driven подход к управлению надежностью систем

91 студент зачислен

Онлайн

в удобное время

Сертификат

о переподготовке

Доступ к курсу

навсегда

Мы проводим этот практикум для инженеров в шестой раз. Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.

Кому подойдёт этот курс

Людям

SRE-инженером может стать как инженер эксплуатации, так и разработчик. Во время обучения вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.

Бизнесу

SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».

Чему вы научитесь

Внедрять правки

прямо в прод;

Поймете, какие метрики

собирать и как это делать правильно;

Узнаете, как снизить ущерб

от отказов в будущем.

Узнаете,

как решать конкретные проблемы, связанные с надежностью сервиса;

Научитесь быстро поднимать продакшн

силами команды;

Содержание курса

Тема 1: Мониторинг

Зачем нужен мониторинг

Перцентили

Alerting

Observability

Тема 2: Теория SRE

SLO, SLI, SLA

Durability

Error budget

В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.

Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.

Второй модуль построен вокруг решения двух кейсов: зависимость upstream и проблемы с архитектурой. Спикеры расскажут про управление инцидентами, правила для пожарной команды и работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.

Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.

В третьем модуле мы разберем кейс, посвященный проблеме с окружением, а также поэтапно разберем, как внедрять SRE в компании и узнаем опыт компаний, в которых работают спикеры курса.

Будьте первым кто оставит отзыв.

Оставить отзыв можно только с предоставлением сертификата о прохождении курса.

Пожалуйста, войдите чтобы оставить отзыв
SRE: data-driven подход к управлению надежностью систем
Цена:
150 000 ₽ 75 000 ₽