Когда alerting лучше не использовать или использовать осторожно?
Что хотят услышать интервьюеры:
Суть: alert должен срабатывать на пользовательский эффект или симптом, а не на любой шум.
Ответ:
Пример:
p99 latency > SLO for 10m Практический акцент: Оцените trade-off: простота, производительность, тестируемость, связность пакетов и цена поддержки.
Типичная ошибка: алертить на каждую WARN-строку и получить alert fatigue.
Как отвечать на собеседовании: Хороший ответ связывает logs, metrics, traces, SLO и debugging production-инцидентов.