Site Reliability Guardian¶
Предварительные требования¶
Разрешения¶
| Scope | Описание |
|---|---|
app-settings:objects:read |
Чтение конфигураций guardian |
app-settings:objects:write |
Запись конфигураций guardian |
storage:buckets:read |
Чтение системных данных из Grail |
storage:logs:read |
Чтение логов |
storage:metrics:read |
Чтение метрик |
storage:bizevents:read |
Чтение бизнес-событий |
storage:events:write |
Запись бизнес-событий |
storage:events:read |
Чтение событий |
storage:spans:read |
Чтение спанов |
storage:entities:read |
Чтение сущностей |
Установка¶
Убедитесь, что приложение установлено.
Обзор¶
Site Reliability Guardian автоматизирует анализ влияния изменений на доступность, производительность и ёмкость сервисов. Помогает принимать решения о релизах и применять SLO.
Концепции¶
1. Guardian¶
Группировка объективов вокруг набора сущностей. Максимум 1000 guardian. Два типа:
Lifecycle guardian (события SDLC) — для жизненного цикла разработки: quality gates, нагрузочное тестирование, мониторинг состояния.
Business guardian (бизнес-события) — для бизнес-аналитики поведения приложений.
Типы используют разные источники данных (events vs bizevents) — адаптируйте DQL-запросы при переключении.
2. Объектив¶
Измерение производительности, доступности, ёмкости и безопасности. Максимум 50 на guardian.
3. Индикатор¶
Значение, получаемое через DQL, по которому проверяются пороги.
4. Статические пороги¶
Определяют соответствие индикатора объективу. Результат: Pass, Warning, Fail или Info (без порогов).
5. Автоадаптивные пороги¶
Динамические лимиты на основе предыдущих валидаций. Требуют минимум 5 валидаций для обучения. Доступны только для DQL.
6. Оператор¶
Сравнение: «меньшее значение лучше» или «большее значение лучше».
7. Теги¶
Формат key:value. Используются для организации и фильтрации guardian.
Пример DQL для фильтрации по тегу:
fetch bizevents
| filter event.type == "guardian.validation.finished"
| expand guardian.tags
| filter contains(guardian.tags, "my-tagged-guardian")
8. Действие рабочего процесса Guardian¶
Автоматизация через Workflows (триггер по событию или API).
Добавление в существующий Workflow: откройте Workflow, добавьте действие после последней задачи.
Создание нового: создайте Workflow, выберите триггер, добавьте действие Site Reliability Guardian, выберите guardian и настройте временной интервал.
Создание со страницы guardian: наведите на guardian > Automate. Создаётся Workflow с триггером и действием валидации.
9. Валидация¶
Запускается автоматически (по триггеру Workflow) или вручную (кнопка Validate).
Результат объектива:
| Серьёзность | Статус | Описание |
|---|---|---|
| 1 | Error | Ошибка при получении индикатора |
| 2 | Fail | Нарушен порог отказа |
| 3 | Warning | В диапазоне предупреждения |
| 4 | Pass | В целевом диапазоне |
| 5 | Info | Информационное значение |
Общий результат: наиболее серьёзный из индивидуальных результатов.
10. Сегменты¶
Используйте Segments в DQL-объективах для структуризации и фильтрации данных.
Связанные темы¶
- Добавление и доступ к ссылкам на аналитику валидации