Перейти к содержанию

Site Reliability Guardian

Предварительные требования

Разрешения

Scope Описание
app-settings:objects:read Чтение конфигураций guardian
app-settings:objects:write Запись конфигураций guardian
storage:buckets:read Чтение системных данных из Grail
storage:logs:read Чтение логов
storage:metrics:read Чтение метрик
storage:bizevents:read Чтение бизнес-событий
storage:events:write Запись бизнес-событий
storage:events:read Чтение событий
storage:spans:read Чтение спанов
storage:entities:read Чтение сущностей

Установка

Убедитесь, что приложение установлено.

Обзор

Site Reliability Guardian автоматизирует анализ влияния изменений на доступность, производительность и ёмкость сервисов. Помогает принимать решения о релизах и применять SLO.

Концепции

1. Guardian

Группировка объективов вокруг набора сущностей. Максимум 1000 guardian. Два типа:

Lifecycle guardian (события SDLC) — для жизненного цикла разработки: quality gates, нагрузочное тестирование, мониторинг состояния.

Business guardian (бизнес-события) — для бизнес-аналитики поведения приложений.

Типы используют разные источники данных (events vs bizevents) — адаптируйте DQL-запросы при переключении.

2. Объектив

Измерение производительности, доступности, ёмкости и безопасности. Максимум 50 на guardian.

3. Индикатор

Значение, получаемое через DQL, по которому проверяются пороги.

4. Статические пороги

Определяют соответствие индикатора объективу. Результат: Pass, Warning, Fail или Info (без порогов).

5. Автоадаптивные пороги

Динамические лимиты на основе предыдущих валидаций. Требуют минимум 5 валидаций для обучения. Доступны только для DQL.

6. Оператор

Сравнение: «меньшее значение лучше» или «большее значение лучше».

7. Теги

Формат key:value. Используются для организации и фильтрации guardian.

Пример DQL для фильтрации по тегу:

fetch bizevents
| filter event.type == "guardian.validation.finished"
| expand guardian.tags
| filter contains(guardian.tags, "my-tagged-guardian")

8. Действие рабочего процесса Guardian

Автоматизация через Workflows (триггер по событию или API).

Добавление в существующий Workflow: откройте Workflow, добавьте действие после последней задачи.

Создание нового: создайте Workflow, выберите триггер, добавьте действие Site Reliability Guardian, выберите guardian и настройте временной интервал.

Создание со страницы guardian: наведите на guardian > Automate. Создаётся Workflow с триггером и действием валидации.

9. Валидация

Запускается автоматически (по триггеру Workflow) или вручную (кнопка Validate).

Результат объектива:

Серьёзность Статус Описание
1 Error Ошибка при получении индикатора
2 Fail Нарушен порог отказа
3 Warning В диапазоне предупреждения
4 Pass В целевом диапазоне
5 Info Информационное значение

Общий результат: наиболее серьёзный из индивидуальных результатов.

10. Сегменты

Используйте Segments в DQL-объективах для структуризации и фильтрации данных.

Связанные темы

  • Добавление и доступ к ссылкам на аналитику валидации