Мониторинг Azure Machine Learning
- Latest Dynatrace
Dynatrace принимает метрики для нескольких предустановленных пространств имён, включая Azure Machine Learning. Вы можете просматривать метрики для каждого экземпляра сервиса, разделять метрики по нескольким измерениям и создавать пользовательские графики, которые можно закрепить на ваших панелях мониторинга.
Предварительные требования¶
- Dynatrace версии 1.200+
- Environment ActiveGate версии 1.195+
Включение мониторинга¶
Чтобы узнать, как включить мониторинг сервиса, см. Включение мониторинга сервиса.
Просмотр метрик сервиса¶
Вы можете просмотреть метрики сервиса в вашей среде Dynatrace на странице обзора пользовательского устройства или на странице Dashboards.
Просмотр метрик на странице обзора пользовательского устройства¶
Чтобы получить доступ к странице обзора пользовательского устройства:
- Перейдите в
Technologies & Processes Classic. - Отфильтруйте по имени сервиса и выберите соответствующую группу пользовательских устройств.
- После выбора группы пользовательских устройств вы окажетесь на странице обзора группы пользовательских устройств.
- На странице обзора группы пользовательских устройств перечислены все экземпляры (пользовательские устройства), принадлежащие группе. Выберите экземпляр для просмотра страницы обзора пользовательского устройства.
Просмотр метрик на панели мониторинга¶
Если для сервиса имеется предустановленная панель мониторинга, вы получите панель с рекомендованными метриками на странице Dashboards. Вы можете искать конкретные панели, фильтруя по Preset, а затем по Name.
Для уже отслеживаемых сервисов может потребоваться повторно сохранить учётные данные, чтобы предустановленная панель мониторинга появилась на странице Dashboards. Для повторного сохранения учётных данных перейдите в Settings > Cloud and virtualization > Azure, выберите нужный экземпляр Azure, затем нажмите Save.
Вы не можете вносить изменения непосредственно в предустановленную панель мониторинга, но можете клонировать и редактировать её. Чтобы клонировать панель, откройте меню просмотра (...) и выберите Clone. Чтобы удалить панель из списка панелей, вы можете скрыть её. Чтобы скрыть панель, откройте меню просмотра (...) и выберите Hide.
Скрытие панели мониторинга не влияет на других пользователей.



Доступные метрики¶
| Название | Описание | Измерения | Единица измерения | Рекомендуемая |
|---|---|---|---|---|
| Active Cores | Количество активных ядер. | Scenario, ClusterName | Количество | Применимо |
| Active Nodes | Количество активных узлов. Это узлы, которые активно выполняют задание. | Scenario, ClusterName | Количество | Применимо |
| Cancel Requested Runs | Количество запусков, для которых был запрошен отмена в этом рабочем пространстве. Счётчик обновляется при получении запроса на отмену запуска. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | |
| Cancelled Runs | Количество отменённых запусков в этом рабочем пространстве. Счётчик обновляется при успешной отмене запуска. | Scenario, RunType, PublishedPipelineI, ComputeType, PipelineStepType | Количество | |
| Completed Runs | Количество успешно завершённых запусков в этом рабочем пространстве. Счётчик обновляется после завершения запуска и сбора выходных данных. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| CpuUtilization | Процент использования памяти на узле CPU. Использование регистрируется с интервалом в одну минуту. | Scenario, runId, NodeId, ClusterName | Процент | Применимо |
| Errors | Количество ошибок запусков в этом рабочем пространстве. Счётчик обновляется всякий раз, когда запуск сталкивается с ошибкой. | Scenario | Количество | Применимо |
| Failed Runs | Количество неудачных запусков в этом рабочем пространстве. Счётчик обновляется при неудачном завершении запуска. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| Finalizing Runs | Количество запусков, перешедших в состояние финализации в этом рабочем пространстве. Счётчик обновляется, когда запуск завершён, но сбор выходных данных ещё продолжается. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| GpuUtilization | Процент использования памяти на узле GPU. Использование регистрируется с интервалом в одну минуту. | Scenario, runId, NodeId, DeviceId, ClusterName | Процент | Применимо |
| Idle Cores | Количество простаивающих ядер. | Scenario, ClusterName | Количество | Применимо |
| Idle Nodes | Количество простаивающих узлов. Простаивающие узлы — это узлы, которые не выполняют никаких заданий, но могут принять новое задание при его наличии. | Scenario, ClusterName | Количество | Применимо |
| Leaving Cores | Количество уходящих ядер. | Scenario, ClusterName | Количество | Применимо |
| Leaving Nodes | Количество уходящих узлов. Уходящие узлы — это узлы, которые только что завершили обработку задания и перейдут в состояние простоя. | Scenario, ClusterName | Количество | Применимо |
| Model Deploy Failed | Количество развёртываний моделей, завершившихся ошибкой, в этом рабочем пространстве. | Scenario, StatusCode | Количество | Применимо |
| Model Deploy Started | Количество начатых развёртываний моделей в этом рабочем пространстве. | Scenario | Количество | Применимо |
| Model Deploy Succeeded | Количество успешных развёртываний моделей в этом рабочем пространстве. | Scenario | Количество | Применимо |
| Model Register Failed | Количество неудачных регистраций моделей в этом рабочем пространстве. | Scenario, StatusCode | Количество | Применимо |
| Model Register Succeeded | Количество успешных регистраций моделей в этом рабочем пространстве. | Scenario | Количество | Применимо |
| Not Responding Runs | Количество запусков, не отвечающих, в этом рабочем пространстве. Счётчик обновляется, когда запуск переходит в состояние «Не отвечает». | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| Not Started Runs | Количество запусков в состоянии «Не начат» в этом рабочем пространстве. Счётчик обновляется при получении запроса на создание запуска, но информация о запуске ещё не заполнена. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| Preempted Cores | Количество вытесненных ядер. | Scenario, ClusterName | Количество | Применимо |
| Preempted Nodes | Количество вытесненных узлов. Это узлы с низким приоритетом, которые были изъяты из доступного пула узлов. | Scenario, ClusterName | Количество | Применимо |
| Preparing Runs | Количество запусков, находящихся в стадии подготовки в этом рабочем пространстве. Счётчик обновляется, когда запуск переходит в состояние подготовки при настройке среды выполнения. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | |
| Provisioning Runs | Количество запусков, находящихся в стадии выделения ресурсов в этом рабочем пространстве. Счётчик обновляется, когда запуск ожидает создания или выделения вычислительного ресурса. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | |
| Queued Runs | Количество запусков в очереди в этом рабочем пространстве. Счётчик обновляется, когда запуск ставится в очередь на вычислительном ресурсе. Может возникать при ожидании готовности необходимых вычислительных узлов. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| Quota Utilization Percentage | Процент использования квоты. | Scenario, ClusterName, VmFamilyName, VmPriority | Процент | Применимо |
| Started Runs | Количество запущенных запусков в этом рабочем пространстве. Счётчик обновляется, когда запуск начинает выполняться на необходимых ресурсах. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| Starting Runs | Количество начатых запусков в этом рабочем пространстве. Счётчик обновляется после запроса на создание запуска и заполнения информации о запуске, такой как Run Id. | Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType | Количество | Применимо |
| Total Cores | Общее количество ядер. | Scenario, ClusterName | Количество | Применимо |
| Total Nodes | Общее количество узлов. Это общее количество включает Active Nodes, Idle Nodes, Unusable Nodes, Preempted Nodes, Leaving Nodes. | Scenario, ClusterName | Количество | Применимо |
| Unusable Cores | Количество неиспользуемых ядер. | Scenario, ClusterName | Количество | Применимо |
| Unusable Nodes | Количество неиспользуемых узлов. Неиспользуемые узлы не функционируют из-за неразрешимой проблемы. Azure переработает эти узлы. | Scenario, ClusterName | Количество | Применимо |
| Warnings | Количество предупреждений при запусках в этом рабочем пространстве. Счётчик обновляется всякий раз, когда запуск сталкивается с предупреждением. | Scenario | Количество | Применимо |