Перейти к содержанию

Мониторинг Azure Machine Learning

  • Latest Dynatrace

Dynatrace принимает метрики для нескольких предустановленных пространств имён, включая Azure Machine Learning. Вы можете просматривать метрики для каждого экземпляра сервиса, разделять метрики по нескольким измерениям и создавать пользовательские графики, которые можно закрепить на ваших панелях мониторинга.

Предварительные требования

  • Dynatrace версии 1.200+
  • Environment ActiveGate версии 1.195+

Включение мониторинга

Чтобы узнать, как включить мониторинг сервиса, см. Включение мониторинга сервиса.

Просмотр метрик сервиса

Вы можете просмотреть метрики сервиса в вашей среде Dynatrace на странице обзора пользовательского устройства или на странице Dashboards.

Просмотр метрик на странице обзора пользовательского устройства

Чтобы получить доступ к странице обзора пользовательского устройства:

  1. Перейдите в Technologies Technologies & Processes Classic.
  2. Отфильтруйте по имени сервиса и выберите соответствующую группу пользовательских устройств.
  3. После выбора группы пользовательских устройств вы окажетесь на странице обзора группы пользовательских устройств.
  4. На странице обзора группы пользовательских устройств перечислены все экземпляры (пользовательские устройства), принадлежащие группе. Выберите экземпляр для просмотра страницы обзора пользовательского устройства.

Просмотр метрик на панели мониторинга

Если для сервиса имеется предустановленная панель мониторинга, вы получите панель с рекомендованными метриками на странице Dashboards. Вы можете искать конкретные панели, фильтруя по Preset, а затем по Name.

Для уже отслеживаемых сервисов может потребоваться повторно сохранить учётные данные, чтобы предустановленная панель мониторинга появилась на странице Dashboards. Для повторного сохранения учётных данных перейдите в Settings > Cloud and virtualization > Azure, выберите нужный экземпляр Azure, затем нажмите Save.

Вы не можете вносить изменения непосредственно в предустановленную панель мониторинга, но можете клонировать и редактировать её. Чтобы клонировать панель, откройте меню просмотра (...) и выберите Clone. Чтобы удалить панель из списка панелей, вы можете скрыть её. Чтобы скрыть панель, откройте меню просмотра (...) и выберите Hide.

Скрытие панели мониторинга не влияет на других пользователей.

Клонирование и скрытие Azure

Machine

Learning

Доступные метрики

Название Описание Измерения Единица измерения Рекомендуемая
Active Cores Количество активных ядер. Scenario, ClusterName Количество Применимо
Active Nodes Количество активных узлов. Это узлы, которые активно выполняют задание. Scenario, ClusterName Количество Применимо
Cancel Requested Runs Количество запусков, для которых был запрошен отмена в этом рабочем пространстве. Счётчик обновляется при получении запроса на отмену запуска. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество
Cancelled Runs Количество отменённых запусков в этом рабочем пространстве. Счётчик обновляется при успешной отмене запуска. Scenario, RunType, PublishedPipelineI, ComputeType, PipelineStepType Количество
Completed Runs Количество успешно завершённых запусков в этом рабочем пространстве. Счётчик обновляется после завершения запуска и сбора выходных данных. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
CpuUtilization Процент использования памяти на узле CPU. Использование регистрируется с интервалом в одну минуту. Scenario, runId, NodeId, ClusterName Процент Применимо
Errors Количество ошибок запусков в этом рабочем пространстве. Счётчик обновляется всякий раз, когда запуск сталкивается с ошибкой. Scenario Количество Применимо
Failed Runs Количество неудачных запусков в этом рабочем пространстве. Счётчик обновляется при неудачном завершении запуска. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
Finalizing Runs Количество запусков, перешедших в состояние финализации в этом рабочем пространстве. Счётчик обновляется, когда запуск завершён, но сбор выходных данных ещё продолжается. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
GpuUtilization Процент использования памяти на узле GPU. Использование регистрируется с интервалом в одну минуту. Scenario, runId, NodeId, DeviceId, ClusterName Процент Применимо
Idle Cores Количество простаивающих ядер. Scenario, ClusterName Количество Применимо
Idle Nodes Количество простаивающих узлов. Простаивающие узлы — это узлы, которые не выполняют никаких заданий, но могут принять новое задание при его наличии. Scenario, ClusterName Количество Применимо
Leaving Cores Количество уходящих ядер. Scenario, ClusterName Количество Применимо
Leaving Nodes Количество уходящих узлов. Уходящие узлы — это узлы, которые только что завершили обработку задания и перейдут в состояние простоя. Scenario, ClusterName Количество Применимо
Model Deploy Failed Количество развёртываний моделей, завершившихся ошибкой, в этом рабочем пространстве. Scenario, StatusCode Количество Применимо
Model Deploy Started Количество начатых развёртываний моделей в этом рабочем пространстве. Scenario Количество Применимо
Model Deploy Succeeded Количество успешных развёртываний моделей в этом рабочем пространстве. Scenario Количество Применимо
Model Register Failed Количество неудачных регистраций моделей в этом рабочем пространстве. Scenario, StatusCode Количество Применимо
Model Register Succeeded Количество успешных регистраций моделей в этом рабочем пространстве. Scenario Количество Применимо
Not Responding Runs Количество запусков, не отвечающих, в этом рабочем пространстве. Счётчик обновляется, когда запуск переходит в состояние «Не отвечает». Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
Not Started Runs Количество запусков в состоянии «Не начат» в этом рабочем пространстве. Счётчик обновляется при получении запроса на создание запуска, но информация о запуске ещё не заполнена. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
Preempted Cores Количество вытесненных ядер. Scenario, ClusterName Количество Применимо
Preempted Nodes Количество вытесненных узлов. Это узлы с низким приоритетом, которые были изъяты из доступного пула узлов. Scenario, ClusterName Количество Применимо
Preparing Runs Количество запусков, находящихся в стадии подготовки в этом рабочем пространстве. Счётчик обновляется, когда запуск переходит в состояние подготовки при настройке среды выполнения. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество
Provisioning Runs Количество запусков, находящихся в стадии выделения ресурсов в этом рабочем пространстве. Счётчик обновляется, когда запуск ожидает создания или выделения вычислительного ресурса. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество
Queued Runs Количество запусков в очереди в этом рабочем пространстве. Счётчик обновляется, когда запуск ставится в очередь на вычислительном ресурсе. Может возникать при ожидании готовности необходимых вычислительных узлов. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
Quota Utilization Percentage Процент использования квоты. Scenario, ClusterName, VmFamilyName, VmPriority Процент Применимо
Started Runs Количество запущенных запусков в этом рабочем пространстве. Счётчик обновляется, когда запуск начинает выполняться на необходимых ресурсах. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
Starting Runs Количество начатых запусков в этом рабочем пространстве. Счётчик обновляется после запроса на создание запуска и заполнения информации о запуске, такой как Run Id. Scenario, RunType, PublishedPipelineId, ComputeType, PipelineStepType Количество Применимо
Total Cores Общее количество ядер. Scenario, ClusterName Количество Применимо
Total Nodes Общее количество узлов. Это общее количество включает Active Nodes, Idle Nodes, Unusable Nodes, Preempted Nodes, Leaving Nodes. Scenario, ClusterName Количество Применимо
Unusable Cores Количество неиспользуемых ядер. Scenario, ClusterName Количество Применимо
Unusable Nodes Количество неиспользуемых узлов. Неиспользуемые узлы не функционируют из-за неразрешимой проблемы. Azure переработает эти узлы. Scenario, ClusterName Количество Применимо
Warnings Количество предупреждений при запусках в этом рабочем пространстве. Счётчик обновляется всякий раз, когда запуск сталкивается с предупреждением. Scenario Количество Применимо