Перейти к содержанию

AI и LLM мониторинг

Наблюдаемость ИИ — сбор, анализ и корреляция телеметрии для понимания поведения систем ИИ, агентов и LLM во всех средах. Видимость в реальном времени для LLM, ИИ-агентов, оркестрации и их влияния на приложения и инфраструктуру.

Критична при работе с платформами: OpenAI, Anthropic, Gemini, Amazon Bedrock, Azure AI Foundry, Vertex AI.

Сквозная наблюдаемость в Dynatrace

Dynatrace объединяет метрики, логи, трассировки, аналитику проблем в дашбордах и ноутбуках. Интеграция с Traceloop OpenLLMetry или OpenTelemetry GenAI.

Охватывает: базовые модели, векторные БД, фреймворки оркестрации RAG.

Ключевые метрики

  • Стабильность: успешные ответы vs ошибки.
  • Задержка: время возврата результатов.
  • Нагрузка: объём запросов, аномальные всплески.
  • Дрифт модели: изменения точности из-за смещения данных.
  • Дрифт данных: мониторинг стационарности входных данных.
  • Стоимость: потребление токенов и ресурсов.

Возможности платформы

  • Мониторинг: метрики, события, логи.
  • Визуализация: дашборды для паттернов и проблем.
  • Обнаружение аномалий: автоматические оповещения.
  • Объяснимость: понимание решений модели.

Сценарии использования

  • Мониторинг производительности: запросы, длительность, ошибки, SLO.
  • Качество и затраты: бюджеты ошибок, потребление моделей, предотвращение деградации.
  • Сквозная трассировка: от промпта до ответа, задержки LLM, корневые причины.
  • Комплаенс и аудит: аудиторский след входов/выходов, линия происхождения данных.

Интеграции

Агенты и агентные рабочие нагрузки

Мониторинг путей выполнения агентов, вызовов инструментов, межагентной коммуникации. Интеграции: OpenAI Agent SDK, LangChain/LangGraph, CrewAI, Amazon Bedrock Agentcore, MCP tools, Google ADK и др.

Провайдеры моделей

OpenAI, Amazon Bedrock, NVIDIA NIM, Ollama — токены, задержка, доступность, ошибки.

Векторные БД и семантические кеши

Milvus, Weaviate, Qdrant — узкие места и аномалии.

Фреймворки оркестрации

LangChain и др. — производительность, версии, точки деградации RAG-конвейеров.

Инфраструктура

Метрики GPU/TPU, температура, память. NVIDIA GPU, Amazon Elastic Inference, Google TPU.

Все интеграции: Dynatrace Hub