Blog

Cómo mejorar la gestión de incidentes con una CMDB con tecnología DDM

Publicado por de febrero 09, 2021

Reducir el número de incidentes importantes, mejorar el tiempo medio de recuperación (MTTR), identificar las causas fundamentales del problema y mejorar sistemáticamente las experiencias de los empleados son las principales prioridades de los líderes operativos de TI.

Pero tratar de abordar los incidentes sin esquemas que conecten los servicios comerciales, las aplicaciones y la infraestructura es como tratar de encontrar la salida de un bosque sin un mapa o una brújula. Para las operaciones de TI, este esquema debe incluir una CMDB precisa y actualizada que muestre sistemas críticos, asignaciones de aplicaciones y definiciones de servicios.

Las CMDB son notoriamente inexactas, pero con una capacidad de detección automática y mapeo de dependencias (DDM), CMDB es una fuente de información crítica y herramienta para operaciones de TI. Puede ayudar a las operaciones de TI a reducir la cantidad de incidentes, resolverlos más rápido, encontrar las causas principales y capturar métricas de nivel de servicio para justificar la priorización de inversiones.

Mejorar la gestión de incidentes nunca fue fácil

Hay poco debate entre los directores de TI y los líderes de TI que mejorar los indicadores y métricas operativos son aspectos fundamentales para el funcionamiento de organizaciones de TI responsables y creíbles. Hoy en día es vital porque las empresas confían en los sistemas de TI para los flujos de trabajo de misión crítica, el análisis y las experiencias de cara al cliente.

Ahora hay poco debate sobre los muchos factores fuera del control de TI que afectan la confiabilidad y el rendimiento de las aplicaciones y los sistemas. Pero, ¿con qué rapidez, eficiencia y precisión TI resuelve incidentes y aborda causas raíz del problema se considera una responsabilidad fundamental de los líderes de TI capaces.

Si bien estas responsabilidades son críticas para las organizaciones que invierten en transformación digital, los administradores de incidentes, los jefes de operaciones de TI y los CIOs confiarán en que mejorar los procesos de gestión de incidentes y los KPI no es fácil.

Por un lado, las arquitecturas de sistemas y aplicaciones son más complejas hoy que nunca. Las aplicaciones modernizadas interactúan con microservicios, se integran con múltiples plataformas SaaS de terceros y procesan datos de muchos servicios de datos. Se ejecutan en nubes públicas, nubes privadas e infraestructuras de computación de borde. Cuando ocurre un incidente, identificar qué sistema tiene un problema requiere tiempo para diagnosticarlo, y perseguir demasiados falsos positivos puede llevar a esfuerzos de recuperación más prolongados.

Los sistemas heredados, las aplicaciones monolíticas y los servicios de conversación tienen sus propios desafíos, especialmente porque a menudo son dependencias de los procesos comerciales primarios.

La resolución de incidentes de forma rápida y eficiente requiere un diagnóstico rápido y acciones prescriptivas, ya que un problema puede crear una cascada de problemas que deben solucionarse. Por ejemplo, si una base de datos tiene un sistema de archivos defectuoso, podría dañar los índices de la base de datos y ralentizar las aplicaciones. Las operaciones de TI se encuentran a menudo en una situación en la que restaurar los servicios comerciales requiere abordar múltiples problemas.

El desafío es que la resolución de incidentes más rápida y precisa requiere una mejor documentación y colaboración con expertos en la materia, incluidos desarrolladores de aplicaciones, ingenieros de sistemas y arquitectos. Ahora, cuando hay un incidente importante, los administradores de incidentes a menudo obtienen el soporte necesario para resolver problemas y restaurar el servicio.

Pero, en general, es difícil para los administradores de incidentes obtener la colaboración continua de otros equipos de TI para resolver problemas repetitivos o revisar procesos para mejorar la resolución de incidentes. Además, abordar las causas fundamentales requiere una inversión para modernizar las aplicaciones y las arquitecturas, pero es un desafío presentar el caso comercial para priorizar las mejoras impulsadas por las operaciones.

DDM automatiza la captura del estado actual de la infraestructura en la nube

Una CMDB respaldada por DDM es un cambio de juego para los equipos de gestión de incidentes porque cierra la brecha de conocimiento entre los equipos de soporte y los expertos en la materia, al tiempo que proporciona información actualizada sobre los servicios empresariales.

Así es cómo DDM trabajos. Un DDM sin agente se ejecuta según una programación y escanea la red en busca de información de configuración en los sistemas, almacenamiento, redes, aplicaciones, servicios y bases de datos que se ejecutan en nubes públicas y privadas. Luego actualiza la CMDB con lo actual y preciso, incluidos los cambios impulsados ​​por las capacidades de computación elástica de una nube o automatizaciones de DevOps como CI / CD e IaC. Luego, IT Ops puede usar herramientas para definir servicios comerciales e identificar las dependencias del sistema subyacente.

El DDM no es solo un recopilador de datos automatizado sobre configuraciones de aplicaciones y sistemas. El DDM descubre las relaciones entre servidores web, servicios de aplicaciones, múltiples servicios de API y transacciones de bases de datos. Los mapas de topología ilustran las relaciones entre los diferentes componentes del sistema y son herramientas de diagnóstico que IT Ops puede utilizar para comprender la causa raíz de los incidentes.

Por lo tanto, la próxima vez que uno o más sistemas generen alertas, los administradores de incidentes tendrán mucha más información al alcance de la mano.

Una CMDB respaldada por DDM ayuda a los administradores de incidentes a encontrar las causas principales

Consideremos un ejemplo simple de múltiples alertas de una aplicación web de tres niveles que se ejecuta con servidores web Apache, servidores web Tomcat y una base de datos Postgres en AWS. El administrador de incidentes ve advertencias provenientes de las bases de datos de Tomcat y Postgres, y varios empleados han abierto tickets que aumentan el rendimiento lento y los errores de la aplicación.

Una respuesta instintiva a este problema podría ser reiniciar Tomcat y borrar las conexiones de la base de datos, pero puede que este no sea el curso de acción correcto. Con una CMDB habilitada para DDM, el administrador de incidentes y las operaciones de TI ahora tienen varias herramientas nuevas para revisar.

  • Una vista topológica de DDM que muestra los sistemas que envían alertas
  • Vista de una CMDB que muestra los servicios comerciales afectados
  • Los registros de cambios de ITSM para ayudar a determinar si un cambio causó el incidente
  • A medida que TI intenta solucionar el problema, el administrador de incidentes puede validar el rendimiento y los flujos de la aplicación.

En este incidente, IT Ops utiliza mapas de topología complejos de DDM para ver que la base de datos de Postgres tiene un cliente que causa un trabajo de administración de base de datos de larga duración. Reiniciar Tomcat o cerrar los servicios no habría solucionado el problema. En cambio, la acción correcta es pausar el trabajo de administración de la base de datos y reanudarlo durante las horas no pico.

La clave aquí es que el administrador de incidentes dirigió la acción correcta y dedujo rápidamente el problema utilizando los mapas de flujo del DDM. Si IT Ops siguió un manual prescriptivo y reinició el servidor, es posible que hayan interrumpido los principales servicios comerciales.

DDM + CMDB + ITSM -> Datos y análisis para impulsar cambios operativos

Resolver incidentes de forma más rápida y precisa es un beneficio operativo. Pero lo que es más importante, TI ahora tiene un sistema de registro que asocia los incidentes con los sistemas subyacentes. Luego, los líderes de TI pueden presentar los análisis en torno a qué servicios y aplicaciones comerciales generan la mayoría de los incidentes o los incidentes con las interrupciones más prolongadas.

Ese informe es una parte fundamental del llamado a la acción que los líderes de operaciones de TI a menudo buscan influir en las prioridades y la inversión en la modernización de las aplicaciones y la actualización de la infraestructura.

La clave es que las operaciones de TI tengan información actualizada y precisa en la CMDB y utilicen una automatización de DDM para capturar dependencias. Conectando procesos ITIL, especialmente administracion de incidentes, permite que IT Ops mejore los KPI operativos y las experiencias de los empleados. El contexto agregado que relaciona los incidentes con los servicios comerciales puede ayudar a impulsar mejoras e inversiones a más largo plazo.

Para las organizaciones que buscan mejorar la experiencia de los empleados, la integración de una CMDB con tecnología DDM proporciona datos contextuales de operaciones de TI y una herramienta versátil para resolver incidentes de manera más rápida y precisa.

Isaac Sacolick, presidente de StarCIO, guía a las empresas a través de programas de transformación digital más inteligentes, rápidos, innovadores y seguros que brindan resultados comerciales. Es el autor del bestseller de Amazon, Impulsar lo digital: la guía del líder para la transformación empresarial a través de la tecnología, industria altavozy blogger en Social, ágil y de transformación.

Obtenga más información sobre nuestras actualizaciones de los artículos de conocimiento de Cherwell