Zerum ajuda equipe do setor de saúde a solucionar lentidão em sistema crítico

Aplicação lenta, investigação rápida. Veja como uma análise de 5 minutos com Zerum trouxe a resposta para corrigir a lentidão de um sistema crítico do setor de saúde.

Quando uma aplicação apresenta lentidão extrema em uma das maiores operações de Saúde do Brasil, cada segundo conta para se chegar à solução. A equipe de TI do cliente recebeu inúmeros chamados reportando a dificuldade de acesso, mas devido à complexidade do ambiente, encontrar a causa raiz do problema não seria tarefa fácil. A tecnologia de monitoramento e análise da Zerum trouxe a resposta rápida que o cliente precisava para resolver a situação. Entenda como.

Cliente

Grande organização do Setor de Saúde com atuação nacional. Conta com dezenas de profissionais que se revezam para sustentar a operação de TI e suas centenas de aplicações. Seus sistemas digitais atendem desde a administração hospitalar e farmacêutica até chamadas de emergência. Só os três mais acessados desses sistemas, juntos, recebem 60 mil logins por dia.

Desafios

Com uma grave lentidão afetando o acesso a uma de suas aplicações web – um portal de inscrições de profissionais – a equipe do cliente precisaria de ferramentas que fornecessem:

  • Visibilidade sobre o ambiente digital para identificar os pontos problemáticos do ambiente

Também seria preciso investigar mais a fundo a situação, por isso a tecnologia escolhida deveria permitir:

  • Exploração e análise detalhada e em tempo real dos dados da operação, incluindo de rede, aplicações e bancos de dados

Essa agilidade na investigação seria essencial para coordenar o trabalho das áreas durante o esforço de resolução do problema.

Por que a Zerum?

A solução de Wire Data Analytics da Zerum foi escolhida pelo cliente para apoiar a investigação e solução de problemas pelo seu conjunto inovador de recursos, em especial:

  • Coleta contínua e não-intrusiva de dados do tráfego de rede (Wire Data)

  • Suporte a todos os protocolos críticos do cliente, inclusive de bancos de dados

  • Ferramentas de real-time analytics, com opções como busca rápida e detalhamento (drilldown)

A ferramenta coleta dados diretamente do tráfego de rede, continuamente e sem overhead, disponibilizando as informações para análise em uma interface intuitiva e poderosa de real-time analytics.

Resultados

  • 59% de transações lentas, identificadas rapidamente

  • 200+ segundos média de tempo de resposta entre banco de dados e aplicação durante a crise

  • 5 minutos de tempo de análise para chegar à causa raiz da lentidão

Inicialmente, quando a lentidão foi reportada, a equipe do cliente não tinha ideia do que estava causando o problema. Em muitas operações de TI, a investigação seria difícil e demorada, dependendo de uma série de ferramentas baseadas em agentes. Mas neste caso, a equipe contava com os recursos de monitoramento e real-time analytics da Zerum.

Uma verificação rápida no dashboard confirmou que 59% das transações entre clientes e aplicação estavam muito lentas, resultando em timeout. A própria tela de monitoramento foi o ponto de partida da investigação.

Primeiro, a equipe focou em transações do protocolo HTTP, mas concluiu que a causa do problema não estava ali. Em seguida, passou para a análise do protocolo de banco de dados TNS, e desta vez encontrou o foco da lentidão, ocasionadas por query de autenticação de abertura de sessão requisitada por servidor de aplicação.

Informações de Flows foram usadas para refinar ainda mais a análise, ajudando a evidenciar a hora exata em que a conexão entre base de dados e aplicação foi interrompida. Foi detectado que a reinicialização do pool de conexões do banco implementou em produção um range de portas fora do escopo habilitado pelo firewall interno. Por causa disso, pacotes começaram a cair e uma fila de transações se formou, aumentando os tempos de resposta da aplicação.

A investigação toda levou menos de 5 minutos. O problema de conectividade entre banco de dados e aplicação foi remediado e a aplicação voltou a atender os usuários normalmente.