Vista aérea de um pátio de containers organizados
Análise de dados sumarizados e não-sumarizados: qual é a diferença?

Ferramentas de análise de tráfego utilizam métodos diferentes para lidar com o imenso volume de informações, sumarizando ou não os dados. Veja a diferença.

Uma das características fundamentais do Zerum Falcon é a extração e o armazenamento das informações de transações, em protocolos diversos (ex. HTTP, DNS, Oracle, etc), de forma semi-estruturada (JSON) e granular – ou seja, sem sumarizar os dados.

Mas o que quer dizer sumarizar os dados? E no que isso implica?

Dados sumarizados

Se considerarmos uma rede de 10 Gigabits por segundo, muito comum hoje em dia, o volume de transações por segundo chega às dezenas de milhares. São queries em banco, requisições por arquivos, envios de formulários, chamadas de DNS e assim por diante. E não podemos confundir isso com a métrica de pacotes por segundo: uma transação é sempre formada por dezenas e até milhões de pacotes. Assim, devido ao volume imenso de dados, diversas ferramentas que analisam tráfego de rede usam a estratégia de sumarizar, ou resumir, as informações antes de guarda-las e exibi-las em suas interfaces.

Ao sumarizar um dado, se faz uma média das métricas encontradas, a partir de uma informação a ser exibida. Por exemplo, ao invés de se exibir quantos pacotes, retransmissões e bytes foram trafegados em cada requisição, faz-se uma média de todos esses valor para um grupo de requisições similares, por um período de tempo específico (ex.: sumarizar por minuto).

O problema dessa abordagem é óbvio: perde-se a informação, o detalhe. E muitas vezes é no detalhe que se encontra a causa do problema.

Dados não-sumarizados

No Zerum Falcon as informações de transações são guardadas de forma granular, sem sumarização, e o usuário pode fazer agregações customizadas ou visualizar cada transação de forma independente (inclusive o conteúdo do payload, se desejado). Assim, quando é necessário fazer análises profundas, ou mesmo treinar modelos de machine learning, essa informação detalhada ajuda – e muito!