HIT Plataforma - Uma nova ótica sobre monitoramento de ativos e serviços de TI
A tecnologia da informação sempre esteve em constante evolução e ebulição de conceitos e produtos. Dessa forma, nos últimos 15 anos, os CIOs e profissionais de TI precisaram se adaptar a estes conceitos e produtos na busca de maior velocidade e efetividade, afim de consolidar a transformação digital em seus negócios. Tecnologias e arquiteturas como nuvem, novas plataformas de serviços, consumo e integração de serviços em múltiplas clouds, edge computing, entre outras, estão criando camadas de serviços em ambientes heterogêneos e em locais diferentes que precisam ser medidos, monitorados e gerenciados.
Diante disso, muitos CIOs e profissionais de TI estão sem uma visão centralizada dos eventos que ocorrem em seus ambientes de TI.
Segundo o ITIL®, um evento pode ser definido como qualquer ocorrência detectável que tem importância para a gestão dos ativos e serviços de TI, podendo indicar que algo não está de acordo com a operação normal do serviço ou descumprindo um nível de serviço acordado.
Neste cenário, um dos maiores desafios é ter as informações corretas para realizar o gerenciamento dos eventos e tomar decisões assertivas antes de causar qualquer impacto nos serviços de TI, essenciais para a operação do negócio.
Para superar estes desafios, os templates e o motor de monitoramento do HIT captam, categorizam, classificam e entregam estes eventos no momento certo para o stakeholder certo. Isso ocorre através de vários canais de comunicação, que vão desde telegram, e-mail, slack, módulos de itens monitorados e dashboards da plataforma HIT.
Para facilitar a análise e distribuição das informações geradas pelo monitoramento do HIT, foi desenvolvida uma lógica de categorização dos eventos, que é padronizada em todas as templates da plataforma HIT, seguindo a estrutura abaixo:
Descrição geral
A construção dos templates do HIT seguem dois critérios fundamentais: informações que são importantes de serem coletadas e de que forma elas agregam valor aos Diretores, Executivos e Técnicos de TI.
Diante disso, dividimos esse trabalho seguindo a classificação abaixo:
Configuração
São itens referentes à recursos do ativo e que trazem informações relacionadas a sua configuração, por exemplo: nome do ativo, versão, endereçamento IP, etc.
Performance
São itens referentes à performance do ativo, como por exemplo: taxa de transferência de dados por segundo, tempo de resposta, bloqueios por segundo, entre outros.
Capacidade
São itens referentes à capacidade do ativo,como por exemplo: quantidade de memória utilizada, utilização de CPU, quantidade de espaço em disco alocado, entre outros.
Disponibilidade
São itens referentes à disponibilidade do ativo, como por exemplo: o status dos serviços, falha de comunicação via ICMP, etc.
Checklist
São itens referentes à informações consideradas essenciais para que o time do HIT Centro de Suporte assuma a gestão de uma tecnologia, ou para serem utilizadas pelo time de suporte do próprio cliente.
Health check
São itens que coletam dados referentes à saúde do ambiente. Estas informações são utilizadas para a construção de relatórios que sugerem melhorias no ambiente do cliente HIT.
Além disto, a Plataforma HIT e seus templates seguem as definições de ITIL para classificar a severidade dos eventos dos ativos e serviços de TI. Grande parte dos eventos funcionam com calibração e medição, sendo assim, é possível aplicar o conceito de Thresholds ou limites em português. No HIT estes limites seguem valores médios de mercado, que se aplicam na maioria dos ambientes de TI. Entretanto, podem e devem ser calibrados caso a caso.
A severidade dos eventos classificados na plataforma HIT:
Severidade |
Definição |
Cor Representada |
---|---|---|
Não classificado |
Classificação desconhecida |
Cinza |
Informação |
Apenas uma informação do ativo | serviço de TI |
Azul claro |
Atenção |
Classificação para avisos sobre ativos | serviços de TI |
Amarelo |
Média |
Esta classificação se aplica aos eventos que indicam “tendência” para um cenário negativo e de médio impacto. |
Laranja |
Alta |
Esta classificação se aplica aos eventos considerados graves e indica que algo importante aconteceu, como riscos de desestabilização, perda de performance ou até levar a um evento de desastre. |
Vermelho claro |
Desastre |
Esta classificação se aplica aos eventos de mais gravidade, que reportam parada ou perda das funcionalidades do ativo | serviços de TI e possíveis perdas financeiras, etc. |
Vermelho Escuro |
Estas classificações são usadas pelo time do HIT Centro de Suporte para garantir os níveis de serviços das atividades de gestão de eventos e em casos onde o cliente não possui esta camada de serviços, a classificação deve ser usada pelo time de suporte do cliente para priorizar as atividades de atendimento e suporte.
O HIT também tem uma camada de gestão a vista, com seus dashboards padrões e/ou customizados, mas isto é assunto para um novo artigo.
Vá em frente! Conte com o HIT para potencializar a sua TI, gerindo melhor o seu tempo e as atividades do dia a dia como profissional de TI.
Time is Money.
Rafael Derrico
CEO do HIT