Deloitte-Automacao

Arquitetura de Automação de Dados para Monitoramento Estratégico na Deloitte

Descrição do projeto

Este projeto tem como objetivo desenvolver uma arquitetura de automação de dados para apoiar o monitoramento de indicadores estratégicos da área de AI & Data da Deloitte. A solução busca consolidar informações financeiras e operacionais que atualmente se encontram distribuídas em diferentes fontes, permitindo que esses dados sejam tratados, estruturados e posteriormente utilizados na construção de dashboards analíticos.

A proposta do projeto é centralizar a lógica de processamento de dados em Python, utilizando um pipeline de ETL (Extract, Transform, Load) responsável por realizar a extração das bases, a limpeza e padronização das informações, e a geração de um dataset estruturado que poderá ser utilizado em ferramentas de visualização, como o Power BI.

Estrutura dos dados utilizados

O projeto trabalha atualmente com duas bases de dados principais:

  1. Base operacional
    Contém registros relacionados à receita associada a projetos e colaboradores. Cada linha representa um lançamento de receita vinculado a um funcionário, projeto e período específico.

    Principais campos:

    • Funcionario
    • Centro de Custo
    • Projeto
    • Area
    • Mês/Ano
    • ID Quinzena
    • Receita Prevista
    • Receita Líquida
    • Allowance
    • Contingência
    • Ajuste
    • Sigla Sub Area
  2. Base orçamentária
    Contém valores agregados de planejamento financeiro por área e tipo de valor ao longo de um horizonte mensal.

    Principais campos:

    • Area
    • Type
    • Colunas de meses (jun/25 até mai/26)

Pipeline de processamento

Até o momento, foi implementado um pipeline em Python responsável por preparar os dados para análise. Esse pipeline realiza as seguintes etapas:

1. Padronização de formatos de entrada

Foi desenvolvido um script responsável por converter arquivos recebidos em diferentes formatos para o formato padrão Excel (.xlsx). Esse passo garante que o pipeline consiga trabalhar com fontes heterogêneas de dados, independentemente do formato original.

2. Extração das bases

O pipeline realiza a leitura das duas bases de dados utilizando a biblioteca Pandas.

Durante a execução, o script identifica automaticamente qual arquivo corresponde à base operacional e qual corresponde à base orçamentária, com base nas colunas presentes em cada dataset.

3. Limpeza e padronização

Nesta etapa são realizados alguns tratamentos nos dados:

Essas etapas são necessárias para garantir consistência na manipulação das informações.

4. Transformação da base orçamentária

A base orçamentária originalmente possui uma estrutura com meses representados em colunas.

O pipeline transforma essa estrutura para um formato tabular (long format), no qual cada linha representa um valor associado a uma área, tipo de valor e mês específico. Esse formato facilita análises temporais e integração com ferramentas de BI.

5. Validação dos dados

São aplicadas algumas verificações básicas de qualidade, como:

Essas verificações ajudam a identificar inconsistências que podem comprometer a análise posterior.

6. Criação de métricas

O pipeline também calcula algumas métricas derivadas que podem ser utilizadas diretamente nos dashboards, como:

7. Geração do dataset final

Após as transformações e validações, o dataset resultante é exportado em formato CSV. Esse arquivo será utilizado como fonte de dados para a construção dos dashboards no Power BI.

Próximos passos

As próximas etapas do projeto incluem:

Essas etapas permitirão consolidar a solução proposta como uma arquitetura de dados reutilizável e escalável para o monitoramento de indicadores estratégicos.