Este projeto tem como objetivo desenvolver uma arquitetura de automação de dados para apoiar o monitoramento de indicadores estratégicos da área de AI & Data da Deloitte. A solução busca consolidar informações financeiras e operacionais que atualmente se encontram distribuídas em diferentes fontes, permitindo que esses dados sejam tratados, estruturados e posteriormente utilizados na construção de dashboards analíticos.
A proposta do projeto é centralizar a lógica de processamento de dados em Python, utilizando um pipeline de ETL (Extract, Transform, Load) responsável por realizar a extração das bases, a limpeza e padronização das informações, e a geração de um dataset estruturado que poderá ser utilizado em ferramentas de visualização, como o Power BI.
O projeto trabalha atualmente com duas bases de dados principais:
Base operacional
Contém registros relacionados à receita associada a projetos e colaboradores. Cada linha representa um lançamento de receita vinculado a um funcionário, projeto e período específico.
Principais campos:
Base orçamentária
Contém valores agregados de planejamento financeiro por área e tipo de valor ao longo de um horizonte mensal.
Principais campos:
Até o momento, foi implementado um pipeline em Python responsável por preparar os dados para análise. Esse pipeline realiza as seguintes etapas:
Foi desenvolvido um script responsável por converter arquivos recebidos em diferentes formatos para o formato padrão Excel (.xlsx). Esse passo garante que o pipeline consiga trabalhar com fontes heterogêneas de dados, independentemente do formato original.
O pipeline realiza a leitura das duas bases de dados utilizando a biblioteca Pandas.
Durante a execução, o script identifica automaticamente qual arquivo corresponde à base operacional e qual corresponde à base orçamentária, com base nas colunas presentes em cada dataset.
Nesta etapa são realizados alguns tratamentos nos dados:
Essas etapas são necessárias para garantir consistência na manipulação das informações.
A base orçamentária originalmente possui uma estrutura com meses representados em colunas.
O pipeline transforma essa estrutura para um formato tabular (long format), no qual cada linha representa um valor associado a uma área, tipo de valor e mês específico. Esse formato facilita análises temporais e integração com ferramentas de BI.
São aplicadas algumas verificações básicas de qualidade, como:
Essas verificações ajudam a identificar inconsistências que podem comprometer a análise posterior.
O pipeline também calcula algumas métricas derivadas que podem ser utilizadas diretamente nos dashboards, como:
Após as transformações e validações, o dataset resultante é exportado em formato CSV. Esse arquivo será utilizado como fonte de dados para a construção dos dashboards no Power BI.
As próximas etapas do projeto incluem:
Essas etapas permitirão consolidar a solução proposta como uma arquitetura de dados reutilizável e escalável para o monitoramento de indicadores estratégicos.