Dados com Rodrigo Junqueira

Transformação e Análise de Dados Públicos dos Centros dias

Março de 2025 por Rodrigo Junqueira


Resumo Técnico

Fonte de dados pública

Introdução

Este projeto foi desenvolvido durante um trabalho de Freelancer solicitado para análise e transformação de dados.

Devido a ser um trabalho particular, a planilha desenvolvida é de propriedade do cliente solicitante, por isso ela não será demonstrada na seção de resultados, porém colocarei breves recortes.

O cliente não solicitou neste trabalho um relatório técnico de análise de dados, mas sim a criação de diversos tipos de gráficos e tabelas, para assim ele montar o relatório conforme sua necessidade.

Abaixo vou detalhar todo o processo de senvolvidos, ferramentas utilizadas, gráficos, fórmulas etc.

Jorge (nome fictício) solicitou o seguinte:

"Os centros dias são modalidades institucionais direcionadas a diferentes públicos etários. Preciso analisar apenas as unidades que atendem pessoas idosas entre os anos de 2019 e 2023. Diante desse recorte, quero coletar as variáveis abaixo, com as respectivas tabelas e gráficos geradas para as análises, mantendo em todas as tabelas e gráficos variações da cor azul.

Para elaborar as variáveis que preciso responder, utilizei como base o questionário de 2023, logo algumas das variáveis deste ano podem estar ausenter nos demais anos anteriores, precisando assim de adaptações na fonte de dados.

Blocos 01 e 02 - Identificação e caracterização da unidade

BLOCOS 03 e 04 - Estrutura física e Serviços e Atividades

BLOCO 05 - Perfil dos usuários

Desenvolvimento

I. Coleta de dados

  1. Fiz a coleta dos dados referente aos 5 anos que vão ser analisados.
  2. Montei uma estrutura de pastas para facilitar o acesso entre os dados coletados.

II. Estudo inicial dos dados

  1. Cada ano possui sua estrutura de dados disponibilizados, com isso foi necessário identificar os questionários aplicados e a fonte de dados das respostas coletas.
  2. Em 2023 foram disponibilizados 24 arquivos.

    Em 2022, 22 arquivos.

    Em 2021, 21 arquivos.

    Em 2020, 23 arquivos.

    Em 2019, 21 arquivos.

  3. Entre os arquivos disponibilizados, cada ano possuia uma fonte de dados com as respostas da coleta dos questionários aplicados.

    Em todos os anos, a fonte de dados de cada ano foi disponibilizado nas extensões ".csv", ".sav" e ".xlsx".

  4. Em cada ano foi aplicado um questionário único, onde foram alterados as estruturas, ordem das questões, incluído ou removido questões ou alterado as opções das respostas.
  5. Sobre as variáveis existentes em cada fonte de dados:

    Em 2023 a fonte de dados possui 563 variáveis (colunas).

    Em 2022 e 2021, cada um possui 663 variáveis.

    Em 2020, 668 variáveis.

    Em 2019, 571 variáveis.

  6. Em todos os anos foram disponibilizados um dicionário para as fontes de dados.
  7. Antes de iniciar com o processo de transformação dos dados para a análise, foi necessário identificar todas as variáveis solicitadas pelo cliente em todas as fonte de dados, para este processo foi desenvolvida uma documentação no Notion para guiar todo o trabalho.
  8. Imagem do Notion

III. Organização e pré-transformação dos dados

  1. Após identificar cada uma das variáveis, coletei as 5 fonte de dados, coloquei todas elas em um mesmo diretório e renomiei cada uma delas para o respectivo ano (2023, 2022, ...).
  2. Com os diretório organizado, criei um arquivo no Excel que será o responsável pela transformação dos dados e geração de uma fonte de dados limpa e organizada.
  3. Para a transformação dos dados foi escolhido as ferramentas:

    Power Query: Que é uma ferramenta poderosa de transformação de dados.

    Python com Pandas: Para os ajustes finais e unificação dos dados.

  4. Imagem do Excel 1

Transformação dos dados

  1. No power Query, foram ajustados:

    1. O tipo dos dados das variáveis utilizadas;

    2. Renomeado as variáveis utilizadas padronizando os 5 anos.

    3. Muitas respostas foram armazenadas em formato numérico, com isso precisei substituir os valores para facilitar a identificação das alternativas respondidas.

    4. Gerado 5 fontes de dados limpas e organizadas para cada ano.

    Imagem do Power Query 1
  2. Após a geração das novas fonte de dados, migrei o processo de transformação para o Python devido a facilidade em remover todas as colunas não utilizadas e mesclar a fonte de dados em um único arquivo. Para isso, segui as etapas:

    1. Importação dos daos no Jupyter Notebook.

    2. Criado um dataframe apenas com as variáveis desejadas que já estavam organizadas na documentação do Notion.

    3. Feito a mesclagem dos dados para uma única fonte de dados.

    4. Exportado o novo arquivo para o Excel.

    Abaixo coloco parte do código utilizados:

    Imagem do Python 1
  3. Na nova fonte de dados, temos agora apenas 45 colunas que vão ser utilizadas para responder as variáveis do cliente.

Análise do dados

  1. Como o cliente solicitou que a entrega fosse realizada no Excel, toda a análise de dados foi realizada nele.
  2. No Excel, foi criado uma aba "Sobre" com explicação de todo o projeto.
  3. Cada variável solicitada foi analisada em uma aba do Excel.
    Imagem do Excel 2
  4. Foi entregue junto com a análise a fonte de dados limpa e organizada.
    Imagem do Excel 3
  5. Em cada variável, foram geradas tabelas quantitativas, percentuais e de variações ao ano, assim como gráficos para todas as tabelas.
  6. Para as tabelas quantitativas, foram gerados 2 gráficos de barras com os eixos invertidos, para o cliente escolher qual deseja utilizar em sua redação.
    Imagem do Excel 4
  7. Para as tabelas percentuais, foram gerados gráficos de barras empilhadas e, para aquelas tabelas com poucas variáveis, também foram gerados gráficos de setores.
    Imagem do Excel 5
  8. Para todas as variáveis foram geradas tabelas de variação percentual entre os anos.
    Imagem do Excel 6
  9. Algumas variáveis continham dados geográficos na análise, e para essas foram gerados mapas de calor com as quantidades. Para todas as variáveis foram geradas tabelas de variação percentual entre os anos.
    Imagem do Excel 7
  10. Para todas as variáveis foram disponibilizados informações sobre o estudo, orientações das tabelas e fornecidos insights importantes.
    Imagem do Excel 9
  11. No término da análise, o documento do Excel ficou com 159 tabelas e 214 gráficos.
    Imagem do Excel 8

Resultados

O trabalho foi um sucesso, o cliente ficou muito satisfeito e forneceu um bom feedback.