Nayara BernardoEngenharia de Dados - Data Engineer & Analytics - Python - SQL - Spark - ETL -GCP
Portfólio
Sobre
Sou engenheira de dados apaixonada por criar, testar e implementar pipelines de dados, utilizando ferramentas como Python, SQL, Apache Spark, Apache Airflow e Azure Databricks.
Contribuo para projetos que desvendam insights e oferecem soluções para desafios empresariais, otimizar processos e reduzir custos. Para mais informações sobre mim segue meu curriculo.
ETL Automatizado com Airflow: Dummy API para Data Lake AWS
Este projeto demonstra uma pipeline de ETL automatizada que utiliza uma Dummy API para coletar dados, realiza tratamentos nesses dados e os envia para um Data Lake na AWS. O processo é gerenciado pelo Apache Airflow e o código-fonte está disponível neste repositório do GitHub.
Este projeto foi realizado a extração de dados da base do SteamDB Sales por meio de técnicas de webscraping, armazenando as informações posteriormente no Google BigQuery. Além disso, os dados são exportados para uma planilha no Google Sheets, proporcionando uma visualização detalhada e acessível. Como um passo adicional, o projeto inclui a criação de um dashboard utilizando a plataforma Looker, oferecendo uma representação gráfica interativa das vendas ao longo do tempo, destacando categorias e jogos mais populares, e proporcionando insights geográficos sobre as regiões com maior demanda.
Este projeto DBT realiza a transferência de dados do banco de dados Northwind para um data warehouse Amazon Redshift, convertendo essas informações em tabelas analíticas. O banco de dados Northwind contém dados de amostra para uma empresa fictícia, abrangendo categorias, clientes, funcionários, detalhes e pedidos, produtos, transportadoras e fornecedores. Esses dados são extraídos do Northwind para arquivos CSV e armazenados no S3 antes de serem carregados no Redshift. No Redshift, um cluster é configurado, o esquema Northwind é criado e os CSVs são carregados nas tabelas. Utilizando DBT, modelos são desenvolvidos para de-duplicar registros de clientes e adicionar colunas calculadas para idade, tempo de serviço, nome completo, entre outros.
O Projeto ETL com Modelagem de Dados SCD2 utiliza o método Slowly Changing Dimension 2 para transformar dados brutos do banco de dados Northwind. Composto por quatro esquemas (STAGING, SILVER, GOLD e LOGS), o projeto inclui a criação de uma tabela de log e uma procedure reutilizável. Destaca-se a otimização da carga bulk para eficiência na transferência de dados, e o esquema GOLD armazena informações consolidadas para análises. Projeto executado utilizando as ferramentas de banco de dados Microsoft SQL Server e o Azure Data Studios.
Projeto final do curso Engenharia de Dados da SoulCode
O Projeto Final de Engenharia de Dados da SoulCode Academy aborda o tema dos combustíveis, utilizando conjuntos de dados extraídos para análise. Utilizando tecnologias como Google Cloud Platform, Cloud Storage, Looker Studio, BigQuery, DataFlow, Python, Pandas, PySpark, SparkSQL, Apache Beam e MongoDB, a equipe construiu um dashboard abrangente. O objetivo do projeto é obter insights sobre o mercado de combustíveis no Brasil, analisando operações comerciais, importação de etanol, receitas geradas, produção por tempo, volume por estado e refinaria, além de análises sobre preços de revenda, margens de ganho, volume de produção e importações/exportações no período de 2012 a 2021.
Este projeto de Apache Airflow envolve a criação de um pipeline de dados financeiros utilizando a biblioteca Yfinance. O pipeline realiza a extração de informações sobre os quatro maiores varejistas do Brasil, como Carrefour, Assaí, Lojas Americanas e Magazine Luiza, para análises financeiras. O projeto, que inclui operações DAG configuradas para baixar dados, realizar análises e armazenar resultados em um banco de dados relacional, proporciona uma ferramenta valiosa para investidores. Além disso, a análise recente dos dados revelou uma significativa queda nas ações das Lojas Americanas, destacando a utilidade dessa abordagem automatizada e escalável para coletar e analisar dados financeiros.