Descrição:
Buscamos um Administrador de Dados para integrar nossa equipe, com experiência em criação e manutenção de pipelines utilizando Microsoft Fabric, incluindo a utilização de componentes como Data Factory, Workflows e Lakehouses. O candidato ideal terá conhecimento tanto em Microsoft Fabric quanto em outras ferramentas como Databricks ou similares, sendo o ambiente principal Microsoft Fabric. Experiência com Plataformas de Dados como Power BI e Palantir será um diferencial.
As responsabilidades incluem a criação de pipelines para extração de dados de múltiplas fontes (como APIs, Oracle, SQL Server, entre outras) e integração em um sistema de dados organizado em camadas Bronze, Prata e Ouro no OneLake e DataLake. Além disso, o uso de ferramentas como Apache Airflow, RabbitMQ e Rancher para o controle de nós de serviços também será parte do dia a dia.
Responsabilidades:
- Apoiar na criação e manutenção de pipelines de ETL para a extração, transformação e carga de dados.
- Participar da gestão da arquitetura de dados e evolução dos projetos de DataLake e OneLake.
- Propor melhorias contínuas na arquitetura de dados e na qualidade da informação.
- Apoiar na criação, análise e validação de artefatos relacionados a bases de dados.
- Eliminar redundâncias e garantir a integridade e qualidade dos dados.
- Participar ativamente na migração de dados (mesmo entre SGBDs diferentes).
- Validar manuais de implantação e scripts SQL.
- Auxiliar na criação de modelos de dados utilizando modelos estrela e práticas de criação de dimensões e fatos.
Requisitos:
- Experiência com ferramentas: Microsoft Fabric ou Databricks e Apache Airflow.
- Conhecimento em Python para ETL (Pandas, SparkDataFrame).
- Experiência com formatos de armazenamento como Delta e Parquet, além de conceitos de particionamento e compactação.
- Microsoft Fabric (Workspaces, Pipelines, Lakehouses, Notebooks, Sparkjobs) ou ferramentas similares como Databricks.
- Conhecimento em Power BI ou Fabric será considerado um diferencial.
- Estrutura de Dados: experiência no tratamento de dados estruturados, semiestruturados e não estruturados.
- Governança de Dados: familiaridade com catálogos de dados, ciclo de vida e testes de qualidade.
- Graduação em Tecnologia da Informação ou áreas correlatas, com especialização, mestrado ou doutorado sendo um diferencial.
Desejável:
- Experiência com Apache Airflow e RabbitMQ para controle de fluxos e mensageria.
- Conhecimentos avançados em SQL/NSQL
- Conhecimentos em ETL: NiFi, SSIS, Pentaho,