Visão Geral
O curso Databricks Advanced Engineering, AI/ML and Data Products — Nível Intermediário/Avançado foi desenvolvido como continuação da formação Databricks Fundamentals — Nível Básico, capacitando profissionais a estruturar pipelines de dados modernos, aplicar Machine Learning com Spark, desenvolver soluções utilizando NLP e RAG, implementar critérios de qualidade de dados e construir produtos de dados escaláveis dentro da plataforma Databricks.
A formação possui abordagem prática e aplicada, cobrindo engenharia de dados, orquestração operacional, otimização de performance, versionamento de dados, ciclo de vida de modelos de IA/ML, MLOps, processamento de documentos, arquiteturas RAG e construção de produtos de dados orientados ao negócio.
Durante o curso, os participantes irão trabalhar com cenários corporativos reais, utilizando recursos avançados do ecossistema Databricks para construção de soluções analíticas modernas, escaláveis e governáveis.
Objetivo
Após realizar este curso Databricks Advanced Engineering, AI/ML and Data Products — Nível Intermediário/Avançado, você será capaz de:
- Estruturar pipelines de dados no Databricks
- Desenvolver rotinas de ingestão, transformação e consumo de dados
- Implementar workflows e orquestração operacional com Jobs
- Monitorar execuções e falhas operacionais
- Aplicar técnicas de otimização de datasets e consultas
- Trabalhar com versionamento de dados utilizando Time Travel
- Construir modelos de Machine Learning com Spark
- Implementar pipelines de treinamento e validação de modelos
- Utilizar Feature Store em cenários de ML
- Aplicar conceitos de MLOps no Databricks
- Desenvolver soluções utilizando NLP
- Estruturar arquiteturas RAG na plataforma
- Processar documentos com IA generativa
- Definir métricas de qualidade de dados
- Avaliar modelos de IA/ML
- Construir e evoluir produtos de dados corporativos
- Aplicar boas práticas de engenharia analítica moderna
Conteúdo Programatico
Module A1: Data Engineering and Pipelines in Databricks
- Arquitetura de engenharia de dados no Databricks
- Conceitos de pipelines de dados
- Ingestão de dados estruturados e não estruturados
- Transformação de dados em ambientes distribuídos
- Camadas de processamento de dados
- Estratégias de consumo de dados
- Construção de pipelines escaláveis
- Boas práticas de engenharia de dados
- Estruturação de pipelines corporativos
- Operação e manutenção de pipelines
- Introdução ao Databricks Jobs
- Criação e execução de workflows
- Agendamento de rotinas operacionais
- Orquestração de processos analíticos
- Monitoramento de execuções
- Tratamento de falhas operacionais
- Tabelas de sistemas para monitoramento
- Observabilidade operacional básica
Module A2: Optimization, Versioning and Data Evolution
- Organização avançada de ambientes de dados
- Estruturação eficiente de datasets
- Estratégias de organização analítica
- Introdução ao Delta Lake
- Conceitos de Time Travel
- Versionamento de dados
- Recuperação histórica de datasets
- Casos de uso de auditoria e rastreabilidade
- Evolução de esquemas de dados
- Otimização de consultas SQL
- Performance em datasets distribuídos
- Estratégias de particionamento
- Técnicas de compactação e otimização
- Otimização aplicada no Databricks
- Ajustes de performance operacional
- Melhores práticas de processamento analítico
Module A3: Machine Learning with Spark
- Introdução ao ecossistema ML no Databricks
- Fluxo de Machine Learning com Spark
- Preparação de dados para ML
- Engenharia de atributos
- Construção de modelos supervisionados
- Treinamento distribuído de modelos
- Validação e avaliação de modelos
- Métricas de desempenho de ML
- Testes e ajustes de modelos
- Implantação de modelos no Databricks
- Consumo operacional de modelos
- Introdução ao MLflow
- Conceitos de Feature Store
- Reutilização de atributos analíticos
- Governança de features
- Introdução a MLOps
- Ciclo de vida de modelos
- Versionamento de modelos
- Monitoramento operacional de ML
- Boas práticas de MLOps
Module A4: NLP, Document Processing and RAG
- Introdução ao NLP no Databricks
- Processamento de linguagem natural
- Tratamento de documentos textuais
- Extração de informações em documentos
- Tokenização e embeddings
- Vetorização de documentos
- Introdução à IA generativa
- Conceitos fundamentais de RAG
- Arquitetura de Retrieval-Augmented Generation
- Estruturação de bases vetoriais
- Fluxo de recuperação contextual
- Integração de LLMs com Databricks
- Construção prática de pipeline RAG
- Busca semântica em documentos
- Casos de uso corporativos de NLP
- Aplicações práticas de IA generativa
Module A5: Data Quality, Evaluation and Data Products
- Fundamentos de qualidade de dados
- Indicadores de qualidade analítica
- Métricas de consistência e confiabilidade
- Validação de datasets
- Monitoramento de qualidade de dados
- Implementação prática de controles
- Avaliação de modelos de ML
- Métricas de classificação e regressão
- Critérios de validação analítica
- Interpretação de resultados de modelos
- Conceitos de produtos de dados
- Estruturação de produtos analíticos
- Construção de soluções orientadas a dados
- Governança de produtos de dados
- Evolução contínua de produtos
- Sustentação operacional analítica
- Estratégias de entrega de valor com dados
- Ciclo de vida de produtos de dados
Module A6: Integrated Advanced Practical Lab and Final Assessment
- Construção de pipeline de dados completo
- Integração entre engenharia de dados e ML
- Implementação prática de componente RAG
- Processamento analítico de documentos
- Aplicação de métricas de qualidade
- Avaliação de modelos implementados
- Integração de pipelines operacionais
- Criação de produto de dados aplicado
- Exercício integrador avançado
- Revisão geral do conteúdo
- Encerramento da formação avançada