Curso Databricks Advanced Engineering AI ML and Data Products Nivel Intermediario Avancado

  • DevOps | CI | CD | Kubernetes | Web3

Curso Databricks Advanced Engineering AI ML and Data Products Nivel Intermediario Avancado

32 horas
Visão Geral

O curso Databricks Advanced Engineering, AI/ML and Data Products — Nível Intermediário/Avançado foi desenvolvido como continuação da formação Databricks Fundamentals — Nível Básico, capacitando profissionais a estruturar pipelines de dados modernos, aplicar Machine Learning com Spark, desenvolver soluções utilizando NLP e RAG, implementar critérios de qualidade de dados e construir produtos de dados escaláveis dentro da plataforma Databricks.

A formação possui abordagem prática e aplicada, cobrindo engenharia de dados, orquestração operacional, otimização de performance, versionamento de dados, ciclo de vida de modelos de IA/ML, MLOps, processamento de documentos, arquiteturas RAG e construção de produtos de dados orientados ao negócio.

Durante o curso, os participantes irão trabalhar com cenários corporativos reais, utilizando recursos avançados do ecossistema Databricks para construção de soluções analíticas modernas, escaláveis e governáveis.

Objetivo

Após realizar este curso Databricks Advanced Engineering, AI/ML and Data Products — Nível Intermediário/Avançado, você será capaz de:

  • Estruturar pipelines de dados no Databricks
  • Desenvolver rotinas de ingestão, transformação e consumo de dados
  • Implementar workflows e orquestração operacional com Jobs
  • Monitorar execuções e falhas operacionais
  • Aplicar técnicas de otimização de datasets e consultas
  • Trabalhar com versionamento de dados utilizando Time Travel
  • Construir modelos de Machine Learning com Spark
  • Implementar pipelines de treinamento e validação de modelos
  • Utilizar Feature Store em cenários de ML
  • Aplicar conceitos de MLOps no Databricks
  • Desenvolver soluções utilizando NLP
  • Estruturar arquiteturas RAG na plataforma
  • Processar documentos com IA generativa
  • Definir métricas de qualidade de dados
  • Avaliar modelos de IA/ML
  • Construir e evoluir produtos de dados corporativos
  • Aplicar boas práticas de engenharia analítica moderna
Publico Alvo
  • Engenheiros de dados
  • Cientistas de dados
  • Engenheiros de Machine Learning
  • Analistas de dados avançados
  • Profissionais de IA
  • Desenvolvedores Spark
  • Arquitetos de dados
  • Profissionais de analytics
  • Especialistas em Big Data
  • Profissionais de MLOps
  • Desenvolvedores de produtos de dados
  • Administradores Databricks
  • Profissionais de NLP e IA generativa
  • Equipes de transformação digital
  • Profissionais de engenharia analítica
Pre-Requisitos
  • Conhecimentos equivalentes ao curso Databricks Fundamentals — Nível Básico
  • Conhecimentos intermediários de SQL
  • Noções de Python para análise de dados
  • Familiaridade com conceitos de dados e analytics
  • Conhecimentos básicos de Machine Learning são desejáveis
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module A1: Data Engineering and Pipelines in Databricks

  1. Arquitetura de engenharia de dados no Databricks
  2. Conceitos de pipelines de dados
  3. Ingestão de dados estruturados e não estruturados
  4. Transformação de dados em ambientes distribuídos
  5. Camadas de processamento de dados
  6. Estratégias de consumo de dados
  7. Construção de pipelines escaláveis
  8. Boas práticas de engenharia de dados
  9. Estruturação de pipelines corporativos
  10. Operação e manutenção de pipelines
  11. Introdução ao Databricks Jobs
  12. Criação e execução de workflows
  13. Agendamento de rotinas operacionais
  14. Orquestração de processos analíticos
  15. Monitoramento de execuções
  16. Tratamento de falhas operacionais
  17. Tabelas de sistemas para monitoramento
  18. Observabilidade operacional básica

Module A2: Optimization, Versioning and Data Evolution

  1. Organização avançada de ambientes de dados
  2. Estruturação eficiente de datasets
  3. Estratégias de organização analítica
  4. Introdução ao Delta Lake
  5. Conceitos de Time Travel
  6. Versionamento de dados
  7. Recuperação histórica de datasets
  8. Casos de uso de auditoria e rastreabilidade
  9. Evolução de esquemas de dados
  10. Otimização de consultas SQL
  11. Performance em datasets distribuídos
  12. Estratégias de particionamento
  13. Técnicas de compactação e otimização
  14. Otimização aplicada no Databricks
  15. Ajustes de performance operacional
  16. Melhores práticas de processamento analítico

Module A3: Machine Learning with Spark

  1. Introdução ao ecossistema ML no Databricks
  2. Fluxo de Machine Learning com Spark
  3. Preparação de dados para ML
  4. Engenharia de atributos
  5. Construção de modelos supervisionados
  6. Treinamento distribuído de modelos
  7. Validação e avaliação de modelos
  8. Métricas de desempenho de ML
  9. Testes e ajustes de modelos
  10. Implantação de modelos no Databricks
  11. Consumo operacional de modelos
  12. Introdução ao MLflow
  13. Conceitos de Feature Store
  14. Reutilização de atributos analíticos
  15. Governança de features
  16. Introdução a MLOps
  17. Ciclo de vida de modelos
  18. Versionamento de modelos
  19. Monitoramento operacional de ML
  20. Boas práticas de MLOps

Module A4: NLP, Document Processing and RAG

  1. Introdução ao NLP no Databricks
  2. Processamento de linguagem natural
  3. Tratamento de documentos textuais
  4. Extração de informações em documentos
  5. Tokenização e embeddings
  6. Vetorização de documentos
  7. Introdução à IA generativa
  8. Conceitos fundamentais de RAG
  9. Arquitetura de Retrieval-Augmented Generation
  10. Estruturação de bases vetoriais
  11. Fluxo de recuperação contextual
  12. Integração de LLMs com Databricks
  13. Construção prática de pipeline RAG
  14. Busca semântica em documentos
  15. Casos de uso corporativos de NLP
  16. Aplicações práticas de IA generativa

Module A5: Data Quality, Evaluation and Data Products

  1. Fundamentos de qualidade de dados
  2. Indicadores de qualidade analítica
  3. Métricas de consistência e confiabilidade
  4. Validação de datasets
  5. Monitoramento de qualidade de dados
  6. Implementação prática de controles
  7. Avaliação de modelos de ML
  8. Métricas de classificação e regressão
  9. Critérios de validação analítica
  10. Interpretação de resultados de modelos
  11. Conceitos de produtos de dados
  12. Estruturação de produtos analíticos
  13. Construção de soluções orientadas a dados
  14. Governança de produtos de dados
  15. Evolução contínua de produtos
  16. Sustentação operacional analítica
  17. Estratégias de entrega de valor com dados
  18. Ciclo de vida de produtos de dados

Module A6: Integrated Advanced Practical Lab and Final Assessment

  1. Construção de pipeline de dados completo
  2. Integração entre engenharia de dados e ML
  3. Implementação prática de componente RAG
  4. Processamento analítico de documentos
  5. Aplicação de métricas de qualidade
  6. Avaliação de modelos implementados
  7. Integração de pipelines operacionais
  8. Criação de produto de dados aplicado
  9. Exercício integrador avançado
  10. Revisão geral do conteúdo
  11. Encerramento da formação avançada
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Python Testing with PyTest

24 horas

Curso Apache Spark for Data Engineering

24 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Scripting and Automation Basics

24 horas