Curso Site Reliability Engineering SRE Improving Service

  • DevOps | CI | CD | Kubernetes | Web3

Curso Site Reliability Engineering SRE Improving Service

32 horas Curso Pratico
Visão Geral

Este curso de Site Reliability Engineering (SRE), Improving Service, fornece aos profissionais uma compreensão estruturada dos princípios de SRE e do seu papel na melhoria da confiabilidade, escalabilidade e desempenho de sistemas modernos. O treinamento aborda como as organizações aplicam práticas de engenharia de confiabilidade para administrar ambientes distribuídos, aplicações cloud-native e serviços digitais críticos.

Os participantes aprenderão a definir metas de confiabilidade, medir desempenho de serviços e implementar controles operacionais que reduzam indisponibilidades e melhorem a estabilidade operacional. O curso apresenta conceitos fundamentais como Service Level Indicators (SLIs), Service Level Objectives (SLOs) e Error Budgets, permitindo o alinhamento entre objetivos técnicos e expectativas de negócio.

Além disso, o treinamento desenvolve competências em monitoramento, observabilidade, automação operacional, gerenciamento de incidentes, análise de causa raiz e processos de melhoria contínua. Os participantes compreenderão como reduzir operational toil, melhorar disponibilidade de serviços e fortalecer a colaboração entre equipes de desenvolvimento e operações através de práticas modernas SRE.

Objetivo

Após realizar este curso Site Reliability Engineering (SRE), você será capaz de:

  • Compreender os princípios de Site Reliability Engineering
  • Implementar SLOs, SLIs e Error Budgets
  • Melhorar processos de incident response
  • Implementar estratégias de monitoramento e observabilidade
  • Automatizar tarefas operacionais
  • Reduzir operational toil
  • Melhorar disponibilidade e confiabilidade de serviços
  • Aplicar práticas de análise de causa raiz
  • Trabalhar com automação operacional
  • Implementar governança de confiabilidade
  • Melhorar resiliência operacional
  • Aplicar práticas de melhoria contínua
Publico Alvo
  • Site Reliability Engineers
  • DevOps Engineers
  • Platform Engineers
  • Cloud Engineers
  • Operations Engineers
  • Administradores de Sistemas
  • Engenheiros de Infraestrutura
  • Profissionais de Observabilidade
  • Arquitetos Cloud
  • Equipes de Operações Críticas
Pre-Requisitos
  • Conhecimentos básicos de Linux
  • Conhecimentos básicos de redes
  • Familiaridade com cloud computing
  • Conhecimentos básicos de containers e Kubernetes
  • Noções de automação
  • Conhecimentos básicos de monitoramento
  • Familiaridade com linha de comando
Informações Gerais

Metodologia de Treinamento

Este curso fornece orientação estruturada sobre a aplicação prática de princípios SRE em ambientes operacionais modernos. A metodologia combina:

  • Aulas teóricas
  • Demonstrações práticas
  • Laboratórios hands-on
  • Simulações de incidentes
  • Estudos de caso
  • Exercícios de automação
  • Cenários de troubleshooting
  • Implementação de observabilidade

Impacto Organizacional

Este curso permitirá às organizações:

  • Melhorar disponibilidade e confiabilidade de serviços
  • Reduzir incidentes operacionais
  • Melhorar monitoramento e observabilidade
  • Fortalecer resposta a incidentes
  • Aumentar automação operacional
  • Melhorar colaboração entre engenharia e operações
  • Reduzir downtime
  • Melhorar resiliência operacional

Impacto Profissional

Os participantes desenvolverão habilidades para:

  • Compreender princípios SRE
  • Definir SLIs e SLOs
  • Melhorar incident response
  • Implementar estratégias de monitoramento
  • Aplicar automação operacional
  • Melhorar engenharia de confiabilidade
  • Trabalhar com observabilidade
  • Operar ambientes distribuídos modernos
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: SRE Foundations and Reliability Principles

  1. Introduction to Site Reliability Engineering
  2. Reliability Engineering Concepts
  3. Service Reliability Metrics
  4. Error Budgets and Reliability Targets
  5. Service Level Indicators
  6. Service Level Objectives
  7. Reliability Governance
  8. SRE Operational Culture

Module 2: Monitoring and Observability

  1. Observability Fundamentals
  2. Metrics, Logs and Traces
  3. Monitoring Architecture
  4. Alerting Strategies
  5. Service Health Indicators
  6. Dashboard Design
  7. Distributed Tracing
  8. Monitoring Best Practices

Module 3: Incident Management and Response

  1. Incident Response Lifecycle
  2. Incident Classification
  3. Escalation Models
  4. Root Cause Analysis Techniques
  5. Post-incident Reviews
  6. Operational Resilience
  7. Incident Communication
  8. Continuous Incident Improvement

Module 4: Automation and Operational Efficiency

  1. Reducing Operational Toil
  2. Automation Strategies
  3. Deployment Reliability
  4. Configuration Management
  5. Runbook Automation
  6. Infrastructure as Code
  7. Operational Standardization
  8. Automated Operational Tasks

Module 5: Reliability Engineering Practices

  1. Capacity Planning
  2. Performance Optimization
  3. Reliability-focused Architecture Design
  4. Service Dependency Management
  5. Reliability Governance
  6. Continuous Reliability Improvement
  7. Scalability Concepts
  8. Operational Risk Reduction

Module 6: Monitoring Platforms and Tooling

  1. Prometheus Fundamentals
  2. Grafana Dashboards
  3. Loki Logging
  4. Elastic Stack Overview
  5. Jaeger Tracing
  6. Alertmanager Configuration
  7. Kubernetes Monitoring
  8. Observability Integration

Module 7: Kubernetes and Cloud Reliability

  1. Kubernetes Reliability Concepts
  2. High Availability in Kubernetes
  3. Cluster Health Monitoring
  4. Resource Optimization
  5. Cloud-native Reliability
  6. Multi-cloud Reliability
  7. Cloud Monitoring Strategies
  8. Distributed Systems Reliability

Module 8: Automation and CI/CD Reliability

  1. CI/CD Fundamentals
  2. Jenkins Pipelines
  3. GitOps Concepts
  4. Automated Testing
  5. Deployment Validation
  6. Rollback Strategies
  7. Release Reliability
  8. Infrastructure Automation

Module 9: Resilience and Chaos Engineering

  1. Resilience Engineering Fundamentals
  2. Fault Tolerance Concepts
  3. Circuit Breaker Patterns
  4. Chaos Engineering Introduction
  5. Failure Testing
  6. Reliability Validation
  7. Resilience Design Patterns
  8. Business Continuity Concepts

Module 10: Security and Governance

  1. Security and Reliability Integration
  2. Compliance and Operational Policies
  3. Access Control Concepts
  4. Governance Best Practices
  5. Risk Management
  6. Operational Auditing
  7. Reliability KPIs
  8. Enterprise Governance

Module 11: Advanced Troubleshooting and Optimization

  1. Advanced Troubleshooting Techniques
  2. Distributed Systems Diagnostics
  3. Performance Bottleneck Analysis
  4. Resource Optimization
  5. End-to-end Observability
  6. Reliability Optimization Strategies
  7. Enterprise Reliability Scenarios
  8. Operational Excellence

Module 12: Final Labs and Capstone Project

  1. Monitoring Implementation Labs
  2. SLO and SLI Design Exercises
  3. Incident Simulation Exercises
  4. Automation Labs
  5. Kubernetes Reliability Labs
  6. Chaos Engineering Simulations
  7. Final Hands-on Labs
  8. Capstone SRE Project
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Python Testing with PyTest

24 horas

Curso Apache Spark for Data Engineering

24 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Scripting and Automation Basics

24 horas