Curso Apache Spark for Data Scientists

24 horas

Visão Geral

Curso Apache Spark for Data Scientists. Apache Spark é um poderoso mecanismo de processamento de código aberto para dados no cluster Hadoop, otimizado para velocidade, facilidade de uso e análises sofisticadas. A estrutura Spark oferece suporte ao processamento de dados de streaming e algoritmos iterativos complexos, permitindo que os aplicativos sejam executados até 100 vezes mais rápido do que os programas Hadoop MapReduce tradicionais. Com o Spark, você pode escrever aplicativos sofisticados para executar decisões mais rápidas e ações em tempo real para uma ampla variedade de casos de uso, arquiteturas e setores.

Este Curso Apache Spark for Data Scientists, explora o uso do Spark para atividades comuns relacionadas a dados a partir de uma perspectiva de ciência de dados. Você aprenderá a construir aplicativos unificados de big data combinando análises em lote, streaming e interativas em seus dados.

Objetivo

Após realizar este Curso Apache Spark for Data Scientists, você será capaz de:

Os fundamentos da arquitetura e dos aplicativos Spark
Para executar programas Spark
Para criar e manipular RDDs (Resilient Distributed Datasets) e UDFs (Unified Data Frames)
Para integrar o aprendizado de máquina em aplicativos Spark
Para usar o Spark Streaming

Pre-Requisitos

Conhecimento de programação Java
Conhecimento de SQL (familiaridade com os fundamentos de SQL)
Conhecimentos básicos de Estatística e Probabilidade
Formação em ciência de dados

Materiais

Portugues/Inglês + Lab Pratico

Conteúdo Programatico

Introduction

Data Science: The State of the Art
Hadoop, Yarn, and Spark
Architectural Overview
Spark and Storm
MLib and Mahout
Distributed vs. Local Run Modes
Hello, Spark

Spark Overview

Spark Core
Spark SQL
Spark and Hive
MLib
Mahout
Spark Streaming
Spark API

DataFrames

DataFrames and Resilient Distributed Datasets (RDDs)
Partitions
DataFrame Types
DataFrame Operations
Map/Reduce with DataFrames

Spark SQL

Spark SQL Overview
Data stores: HDFS, Cassandra, HBase, Hive, and S3
Table Definitions
ETL in Spark
Queries

Spark MLib

MLib overview
MLib Algorithms Overview

Spark Streaming

Streaming overview
Real-time data ingestion
State
Window Operations

Spark GraphX

GraphX overview
ETL with GraphX
Graph computation

Performance and Tuning

Broadcast variables
Accumulators
Memory Management

Cluster Mode

Standalone Cluster
Masters and Workers
Configurations
Working with large data sets

32 horas

Ver Curso

Curso Apache Spark for Data Scientists

Curso Apache Spark for Data Scientists

Visão Geral

Objetivo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices

Curso Red Hat DevOps Pipelines and Processes: CI/CD with Jenkins

Curso Cloud Security and DevSecOps Automation

O que você quer aprender hoje?

Curso Apache Spark for Data Scientists

Curso Apache Spark for Data Scientists

Visão Geral

Objetivo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices

Curso Red Hat DevOps Pipelines and Processes: CI/CD with Jenkins

Curso Cloud Security and DevSecOps Automation