Amazon EMR

Elastic MapReduce - Serviço gerenciado da AWS

AWS Managed Cloud Native

Amazon EMR é um serviço de nuvem gerenciado que facilita o processamento de grandes quantidades de dados usando frameworks como Hadoop, Apache Spark, HBase, Presto e Flink. O EMR elimina a complexidade de configurar, gerenciar e dimensionar clusters de big data.

Status do Serviço
Ativo
Última atualização: 2024

🔧 Especificações Técnicas

Versão Hadoop 2.10.x, 3.3.x
Versão Spark 3.3.x, 3.4.x
Instâncias EC2 Todas as famílias disponíveis
Storage S3, EBS, Instance Store
Networking VPC, Security Groups
Spot Instances Suporte nativo
Auto Scaling Baseado em métricas

⚡ Recursos Principais

🚀 Provisionamento Rápido

Clusters prontos em minutos com configuração automática de todos os componentes.

💰 Otimização de Custos

Spot Instances, auto-scaling e cobrança por uso para reduzir custos significativamente.

🔒 Segurança Integrada

IAM, VPC, encryption at rest/transit e integração com AWS security services.

📊 Monitoramento Nativo

CloudWatch metrics, logs centralizados e alertas automáticos.

🏗️ Opções de Deployment

EMR on EC2

Clusters tradicionais em instâncias EC2

  • • Controle total sobre instâncias
  • • Suporte a Spot Instances
  • • Persistent clusters
  • • Custom AMIs
Tradicional
EMR on EKS

Jobs Spark em clusters Kubernetes

  • • Kubernetes nativo
  • • Shared infrastructure
  • • Job isolation
  • • Cost optimization
Kubernetes
EMR Serverless

Execução serverless de jobs

  • • Zero infrastructure
  • • Auto-scaling automático
  • • Pay per use
  • • Startup rápido
Serverless

🛠️ Aplicações Suportadas

Processamento
  • Apache Spark
  • Apache Hadoop
  • Apache Flink
  • Apache Storm
Analytics
  • Presto
  • Apache Hive
  • Apache Pig
  • Apache Impala
Machine Learning
  • Apache MXNet
  • TensorFlow
  • PyTorch
  • Spark MLlib
Databases
  • Apache HBase
  • Apache Phoenix
  • Apache Zeppelin
  • JupyterHub

🎯 Casos de Uso Ideais

✅ Recomendado para:
  • Empresas já na AWS
  • Workloads com demanda variável
  • ETL e processamento batch
  • Analytics interativo
  • Machine learning em escala
  • Log processing
  • Data lake analytics
  • Migração de Hadoop on-premise
❌ Não recomendado para:
  • Workloads com latência ultra-baixa
  • Aplicações que não estão na AWS
  • Workloads 24/7 constantes
  • Orçamentos muito limitados
  • Compliance que requer on-premise
  • Customizações profundas do Hadoop

💰 Modelo de Preços

EMR on EC2
  • Taxa EMR por instância/hora
  • + Custo das instâncias EC2
  • + Storage (EBS/S3)
  • Desconto com Reserved Instances
EMR Serverless
  • Pay per vCPU-hour e GB-hour
  • Sem custos de infraestrutura
  • Billing por segundo
  • Free tier disponível
Otimização de Custos
  • Spot Instances (até 90% desconto)
  • Auto-scaling inteligente
  • S3 como storage principal
  • Cluster termination automático

🛠️ Suporte e Recursos

Documentação
  • AWS Documentation completa
  • Best practices guides
  • Tutorials e workshops
  • Sample code e templates
Suporte AWS
  • Basic support (gratuito)
  • Developer support
  • Business support
  • Enterprise support
Comunidade
  • AWS Forums
  • Stack Overflow
  • AWS User Groups
  • re:Invent sessions

🚀 Como Começar

1. AWS Account

Crie ou acesse sua conta AWS

AWS EMR
2. IAM Setup

Configure permissões e roles necessárias

IAM Guide
3. Create Cluster

Lance seu primeiro cluster EMR

Quick Start
4. Submit Jobs

Execute seus primeiros jobs Spark/Hadoop

Submit Jobs