Google Dataproc

Serviço gerenciado do Google Cloud para Hadoop e Spark

GCP Managed Fast Deploy

Google Dataproc é um serviço de nuvem totalmente gerenciado para executar clusters Apache Spark e Apache Hadoop. Oferece provisionamento rápido, auto-scaling inteligente e integração profunda com o ecossistema Google Cloud, permitindo que você se concentre em seus dados em vez de gerenciar infraestrutura.

Status do Serviço

Ativo

Última atualização: 2024

🔧 Especificações Técnicas

Versão Hadoop	2.10.x, 3.3.x
Versão Spark	3.3.x, 3.4.x, 3.5.x
Compute Engine	Todas as famílias de máquinas
Storage	Cloud Storage, Persistent Disk
Networking	VPC, Firewall Rules
Preemptible VMs	Suporte nativo
Auto Scaling	Baseado em métricas e políticas

⚡ Recursos Principais

🚀 Deploy Ultra-Rápido

Clusters prontos em 90 segundos com configuração automática e otimizada.

🔗 Integração GCP Nativa

Integração perfeita com BigQuery, Cloud Storage, Pub/Sub e outros serviços GCP.

💰 Otimização de Custos

Preemptible VMs, auto-scaling e cobrança por minuto para máxima economia.

🛡️ Segurança Enterprise

IAM integrado, VPC security, encryption at rest/transit e audit logs.

🏗️ Opções de Deployment

Standard Clusters

Clusters tradicionais com master e workers

• 1 master + N workers
• Persistent storage
• Custom machine types
• Long-running workloads

Tradicional

Single Node

Cluster de nó único para desenvolvimento

• Master e worker no mesmo nó
• Ideal para testes
• Custo mínimo
• Desenvolvimento rápido

Development

Dataproc Serverless

Execução serverless de jobs Spark

• Zero infrastructure
• Auto-scaling automático
• Pay per use
• Startup instantâneo

Serverless

🛠️ Aplicações Suportadas

Processamento

Apache Spark
Apache Hadoop
Apache Flink
Apache Beam

Analytics

Apache Hive
Apache Pig
Presto
Apache Drill

Machine Learning

Spark MLlib
TensorFlow
PyTorch
Scikit-learn

Notebooks

Jupyter
Apache Zeppelin
Datalab
Vertex AI Workbench

🔗 Integração com Google Cloud

🗄️ Storage & Data

Cloud Storage: Storage principal para data lakes
BigQuery: Data warehouse integrado
Cloud SQL: Databases relacionais
Bigtable: NoSQL de alta performance
Firestore: Database de documentos

📊 Analytics & ML

Vertex AI: Plataforma ML completa
Dataflow: Stream/batch processing
Pub/Sub: Messaging em tempo real
Data Studio: Visualização de dados
Looker: Business intelligence

🎯 Casos de Uso Ideais

✅ Recomendado para:

Empresas já no Google Cloud
Workloads com demanda variável
ETL e processamento batch
Analytics com BigQuery
Machine learning em escala
Migração rápida de Hadoop
Desenvolvimento e prototipagem
Processamento de logs

❌ Não recomendado para:

Workloads com latência ultra-baixa
Aplicações fora do GCP
Workloads 24/7 constantes
Compliance que requer on-premise
Customizações profundas do Hadoop
Orçamentos muito limitados

💰 Modelo de Preços

Dataproc Standard

Taxa Dataproc por vCPU/hora
+ Custo das VMs Compute Engine
+ Storage (Cloud Storage/Persistent Disk)
Cobrança por minuto (mín. 1 min)

Dataproc Serverless

Pay per vCPU-hour e GB-hour
Sem custos de infraestrutura
Billing por segundo
Free tier disponível

Otimização de Custos

Preemptible VMs (até 80% desconto)
Auto-scaling inteligente
Cloud Storage como storage principal
Cluster termination automático
Sustained use discounts

🛠️ Suporte e Recursos

Documentação

Google Cloud Documentation
Best practices guides
Tutorials e quickstarts
Sample code e templates

Suporte Google Cloud

Basic support (gratuito)
Standard support
Enhanced support
Premium support

Comunidade

Stack Overflow
Google Cloud Community
Reddit r/GoogleCloud
Google Cloud Next sessions

🚀 Como Começar

1. GCP Account

Crie ou acesse sua conta Google Cloud

Google Dataproc

2. Enable APIs

Habilite Dataproc e Compute Engine APIs

Quick Start

3. Create Cluster

Lance seu primeiro cluster Dataproc

Create Cluster

4. Submit Jobs

Execute seus primeiros jobs Spark/Hadoop

Submit Jobs

Google Dataproc

Status do Serviço

🔧 Especificações Técnicas

⚡ Recursos Principais

🚀 Deploy Ultra-Rápido

🔗 Integração GCP Nativa

💰 Otimização de Custos

🛡️ Segurança Enterprise

🏗️ Opções de Deployment

Standard Clusters

Single Node

Dataproc Serverless

🛠️ Aplicações Suportadas

Processamento

Analytics

Machine Learning

Notebooks

🔗 Integração com Google Cloud

🗄️ Storage & Data

📊 Analytics & ML

🎯 Casos de Uso Ideais

✅ Recomendado para:

❌ Não recomendado para:

💰 Modelo de Preços

Dataproc Standard

Dataproc Serverless

Otimização de Custos

🛠️ Suporte e Recursos

Documentação

Suporte Google Cloud

Comunidade

🚀 Como Começar

1. GCP Account

2. Enable APIs

3. Create Cluster

4. Submit Jobs

🔗 Links Úteis

Oficial

Recursos

Comparações