Google Dataproc

Serviço gerenciado do Google Cloud para Hadoop e Spark

GCP Managed Fast Deploy

Google Dataproc é um serviço de nuvem totalmente gerenciado para executar clusters Apache Spark e Apache Hadoop. Oferece provisionamento rápido, auto-scaling inteligente e integração profunda com o ecossistema Google Cloud, permitindo que você se concentre em seus dados em vez de gerenciar infraestrutura.

Status do Serviço
Ativo
Última atualização: 2024

🔧 Especificações Técnicas

Versão Hadoop 2.10.x, 3.3.x
Versão Spark 3.3.x, 3.4.x, 3.5.x
Compute Engine Todas as famílias de máquinas
Storage Cloud Storage, Persistent Disk
Networking VPC, Firewall Rules
Preemptible VMs Suporte nativo
Auto Scaling Baseado em métricas e políticas

⚡ Recursos Principais

🚀 Deploy Ultra-Rápido

Clusters prontos em 90 segundos com configuração automática e otimizada.

🔗 Integração GCP Nativa

Integração perfeita com BigQuery, Cloud Storage, Pub/Sub e outros serviços GCP.

💰 Otimização de Custos

Preemptible VMs, auto-scaling e cobrança por minuto para máxima economia.

🛡️ Segurança Enterprise

IAM integrado, VPC security, encryption at rest/transit e audit logs.

🏗️ Opções de Deployment

Standard Clusters

Clusters tradicionais com master e workers

  • • 1 master + N workers
  • • Persistent storage
  • • Custom machine types
  • • Long-running workloads
Tradicional
Single Node

Cluster de nó único para desenvolvimento

  • • Master e worker no mesmo nó
  • • Ideal para testes
  • • Custo mínimo
  • • Desenvolvimento rápido
Development
Dataproc Serverless

Execução serverless de jobs Spark

  • • Zero infrastructure
  • • Auto-scaling automático
  • • Pay per use
  • • Startup instantâneo
Serverless

🛠️ Aplicações Suportadas

Processamento
  • Apache Spark
  • Apache Hadoop
  • Apache Flink
  • Apache Beam
Analytics
  • Apache Hive
  • Apache Pig
  • Presto
  • Apache Drill
Machine Learning
  • Spark MLlib
  • TensorFlow
  • PyTorch
  • Scikit-learn
Notebooks
  • Jupyter
  • Apache Zeppelin
  • Datalab
  • Vertex AI Workbench

🔗 Integração com Google Cloud

🗄️ Storage & Data
  • Cloud Storage: Storage principal para data lakes
  • BigQuery: Data warehouse integrado
  • Cloud SQL: Databases relacionais
  • Bigtable: NoSQL de alta performance
  • Firestore: Database de documentos
📊 Analytics & ML
  • Vertex AI: Plataforma ML completa
  • Dataflow: Stream/batch processing
  • Pub/Sub: Messaging em tempo real
  • Data Studio: Visualização de dados
  • Looker: Business intelligence

🎯 Casos de Uso Ideais

✅ Recomendado para:
  • Empresas já no Google Cloud
  • Workloads com demanda variável
  • ETL e processamento batch
  • Analytics com BigQuery
  • Machine learning em escala
  • Migração rápida de Hadoop
  • Desenvolvimento e prototipagem
  • Processamento de logs
❌ Não recomendado para:
  • Workloads com latência ultra-baixa
  • Aplicações fora do GCP
  • Workloads 24/7 constantes
  • Compliance que requer on-premise
  • Customizações profundas do Hadoop
  • Orçamentos muito limitados

💰 Modelo de Preços

Dataproc Standard
  • Taxa Dataproc por vCPU/hora
  • + Custo das VMs Compute Engine
  • + Storage (Cloud Storage/Persistent Disk)
  • Cobrança por minuto (mín. 1 min)
Dataproc Serverless
  • Pay per vCPU-hour e GB-hour
  • Sem custos de infraestrutura
  • Billing por segundo
  • Free tier disponível
Otimização de Custos
  • Preemptible VMs (até 80% desconto)
  • Auto-scaling inteligente
  • Cloud Storage como storage principal
  • Cluster termination automático
  • Sustained use discounts

🛠️ Suporte e Recursos

Documentação
  • Google Cloud Documentation
  • Best practices guides
  • Tutorials e quickstarts
  • Sample code e templates
Suporte Google Cloud
  • Basic support (gratuito)
  • Standard support
  • Enhanced support
  • Premium support
Comunidade
  • Stack Overflow
  • Google Cloud Community
  • Reddit r/GoogleCloud
  • Google Cloud Next sessions

🚀 Como Começar

1. GCP Account

Crie ou acesse sua conta Google Cloud

Google Dataproc
2. Enable APIs

Habilite Dataproc e Compute Engine APIs

Quick Start
3. Create Cluster

Lance seu primeiro cluster Dataproc

Create Cluster
4. Submit Jobs

Execute seus primeiros jobs Spark/Hadoop

Submit Jobs