Serviço gerenciado do Google Cloud para Hadoop e Spark
Google Dataproc é um serviço de nuvem totalmente gerenciado para executar clusters Apache Spark e Apache Hadoop. Oferece provisionamento rápido, auto-scaling inteligente e integração profunda com o ecossistema Google Cloud, permitindo que você se concentre em seus dados em vez de gerenciar infraestrutura.
Versão Hadoop | 2.10.x, 3.3.x |
Versão Spark | 3.3.x, 3.4.x, 3.5.x |
Compute Engine | Todas as famílias de máquinas |
Storage | Cloud Storage, Persistent Disk |
Networking | VPC, Firewall Rules |
Preemptible VMs | Suporte nativo |
Auto Scaling | Baseado em métricas e políticas |
Clusters prontos em 90 segundos com configuração automática e otimizada.
Integração perfeita com BigQuery, Cloud Storage, Pub/Sub e outros serviços GCP.
Preemptible VMs, auto-scaling e cobrança por minuto para máxima economia.
IAM integrado, VPC security, encryption at rest/transit e audit logs.
Clusters tradicionais com master e workers
Cluster de nó único para desenvolvimento
Execução serverless de jobs Spark