Analytics SQL serverless na plataforma Databricks Lakehouse
Databricks SQL é um plano de computação serverless que permite executar consultas SQL em seu data lake com performance otimizada. Construído sobre Apache Spark e Delta Lake, oferece a simplicidade de um data warehouse com a flexibilidade de um data lake.
Databricks SQL é parte da arquitetura Lakehouse:
Engine de consulta vetorizada de alta performance
Armazenamento ACID nativo para data lakes
Governança e segurança unificada
Compute serverless otimizado para SQL
-- Análise de vendas em Delta Lake
SELECT
date_trunc('month', sale_date) as month,
region,
SUM(amount) as total_sales,
COUNT(DISTINCT customer_id) as unique_customers
FROM delta.`/mnt/datalake/sales`
WHERE sale_date >= '2024-01-01'
GROUP BY month, region
ORDER BY month, total_sales DESC;
-- Consultar versão anterior dos dados
SELECT * FROM delta.`/mnt/datalake/sales`
VERSION AS OF 10;
-- Consultar dados de timestamp específico
SELECT * FROM delta.`/mnt/datalake/sales`
TIMESTAMP AS OF '2024-01-15 10:00:00';
Aspecto | Databricks SQL | Snowflake | BigQuery |
---|---|---|---|
Lakehouse | ✅ Nativo | ✅ Suporte | ✅ Suporte |
ML Integrado | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
Multi-Cloud | ✅ AWS, Azure, GCP | ✅ AWS, Azure, GCP | ❌ GCP Only |