Engine SQL schema-free para exploração interativa de dados
Apache Drill é um engine SQL distribuído e schema-free projetado para exploração interativa de dados em grande escala. Permite consultas SQL em dados estruturados, semi-estruturados e não estruturados sem necessidade de definir esquemas ou executar ETL.
Drill utiliza uma arquitetura única:
Descoberta automática de esquemas em tempo de consulta
Conectores para HDFS, S3, MongoDB, HBase
Suporte completo a SQL padrão
Consultas interativas de baixa latência
-- Consulta direta em arquivo JSON
SELECT
t.user.name,
t.user.email,
t.event_type,
t.timestamp
FROM dfs.`/data/events.json` t
WHERE t.event_type = 'purchase'
LIMIT 100;
-- Combinando dados de HDFS e MongoDB
SELECT
h.customer_id,
h.purchase_amount,
m.customer_profile.age,
m.customer_profile.location
FROM hdfs.sales.`/data/purchases.parquet` h
JOIN mongo.customers.profiles m
ON h.customer_id = m._id;
Aspecto | Apache Drill | Trino | Apache Impala |
---|---|---|---|
Schema-Free | ✅ Nativo | ❌ Requer schema | ❌ Requer schema |
Data Exploration | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
Performance | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |