Apache Iceberg

Name: Apache Iceberg
Availability: InStock
Author: Apache Software Foundation

Open Source 2024 Trending Table Format

Formato de tabela aberto para datasets analíticos enormes, com suporte a schema evolution e time travel.

O que é Apache Iceberg?

Apache Iceberg é um formato de tabela aberto para datasets analíticos enormes. Projetado para resolver problemas de performance, confiabilidade e evolução em data lakes, oferece recursos como ACID transactions, schema evolution e time travel queries.

História

Desenvolvido originalmente pela Netflix em 2017 para resolver limitações das tabelas Hive, foi doado para a Apache Software Foundation em 2018. Tornou-se um projeto top-level em 2020 e ganhou adoção massiva na comunidade de big data.

Arquitetura

Iceberg usa uma arquitetura de três camadas: dados (arquivos Parquet/ORC), manifests (metadados de arquivos) e metadata (snapshots e schema). Esta estrutura permite operações eficientes como pruning de partições e evolução de schema sem reescrever dados.

Vantagens

Schema evolution segura e automática
Time travel queries para auditoria e debugging
ACID transactions para consistência de dados
Hidden partitioning - sem exposição de detalhes de partição
Performance otimizada com pruning avançado
Compatibilidade com múltiplos engines (Spark, Flink, Trino)
Rollback de mudanças indesejadas

Desvantagens

Curva de aprendizado para conceitos novos
Overhead de metadados para tabelas pequenas
Ainda em evolução - algumas funcionalidades em desenvolvimento
Requer planejamento cuidadoso de particionamento
Dependência de engines compatíveis

Principais Recursos

Schema Evolution

Adicione, remova ou renomeie colunas sem reescrever dados existentes.

Time Travel

Consulte dados como estavam em qualquer ponto no tempo.

ACID Transactions

Garantias de consistência para operações concorrentes.

Hidden Partitioning

Particionamento automático sem exposição na API.

Especificações Técnicas

Formatos de Arquivo:	Parquet, ORC, Avro
Engines Suportados:	Spark, Flink, Trino, Impala
Storage Backends:	HDFS, S3, GCS, Azure Blob
Catalog Implementations:	Hive, Hadoop, Nessie, REST
Linguagens API:	Java, Python, Scala

Casos de Uso

Data Lakes Modernos

Substituição de tabelas Hive tradicionais com recursos avançados de gerenciamento.

Exemplo: Netflix migrou milhares de tabelas Hive para Iceberg para melhor performance.

Analytics em Tempo Real

Streaming analytics com garantias ACID e schema evolution.

Exemplo: Empresas de fintech usam para analytics de transações em tempo real.

Data Governance

Auditoria e compliance com time travel e versionamento de dados.

Exemplo: Bancos usam time travel para auditoria regulatória.

Quando Usar Apache Iceberg

✅ Recomendado para:

Data lakes que precisam de schema evolution
Workloads que requerem ACID transactions
Cenários com necessidade de time travel
Ambientes multi-engine (Spark + Trino + Flink)
Datasets grandes com requisitos de performance

⚠️ Considere alternativas se:

Você trabalha apenas com datasets pequenos
Não precisa de schema evolution
Usa apenas um engine de processamento
Tem limitações de overhead de metadados
Equipe não tem experiência com formatos modernos

Exemplos Práticos

Spark SQL

-- Criar tabela Iceberg
CREATE TABLE my_catalog.db.events (
    id bigint,
    event_time timestamp,
    user_id string,
    event_type string
) USING iceberg
PARTITIONED BY (days(event_time))

-- Inserir dados
INSERT INTO my_catalog.db.events VALUES 
(1, '2024-01-01 10:00:00', 'user1', 'login'),
(2, '2024-01-01 11:00:00', 'user2', 'purchase')

-- Time travel query
SELECT * FROM my_catalog.db.events 
TIMESTAMP AS OF '2024-01-01 10:30:00'

-- Schema evolution
ALTER TABLE my_catalog.db.events 
ADD COLUMN session_id string

Python API

from pyiceberg.catalog import load_catalog
import pandas as pd

# Carregar catalog
catalog = load_catalog("my_catalog")

# Criar tabela
schema = pa.schema([
    pa.field("id", pa.int64()),
    pa.field("event_time", pa.timestamp('us')),
    pa.field("user_id", pa.string()),
    pa.field("event_type", pa.string())
])

table = catalog.create_table(
    "db.events",
    schema=schema,
    partition_spec=PartitionSpec(
        PartitionField(source_id=2, field_id=1000, transform=DayTransform(), name="event_time_day")
    )
)

# Inserir dados
df = pd.DataFrame({
    'id': [1, 2, 3],
    'event_time': pd.to_datetime(['2024-01-01 10:00:00', '2024-01-01 11:00:00', '2024-01-01 12:00:00']),
    'user_id': ['user1', 'user2', 'user3'],
    'event_type': ['login', 'purchase', 'logout']
})

table.append(df)

# Ler dados
scan = table.scan()
df_result = scan.to_pandas()

Flink SQL

-- Configurar catalog Iceberg
CREATE CATALOG iceberg_catalog WITH (
  'type'='iceberg',
  'catalog-type'='hive',
  'uri'='thrift://localhost:9083',
  'warehouse'='hdfs://namenode:port/path/to/warehouse'
);

USE CATALOG iceberg_catalog;

-- Criar tabela para streaming
CREATE TABLE events (
    id BIGINT,
    event_time TIMESTAMP(3),
    user_id STRING,
    event_type STRING,
    WATERMARK FOR event_time AS event_time - INTERVAL '5' SECOND
) PARTITIONED BY (event_type);

-- Streaming insert
INSERT INTO events 
SELECT id, event_time, user_id, event_type
FROM kafka_source;

Tutoriais Relacionados

Iceberg com Spark e Trino

Nível: Intermediário Ver Tutorial

Schema Evolution Best Practices

Nível: Avançado Ver Tutorial

Comparações

Alternativas Similares

Tecnologia	Schema Evolution	Time Travel	Performance	Maturidade
Apache Iceberg	★★★★★	★★★★★	★★★★☆	★★★★☆
Delta Lake	★★★★☆	★★★★★	★★★★★	★★★★★
Apache Hudi	★★★☆☆	★★★☆☆	★★★★☆	★★★☆☆
Hive Tables	★★☆☆☆	★☆☆☆☆	★★☆☆☆	★★★★★

Matriz de Decisão

💡 Dica de Escolha:

Escolha Apache Iceberg se você precisa de schema evolution robusta e compatibilidade com múltiplos engines. É ideal para ambientes heterogêneos onde diferentes ferramentas precisam acessar os mesmos dados.

📊 Quick Facts

Versão Atual:	1.4.3
Licença:	Apache 2.0
Linguagem:	Java
Primeira Release:	2018
Última Atualização:	Janeiro 2024

🔗 Links Oficiais

🌐 Site Oficial 📁 GitHub 📚 Documentação 👥 Comunidade

🔄 Tecnologias Relacionadas

Delta Lake Apache Hudi Apache Spark

🎓 Cursos Relacionados

Modern Data Lake Formats

Intermediário Ver Curso

Apache Iceberg Deep Dive

Avançado Ver Curso

💼 Conteúdo Patrocinado

Espaço disponível para parceiros

Anunciar Aqui