Skip to content

Data Transformation (Pandas, Polars, DuckDB)

🛠️ Data Transformation (Pandas, Polars, DuckDB)

In Data Engineering, choosing the right tool for transformation depends on your data size and performance requirements.

🏗️ 1. Pandas: The Standard

Pandas is the industry standard but is single-threaded and memory-heavy.

When to use:

Interactive data exploration (Jupyter).
Small datasets (< 1GB).
Legacy projects.

🚀 2. Polars: The Performance Choice

Polars is written in Rust and uses parallel processing.

When to use:

Production pipelines.
Medium to large datasets.
When CPU efficiency and performance are critical.

import polars as pl

# Parallel reading and transformation
df = pl.scan_csv("data.csv")
result = (
    df.filter(pl.col("age") > 30)
    .group_by("city")
    .agg(pl.col("salary").mean())
    .collect() # Executes optimized plan
)

🦆 3. DuckDB: The OLAP Powerhouse

DuckDB is an in-process SQL OLAP database. It’s incredibly fast for analytical queries directly on Parquet/CSV files.

When to use:

Analytical SQL queries on flat files.
Out-of-core processing (data larger than RAM).
Local data warehousing.

import duckdb

# Querying a Parquet file directly with SQL
result = duckdb.query("""
    SELECT city, AVG(salary)
    FROM 'data.parquet'
    WHERE age > 30
    GROUP BY city
""").to_df() # Integration with Pandas/Polars

🚦 4. Transformation Strategy

Schema Validation: Always validate incoming data schemas (use Pydantic or Pandera).
Columnar Formats: Use Parquet or Avro for storage instead of CSV.
Partitioning: Partition large datasets by logical columns (e.g., date, region).