ClickHouse 系列：批次匯入最佳實踐 (CSV、Parquet、Native Format)

1236 字

6 分鐘

ClickHouse 系列：批次匯入最佳實踐 (CSV、Parquet、Native Format)

2025-08-19

software development

ClickHouse

/

Database

/

鐵人賽

/

Distributed

在實務的資料分析與數倉場景中，批次匯入（Batch Import）是 ClickHouse 最常見的資料導入方式之一。根據資料量、來源與格式的不同，選擇合適的匯入方法與檔案格式，能大幅提升匯入速度並降低資源消耗。

本篇將介紹三種常見格式：

CSV（通用文字格式）
Parquet（列式壓縮格式）
ClickHouse Native Format（原生二進位格式）

匯入基本流程#

在 ClickHouse 中，批次匯入最常透過以下方式進行：

clickhouse-client 命令行匯入（我是只有除錯用過啦…）
HTTP 接口 (INSERT INTO ... FORMAT)
外部工具（如 clickhouse-local、ETL 工具、Python SDK）

無論使用哪種方式，都必須：

先建立目標表（Schema 必須與檔案結構一致）
使用適合的表引擎（MergeTree 系列最常用）

匯入 CSV 格式#

適用場景#

來源系統匯出為純文字檔
跨平台通用、容易查看與修改
不追求極致效能，但需要易於整合

範例#

1
CREATE TABLE events_csv
2
(
3
    event_date Date,
4
    user_id UInt64,
5
    action String
6
) ENGINE = MergeTree()
7
ORDER BY (event_date, user_id);

1
clickhouse-client --query="INSERT INTO events_csv FORMAT CSV" < events.csv

性能建議#

加上 --max_insert_block_size=1000000 增加批次寫入大小

對於大檔案，可搭配 gzip 壓縮：

1
zcat events.csv.gz | clickhouse-client --query="INSERT INTO events_csv FORMAT CSV"

匯入 Parquet 格式#

適用場景#

上游系統（Spark、Flink、Hive）已輸出列式格式
大型批量資料（GB～TB 級別）
希望保留類型資訊與壓縮率

範例#

1
CREATE TABLE events_parquet
2
(
3
    event_date Date,
4
    user_id UInt64,
5
    action String
6
) ENGINE = MergeTree()
7
ORDER BY (event_date, user_id);

1
clickhouse-client --query="INSERT INTO events_parquet FORMAT Parquet" < events.parquet

性能建議#

Parquet 已壓縮，匯入時 CPU 壓力較高但 I/O 成本低
避免匯入過多小檔案（可先合併再匯入）

若檔案在雲端（S3），可直接用 s3() 函數載入：

1
INSERT INTO events_parquet
2
SELECT * FROM s3('https://bucket/file.parquet', 'AWS_KEY', 'AWS_SECRET', 'Parquet');

匯入 ClickHouse Native Format#

適用場景#

ClickHouse 與 ClickHouse 之間的高速傳輸
追求最高效能（無需格式解析）
適合資料備份與還原

範例#

1
clickhouse-client --query="SELECT * FROM events_csv FORMAT Native" > events.native
2
clickhouse-client --query="INSERT INTO events_native FORMAT Native" < events.native

性能建議#

比 CSV/Parquet 更快，適合機器間資料搬遷
不適用於多資料源系統（僅限 ClickHouse）
可搭配 clickhouse-backup 工具全庫搬遷

效能最佳化策略#

策略	說明
大批量一次性匯入	避免多次小批量 INSERT，減少寫入壓力
排序鍵對齊	匯入資料順序與 `ORDER BY` 鍵一致，可降低 Merge 開銷
關閉索引檢查	批次匯入前可暫時停用部分檢查（如 `constraints`）
分區分批匯入	按日期或業務鍵切分檔案，平行匯入

匯入方式比較#

格式	優點	缺點	適用場景
CSV	通用、易讀、易產生	體積大、解析慢	系統間交換、小規模匯入
Parquet	壓縮率高、列式存儲	解析較耗 CPU	大資料批量匯入
Native	匯入最快、無解析	僅 ClickHouse 可用	備份還原、集群遷移