ClickHouse 系列：Sampling 抽樣查詢與統計技術原理

1189 字

6 分鐘

ClickHouse 系列：Sampling 抽樣查詢與統計技術原理

2025-08-23

software development

ClickHouse

/

Database

/

鐵人賽

當面對 PB 級大數據查詢時，如何在不影響統計結論的前提下，快速獲得近似結果？ClickHouse 提供了高效的 Sampling 抽樣查詢技術，讓你能夠用「1% 的資料，取得 95% 準確度的結果」。

什麼是 Sampling？#

Sampling 是一種讓查詢只掃描部分資料進行統計預估的技術，主要應用於：

Dashboard 即時指標大盤
PB 級大數據近似統計查詢
全表掃描耗時過久的場景

ClickHouse 透過「Sampling Key」來實現有序與隨機性兼具的抽樣機制。

工作原理#

SAMPLE BY 欄位為 Hash 分布基準。
查詢時可透過 SAMPLE K 讓 ClickHouse 只掃描 K 百分比的資料。
抽樣是確定性的，對同一條件查詢結果不會改變。
跨表 Sampling Key 一致時，可支援 JOIN/IN 子查詢下的抽樣一致性。

SAMPLE 語法用法與差異#

1. SAMPLE k#

k 為 0 到 1 的浮點數。
查詢會隨機挑選約 k 比例的資料片段 (Granules) 進行處理。
聚合值需手動乘上 K 倍來還原近似統計結果。

1
SELECT Action, count() * 10 AS cnt
2
FROM user_events
3
SAMPLE 0.1
4
GROUP BY Action;

這段 SQL 會只讀取 10% 資料，查詢結果再乘上 10 還原。

2. SAMPLE N#

N 為目標處理的行數 (近似值)。
ClickHouse 會掃描至少 N 筆資料的顆粒 (Granules)。
使用 _sample_factor 虛擬欄位來自動估算放大倍率。

1
SELECT sum(PageViews * _sample_factor)
2
FROM visits
3
SAMPLE 10000000;

1
SELECT sum(_sample_factor)
2
FROM visits
3
SAMPLE 10000000;

3. SAMPLE k OFFSET m#

k: 取樣比例
m: 取樣偏移量 (0~1 之間)
可用於避免不同查詢 sample 重疊相同資料區塊。

1
SELECT *
2
FROM visits
3
SAMPLE 0.1 OFFSET 0.5;

建表時指定 Sampling Key#

僅 MergeTree 家族表引擎 支援 Sampling，且建表時需指定 Sampling Key。

1
CREATE TABLE user_events
2
(
3
    EventDate DateTime,
4
    UserID UInt64,
5
    Action String
6
) ENGINE = MergeTree()
7
PARTITION BY toYYYYMM(EventDate)
8
ORDER BY (UserID, EventDate)
9
SAMPLE BY intHash64(UserID);

選擇高 Cardinality 且分佈均勻的欄位 (如 UserID) 作為 SAMPLE BY 是關鍵。

範例：從 20 秒降到 2 秒#

原始查詢 (全表掃描)#

1
SELECT Action, count() FROM user_events GROUP BY Action;
2
-- 查詢花了：20 秒

抽樣查詢 (SAMPLE 0.1)#

1
SELECT Action, count() * 10 FROM user_events SAMPLE 0.1 GROUP BY Action;
2
-- 查詢花了：2 秒

相較於全表掃描，抽樣查詢時間縮短 10 倍，且統計結果的誤差率維持在 5% 以內。

Sampling 查詢驗證#

透過 EXPLAIN ESTIMATE 可預估查詢將掃描的資料量。

1
EXPLAIN ESTIMATE SELECT * FROM user_events SAMPLE 0.1;

parts	marks	rows
10/10	100/10	100,000,000 / 10,000,000

常見問題與誤區#

問題	解決建議
SAMPLE 查詢無效 → 還是全表掃描	建表時必須指定 SAMPLE BY Key。
抽樣比例選得太小 → 統計結果誤差大	建議 SAMPLE 0.05~0.2 之間較佳。
SAMPLE BY 欄位選錯 → 抽樣效果失真	選擇分佈均勻的欄位 (如 UserID) 來避免偏倚。