ClickHouse 系列：Kubernetes 部署分散式架構

在過去 28 天，我們深入探討了 ClickHouse 的內部設計，包括 MergeTree 引擎、索引、查詢優化技巧，以及不同引擎在資料處理上的應用。這些都屬於「單機或單節點」的觀點。然而，當我們要把 ClickHouse 放到真實的生產環境，面對高併發、資料量成長、以及高可用性的需求時，部署策略就變得格外重要。

傳統部署方式（例如直接在 VM 或裸機上安裝）雖然簡單，但在現代雲端架構下已經不足以滿足需求。Kubernetes 作為事實上的容器編排標準，提供了自動化、可擴展、彈性化的能力，而 ClickHouse Operator 則讓我們能輕鬆在 Kubernetes 上管理複雜的 ClickHouse 叢集。

本篇文章會透過在單一主機上快速使用 minikube 和 clickhouse operator 模擬 Kubernates 部署分散式架構。

為什麼要在 Kubernetes 上部署 ClickHouse？#

ClickHouse 本身的設計就非常快，但隨著資料量和使用者數成長，單一節點往往無法承受所有負載。我們需要：

高可用 (HA, High Availability)
- 節點故障時，系統能自動切換，不影響查詢。
水平擴展 (Horizontal Scalability)
- 當資料量從 100GB 成長到數 TB，甚至 PB 級，能透過擴充節點快速分擔壓力。
自動化維運
- 部署、升級、監控、滾動更新都可以透過 Kubernetes 自動化完成。
雲原生整合
- Kubernetes 的優勢在於「一切皆為 API」。監控 (Prometheus)、儲存 (PVC)、網路 (Ingress/Service) 都能與 ClickHouse 無縫結合。

ClickHouse Operator 的出現，就是為了解決這些問題。

ClickHouse Operator 核心概念#

ClickHouse Operator 是由 Altinity 與開源社群維護的 Kubernetes Operator，主要目標是簡化 ClickHouse 叢集的管理。

Altinity

clickhouse-operator

Waiting for api.github.com...

00K

Waiting...

它的主要功能包括：

Cluster CRD (Custom Resource Definition)：允許你用 YAML 定義叢集（shards, replicas, storage, resources）。
自動化管理：建立、升級、刪除、滾動更新節點。
高可用支援：透過 Zookeeper 或 Keeper，支援 Replicated Tables。
監控整合：自動匯出 metrics 給 Prometheus。

結構上，Operator 會監控 Kubernetes 中的 ClickHouseCluster 資源，一旦偵測到改動（例如新增一個 replica），就會自動調整底層 StatefulSet 與 Pod，確保叢集狀態與宣告式配置一致。

雲端部署架構設計#

在雲端上，我們通常會設計一個具備以下特性的架構：

分片 (Shards) + 副本 (Replicas)
- Shard：將資料分散到不同節點，分擔儲存壓力
- Replica：為每個 shard 建立副本，提供高可用
- 本次實作我們使用 1 Shard, 2 Replica 架構做為測試
Zookeeper/Keeper 管理
- 協調叢集的一致性（表格複製、分片資訊）。
- 本次實作我們使用 3 個 Zookeeper
Persistent Volume Claims (PVC)
- 保證節點重啟後資料不會丟失。
- 本次實作我們採用 emptyDir (作為 Demo, 關掉後就會自動刪除資料)
資源配置
- CPU 與 Memory 限額，避免與其他工作負載競爭。

架構圖示例：

Zookeeper Clickhouse Structure

圖好像有點大…

這樣的設計能確保：

任一 Replica 宕機時，查詢不會中斷
當資料量變大，可以橫向擴展新的 Shard

實作環節#

建立分散式表之前有幾項前置作業：

安裝 minikube，我是使用 wsl2 (Ubuntu 24.04.2 LTS)
- 安裝好後可以使用 minikube dashboard 開啟 GUI 介面~ (Optional)
安裝 ClickHouse Operator
- 我是只有跑下面的指令就安裝好了，想知道細節可以看文件本身有講解部署了什麼元件
Terminal window
```
1
kubectl apply -f https://raw.githubusercontent.com/Altinity/clickhouse-operator/master/deploy/operator/clickhouse-operator-install-bundle.yaml
```
創建 namespace，用於隔離環境

1
kubectl create namespace zoo3ns

部署三節點 Zookeeper，新增檔案如下：

1
# Setup Service to provide access to Zookeeper for clients
2
apiVersion: v1
3
kind: Service
4
metadata:
5
  # DNS would be like zookeeper.zoons
6
  name: zookeeper
7
  labels:
8
    app: zookeeper
9
spec:
10
  ports:
11
    - port: 2181
12
      name: client
13
    - port: 7000
14
      name: prometheus
15
  selector:
16
    app: zookeeper
17
    what: node
18
---
19
# Setup Headless Service for StatefulSet
20
apiVersion: v1
21
kind: Service
22
metadata:
23
  # DNS would be like zookeeper-0.zookeepers.etc
24
  name: zookeepers
25
  labels:
26
    app: zookeeper
27
spec:
28
  ports:
29
    - port: 2888
30
      name: server
31
    - port: 3888
32
      name: leader-election
33
  clusterIP: None
34
  selector:
35
    app: zookeeper
36
    what: node
37
---
38
# Setup max number of unavailable pods in StatefulSet
39
apiVersion: policy/v1
40
kind: PodDisruptionBudget
41
metadata:
42
  name: zookeeper-pod-disruption-budget
43
spec:
44
  selector:
45
    matchLabels:
46
      app: zookeeper
47
  maxUnavailable: 1
48
---
49
# Setup Zookeeper StatefulSet
50
# Possible params:
51
# 1. replicas
52
# 2. memory
53
# 3. cpu
54
# 4. storage
55
# 5. storageClassName
56
# 6. user to run app
57
apiVersion: apps/v1
58
kind: StatefulSet
59
metadata:
60
  # nodes would be named as zookeeper-0, zookeeper-1, zookeeper-2
61
  name: zookeeper
62
  labels:
63
    app: zookeeper
64
spec:
65
  selector:
66
    matchLabels:
67
      app: zookeeper
68
  serviceName: zookeepers
69
  replicas: 3
70
  updateStrategy:
71
    type: RollingUpdate
72
  podManagementPolicy: OrderedReady
73
  template:
74
    metadata:
75
      labels:
76
        app: zookeeper
77
        what: node
78
      annotations:
79
        prometheus.io/port: '7000'
80
        prometheus.io/scrape: 'true'
81
    spec:
82
      affinity: {}
83
      containers:
84
        - name: kubernetes-zookeeper
85
          imagePullPolicy: IfNotPresent
86
          image: "docker.io/zookeeper:3.8.4"
87
          resources:
88
            requests:
89
              memory: "512M"
90
              cpu: "1"
91
            limits:
92
              memory: "4Gi"
93
              cpu: "2"
94
          ports:
95
            - containerPort: 2181
96
              name: client
97
            - containerPort: 2888
98
              name: server
99
            - containerPort: 3888
100
              name: leader-election
101
            - containerPort: 7000
102
              name: prometheus
103
          env:
104
            - name: SERVERS
105
              value: "3"
106

107
# See those links for proper startup settings:
108
# https://github.com/kow3ns/kubernetes-zookeeper/blob/master/docker/scripts/start-zookeeper
109
# https://clickhouse.yandex/docs/en/operations/tips/#zookeeper
110
# https://github.com/ClickHouse/ClickHouse/issues/11781
111
          command:
112
            - bash
113
            - -x
114
            - -c
115
            - |
116
              HOST=`hostname -s` &&
117
              DOMAIN=`hostname -d` &&
118
              CLIENT_PORT=2181 &&
119
              SERVER_PORT=2888 &&
120
              ELECTION_PORT=3888 &&
121
              PROMETHEUS_PORT=7000 &&
122
              ZOO_DATA_DIR=/var/lib/zookeeper/data &&
123
              ZOO_DATA_LOG_DIR=/var/lib/zookeeper/datalog &&
124
              {
125
                echo "clientPort=${CLIENT_PORT}"
126
                echo 'tickTime=2000'
127
                echo 'initLimit=300'
128
                echo 'syncLimit=10'
129
                echo 'maxClientCnxns=2000'
130
                echo 'maxTimeToWaitForEpoch=2000'
131
                echo 'maxSessionTimeout=60000000'
132
                echo "dataDir=${ZOO_DATA_DIR}"
133
                echo "dataLogDir=${ZOO_DATA_LOG_DIR}"
134
                echo 'autopurge.snapRetainCount=10'
135
                echo 'autopurge.purgeInterval=1'
136
                echo 'preAllocSize=131072'
137
                echo 'snapCount=3000000'
138
                echo 'leaderServes=yes'
139
                echo 'standaloneEnabled=false'
140
                echo '4lw.commands.whitelist=*'
141
                echo 'metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider'
142
                echo "metricsProvider.httpPort=${PROMETHEUS_PORT}"
143
                echo "skipACL=true"
144
                echo "fastleader.maxNotificationInterval=10000"
145
              } > /conf/zoo.cfg &&
146
              {
147
                echo "zookeeper.root.logger=CONSOLE"
148
                echo "zookeeper.console.threshold=INFO"
149
                echo "log4j.rootLogger=\${zookeeper.root.logger}"
150
                echo "log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender"
151
                echo "log4j.appender.CONSOLE.Threshold=\${zookeeper.console.threshold}"
152
                echo "log4j.appender.CONSOLE.layout=org.apache.log4j.PatternLayout"
153
                echo "log4j.appender.CONSOLE.layout.ConversionPattern=%d{ISO8601} - %-5p [%t:%C{1}@%L] - %m%n"
154
              } > /conf/log4j.properties &&
155
              echo 'JVMFLAGS="-Xms128M -Xmx4G -XX:ActiveProcessorCount=8 -XX:+AlwaysPreTouch -Djute.maxbuffer=8388608 -XX:MaxGCPauseMillis=50"' > /conf/java.env &&
156
              if [[ $HOST =~ (.*)-([0-9]+)$ ]]; then
157
                  NAME=${BASH_REMATCH[1]} &&
158
                  ORD=${BASH_REMATCH[2]};
159
              else
160
                  echo "Failed to parse name and ordinal of Pod" &&
161
                  exit 1;
162
              fi &&
163
              mkdir -pv ${ZOO_DATA_DIR} &&
164
              mkdir -pv ${ZOO_DATA_LOG_DIR} &&
165
              whoami &&
166
              chown -Rv zookeeper "$ZOO_DATA_DIR" "$ZOO_DATA_LOG_DIR" &&
167
              export MY_ID=$((ORD+1)) &&
168
              echo $MY_ID > $ZOO_DATA_DIR/myid &&
169
              for (( i=1; i<=$SERVERS; i++ )); do
170
                  echo "server.$i=$NAME-$((i-1)).$DOMAIN:$SERVER_PORT:$ELECTION_PORT" >> /conf/zoo.cfg;
171
              done &&
172
              if [[ $SERVERS -eq 1 ]]; then
173
                  echo "group.1=1" >> /conf/zoo.cfg;
174
              else
175
                  echo "group.1=1:2:3" >> /conf/zoo.cfg;
176
              fi &&
177
              for (( i=1; i<=$SERVERS; i++ )); do
178
                  WEIGHT=1
179
                  if [[ $i == 1 ]]; then
180
                    WEIGHT=10
181
                  fi
182
                  echo "weight.$i=$WEIGHT" >> /conf/zoo.cfg;
183
              done &&
184
              zkServer.sh start-foreground
185
          readinessProbe:
186
            exec:
187
              command:
188
                - bash
189
                - -c
190
                - '
191
                  IFS=;
192
                  MNTR=$(exec 3<>/dev/tcp/127.0.0.1/2181 ; printf "mntr" >&3 ; tee <&3; exec 3<&- ;);
193
                  while [[ "$MNTR" == "This ZooKeeper instance is not currently serving requests" ]];
194
                  do
195
                    echo "wait mntr works";
196
                    sleep 1;
197
                    MNTR=$(exec 3<>/dev/tcp/127.0.0.1/2181 ; printf "mntr" >&3 ; tee <&3; exec 3<&- ;);
198
                  done;
199
                  STATE=$(echo -e $MNTR | grep zk_server_state | cut -d " " -f 2);
200
                  if [[ "$STATE" =~ "leader" ]]; then
201
                    echo "check leader state";
202
                    SYNCED_FOLLOWERS=$(echo -e $MNTR | grep zk_synced_followers | awk -F"[[:space:]]+" "{print \$2}" | cut -d "." -f 1);
203
                    if [[ "$SYNCED_FOLLOWERS" != "0" ]]; then
204
                      ./bin/zkCli.sh ls /;
205
                      exit $?;
206
                    else
207
                      exit 0;
208
                    fi;
209
                  elif [[ "$STATE" =~ "follower" ]]; then
210
                    echo "check follower state";
211
                    PEER_STATE=$(echo -e $MNTR | grep zk_peer_state);
212
                    if [[ "$PEER_STATE" =~ "following - broadcast" ]]; then
213
                      ./bin/zkCli.sh ls /;
214
                      exit $?;
215
                    else
216
                      exit 1;
217
                    fi;
218
                  else
219
                    exit 1;
220
                  fi
221
                   '
222
            initialDelaySeconds: 15
223
            periodSeconds: 10
224
            timeoutSeconds: 60
225
          livenessProbe:
226
            exec:
227
              command:
228
                - bash
229
                - -xc
230
                - 'date && OK=$(exec 3<>/dev/tcp/127.0.0.1/2181 ; printf "ruok" >&3 ; IFS=; tee <&3; exec 3<&- ;); if [[ "$OK" == "imok" ]]; then exit 0; else exit 1; fi'
231
            initialDelaySeconds: 10
232
            periodSeconds: 30
233
            timeoutSeconds: 5
234
          volumeMounts:
235
            - name: datadir-volume
236
              mountPath: /var/lib/zookeeper
237
      # Run as a non-privileged user
238
      securityContext:
239
        runAsUser: 1000
240
        fsGroup: 1000
241
      volumes:
242
        - name: datadir-volume
243
          emptyDir:
244
            medium: "" #accepted values:  empty str (means node's default medium) or Memory
245
            sizeLimit: 1Gi

接著 apply 該部署文件和確認 zookeeper 是否都已建立：

1
# 部署配置
2
kubectl apply -f zookeeper-3-nodes.yaml -n zoo3ns
3

4
# 確認 service
5
kubectl get svc -n zoo3ns
6
NAME        TYPE        CLUSTER-IP          EXTERNAL-IP   PORT(S)            AGE
7
zookeeper   ClusterIP   {YOUR-CLUSTER-IP}   <none>        2181/TCP,7000/TCP  54m
8
zookeepers  ClusterIP   None                <none>        2888/TCP,3888/TCP  54m
9

10
# 確認 pods
11
kubectl get pod -n zoo3ns
12
NAME            READY   STATUS    RESTARTS   AGE
13
zookeeper-0     1/1     Running   0          53m
14
zookeeper-1     1/1     Running   0          53m
15
zookeeper-2     1/1     Running   0          52m

部署 Clickhouse with 1 shards and 2 replicas

1
apiVersion: "clickhouse.altinity.com/v1"
2
kind: "ClickHouseInstallation"
3

4
metadata:
5
  name: "repl-05"
6

7
spec:
8
  defaults:
9
    templates:
10
      dataVolumeClaimTemplate: default
11
      podTemplate: clickhouse-20.7
12

13
  configuration:
14
    zookeeper:
15
      nodes:
16
      - host: zookeeper.zoo3ns
17
    clusters:
18
      - name: replicated
19
        layout:
20
          shardsCount: 1
21
          replicasCount: 2
22

23
  templates:
24
    volumeClaimTemplates:
25
      - name: default
26
        spec:
27
          accessModes:
28
            - ReadWriteOnce
29
          resources:
30
            requests:
31
              storage: 500Mi
32
    podTemplates:
33
      - name: clickhouse-20.7
34
        spec:
35
          containers:
36
            - name: clickhouse-pod
37
              image: clickhouse/clickhouse-server:24.8

接著 apply 該部署文件和確認 zookeeper 是否都已建立：

1
# 部署配置
2
kubectl apply -f clickhouse-1shards-2replicas.yaml -n zoo3ns
3

4
# 確認 service
5
kubectl get svc -n zoo3ns
6
NAME                         TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)                      AGE
7
chi-repl-05-replicated-0-0   ClusterIP   None            <none>        9000/TCP,8123/TCP,9009/TCP   50m
8
chi-repl-05-replicated-0-1   ClusterIP   None            <none>        9000/TCP,8123/TCP,9009/TCP   49m
9
clickhouse-repl-05           ClusterIP   None            <none>        8123/TCP,9000/TCP            49m
10

11
# 確認 pods
12
kubectl get pod -n zoo3ns
13
NAME                           READY   STATUS    RESTARTS   AGE
14
chi-repl-05-replicated-0-0-0   1/1     Running   0          50m
15
chi-repl-05-replicated-0-1-0   1/1     Running   0          50m

如果都完成了，恭喜你完成最難的一步🚀：建置環境

進入 ClickHouse 內部測試是否成功

開啟兩個 terminal，個別進入不同的 pods

1
kubectl exec -it chi-repl-05-replicated-0-0-0 -- bash
2
kubectl exec -it chi-repl-05-replicated-0-1-0 -- bash

進入後輸入 clickhouse-client
在 chi-repl-05-replicated-0-0-0 pod 內部建立 ReplicatedMergeTree，這個 MergeTree 引擎可以幫助你自動同步不同 cluster, shards, replicas… 的資料

1
CREATE TABLE events_local ON CLUSTER `{cluster}`
2
(
3
    `event_date` Date,
4
    `event_type` Int32,
5
    `article_id` Int32,
6
    `title` String
7
)
8
ENGINE = ReplicatedMergeTree('/clickhouse/{installation}/{cluster}/tables/{shard}/{database}/{table}', '{replica}')
9
PARTITION BY toYYYYMM(event_date)
10
ORDER BY (event_type, article_id)

得到結果，代表你已經成功新增了。

1
Query id: 0e9d3beb-59ea-4194-9dbe-9f7cf88e19cc
2

3
┌─host───────────────────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
4
1. │ chi-repl-05-replicated-0-0 │ 9000 │      0 │       │                   1 │                0 │
5
2. │ chi-repl-05-replicated-0-1 │ 9000 │      0 │       │                   0 │                0 │
6
└────────────────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
7

8
2 rows in set. Elapsed: 0.253 sec.

接著建立本地表

1
CREATE TABLE events ON CLUSTER `{cluster}` AS events_local
2
ENGINE = Distributed('{cluster}', default, events_local, rand())

得到結果，代表你已經成功新增了。

1
Query id: b203ec4b-08b1-45bf-98ea-6d4ad32956d8
2

3
┌─host───────────────────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
4
1. │ chi-repl-05-replicated-0-0 │ 9000 │      0 │       │                   1 │                0 │
5
2. │ chi-repl-05-replicated-0-1 │ 9000 │      0 │       │                   0 │                0 │
6
└────────────────────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
7

8
2 rows in set. Elapsed: 0.084 sec.

接著可以在 chi-repl-05-replicated-0-0-0 插入資料，在 chi-repl-05-replicated-0-1-0 觀察資料是否有同步

先在 chi-repl-05-replicated-0-1-0 觀察，沒有資料是正常的:

1
SELECT *
2
FROM events_local
3
WHERE event_type = 100
4

5
Query id: 4dd7fbbd-4089-4b7a-aa16-af78baeaf3f4
6

7
Ok.
8

9
0 rows in set. Elapsed: 0.002 sec.

在 chi-repl-05-replicated-0-0-0 插入資料

1
INSERT INTO events VALUES (today(), 100, 123, 'from pod A');

回到 chi-repl-05-replicated-0-1-0 觀察:

1
SELECT *
2
FROM events_local
3
WHERE event_type = 100
4

5
Query id: 1537f542-a13d-4a19-b29b-baed69b476c8
6

7
┌─event_date─┬─event_type─┬─article_id─┬─title──────┐
8
1. │ 2025-08-28 │        100 │        123 │ from pod A │
9
└────────────┴────────────┴────────────┴────────────┘
10

11
1 row in set. Elapsed: 0.002 sec.

到這邊都是正確的，代表你成功了！！！（但是是在單節點上）

部署過程中的挑戰與解決方案#

即便有了 Operator，仍然會遇到一些挑戰：

儲存管理
- PVC 大小需事先規劃，否則後期調整麻煩。
- 解法：使用 StorageClass 提供動態擴展。
升級策略
- 直接升級可能導致節點不一致。
- 解法：使用 Rolling Update，並確保表格引擎為 Replicated 系列。
監控與觀測性
- 查詢效能下降時需要快速診斷。
- 解法：結合 Prometheus + Grafana，監控 query latency、merge 數量、磁碟使用率。
網路與流量分配
- 多 Shard 查詢需透過 Distributed Table 或外部負載平衡。
- 解法：Kubernetes Ingress + ClickHouse Distributed Engine。

與傳統 VM 部署的差異#

面向	VM/裸機部署	Kubernetes 部署
部署方式	手動安裝、配置	YAML 定義、自動化
擴容	需人工加機器、改設定	修改 replicas/shards 即可
高可用	需人工維護 Zookeeper	Operator 自動協調
升級	容易停機	滾動更新、零停機
監控	額外安裝	Prometheus/Grafana 整合

結論很明顯：如果你是單機測試，VM 部署即可；但若要進入生產環境，Kubernetes + Operator 幾乎是標準解。

結語#

ClickHouse 本身非常強大，但若缺乏好的部署方式，容易因節點故障、擴展困難、升級不便而影響穩定性。Kubernetes 與 ClickHouse Operator 的結合，讓我們能：

以 宣告式配置 (YAML) 管理整個叢集
自動化完成 部署、升級、擴展
提供高可用與容錯能力，支援雲端規模的數據分析

在資料量不斷成長的今天，這種雲原生部署方式已成為 ClickHouse 生產環境的首選。

明天就是 ClickHouse 系列最後一天了：Ｄ