Airflow 動手玩:(四)淺談 Airflow 架構


前幾篇實作 DAG & Operator,大家應該可以感受到 Airflow 透過 Operator 讓 Data Pipeline 更有彈性,我們可以透過不同功能的 Operator 跟 Trigger Rule 實作 DAG,甚至實作自己的 Operator。接下來這篇會帶大家瞭解 Airflow 如何透過架構安排讓部屬更有彈性!

架構

在聊聊架構之前,大家可以先想想前幾天我們是如何啟動 Airflow 的?沒錯,就是 WebServer & Scheduler,所以 Airflow 的架構至少有這兩部分。

WebServer 是單純的 UI 介面,但卻可以看到跟 Scheduler 一樣的 DAG、Connections 等等,這代表 WebServer 跟 Scheduler 之間一定連到同一個儲存介面,所以才會拿到一樣的值,這個儲存介面就是 Metadata Database。

回想第一篇,我們在做 airflow initdb 時有產生一個 SQLite 的資料庫 airflow.db,如果連進去看可以發現有幾個 Table 紀錄著我們熟悉的資訊,像是 DAG 資訊的 dag,每一次 Task 運行資訊的 task_instance 等等。

> sqlite3 ~/airflow/airflow.db
SQLite version 3.28.0 2019-04-15 14:49:49
Enter ".help" for usage hints.
sqlite> .tables
alembic_version        job                    slot_pool
chart                  known_event            task_fail
connection             known_event_type       task_instance
dag                    kube_resource_version  task_reschedule
dag_pickle             kube_worker_uuid       users
dag_run                log                    variable
dag_tag                serialized_dag         xcom
import_error           sla_miss

接下來可以看一下 Airflow 的架構圖,主要分成四個部分 WebServer, Scheduler, Executor 以及 Worker,我們分別來看看這四個 Components。

Airflow 架構,圖片來源:https://medium.com/@dustinstansbury/understanding-apache-airflows-key-concepts-a96efed52b1a

WebServer

WebServer 顧名思義,就是提供網頁功能的伺服器,WebServer 是可以單獨運作的,所以可以被分開部署,但如果只有 WebServer 而沒有下面三個 Components,也就只能查看 DAG、Task 及 Connections 等一些資訊而已。

Scheduler

Scheduler 負責排程,這裡的排程並不是直接指定哪個 Task 給哪個 Worker 運行,而是從 Metadata Database 中找尋 DAG 跟 Task 的狀態,並判斷是否將哪些 Task 傳送給 Executor 安排執行。

Executor

Executor 是一個 Queue Process,從 Scheduler 接收要執行的 Task,並將這些資訊存進 Queue,並從 Queue 中取出 Task 安排給閒置的 Worker 執行。如果仔細觀察 WebServer 或是 Scheduler 運行時的資訊,會發現 Terminal 有時會印出 INFO - Using executor SequentialExecutor,代表我們使用的是 SequentialExecutorSequentialExecutor 通常用於 debug,一次只能運行一個 Task,也是唯一可以跟 SQLite 配合的 Executor,因為 SQLite 不支援多個連線。

除了 SequentialExecutor 還有其他幾個 Executor,可以在 Airflow 的 Source Code 看到,像是 LocalExecutorCeleryExecutorKubernetesExecutor 等。

  • LocalExecutor:單機版的 Executor,雖然是單機版,但還是可以透過 MultiProcess 同時運行多個 Worker。
  • CeleryExecutor:使用 Celery 分散式的 Task Queue 當作 Executor,所以可以在多台電腦同時運行多個 Worker。
  • KubernetesExecutor:使用 Kubernetes 當作 Executor,所以每個 Task 都會被包裝成一個 Pod 運行,下下篇我們要將 Airflow 架設在 Kuberentes 上就會用到 KubernetesExecutor

Worker

Worker 負責實際執行Task。

Task 狀態

最後來看一下,Task 在 Airflow 裡從開始到結束會有哪些狀態。

  • No status: 當我們手動 Trigger DAG 或是 Scheduler 排程 DAG 後,這時 DAG 的 Task 會先被創造成 Task Instance 並寫進 Database ,這時 Task 的狀態就是 no status。
  • Scheduled: 當 Scheduler 確認某個 Task 需要被執行時,這時 Task 的狀態就會變成 Scheduled,像是當我們使用 BranchPythonOperator,執行結束後,Scheduler 會就依照執行的結果決定下一個 Task,這時那個 Task 的狀態就會是 Scheduled。
  • Queued: 當 Scheduler 把確定要執行的 Task 發送給 Executor 時,相當於把 Task 放入 Queue 裡,所以 Task 的狀態會變成 Queued。
  • Running: 當 Executor 把 Task 發送給閒置的 Worker 時,Task 的狀態就會變成 Running。
  • 最後依據 Workere 執行的結果,Executor 會把 Task 標示成 Success 或是 Failed。

Task 狀態流程,圖片來源:https://airflow.apache.org/docs/stable/concepts.html#task-lifecycle

總結

今天我們看了 Airflow 的架構圖,以及 Task 在 Airflow 中執行的各種狀態,對這兩點有了基礎的瞭解後,未來如果我們部署的 Airflow 有問題,相信大家能更快定位出問題可能出在哪。像是 Task 已經到了 Queued 的狀態了,卻一直遲遲沒有進到 Running,這時候我們就可以看看是不是 Worker 哪裡出問題了。
下一篇會帶大家看過 Airflow 的設定檔,讓大家知道 Airflow 有哪些可調控的部分。

資料來源

#Airflow #Data Pipeline #Data Cleaning #ETL
Airflow 動手玩
Airflow 是由 Airbnb 開源的 Data Pipeline 軟體,在 2019 年成為了 Apache 軟體基金會 Top-Level 的專案,這個系列文會介紹從如何用 Airflow 管理我們 Data Pipeline 到如何部署在 Kubernetes 上。






Related Posts

用 Python 自學資料科學與機器學習入門實戰:Scikit Learn 基礎入門

用 Python 自學資料科學與機器學習入門實戰:Scikit Learn 基礎入門

Day03_Origami學習筆記

Day03_Origami學習筆記

Markdown 常用語法

Markdown 常用語法

[DAY8] 初學 Git (上)

[DAY8] 初學 Git (上)

自動化測試 x Puppeteer - 玩偶QA參一咖 Day06

自動化測試 x Puppeteer - 玩偶QA參一咖 Day06

day_02: 我不會寫函式

day_02: 我不會寫函式



Comments