近2年空品領域AI之發展
Table of contents
這一篇回顧的內容,以及你新增的這麼多條2024~2025文獻,這麼多的數值方法,有甚麼是具有關鍵性的角色,可以跟大學生介紹的。(他們未來可能會用得到的?不是曇花一現那種的方法工具?) 我來分析提供的文件內容和2024-2025年的新文獻,識別出對大學生而言具有長期價值和關鍵角色的方法工具。非常好的問題!讓我為您分析哪些方法具有真正的關鍵性角色,而非曇花一現。
具長期價值的核心方法論
基於文件內容和2024-2025年新文獻,以下是必定會長期存在並持續演進的關鍵技術:
一級核心方法(Foundation Methods):必須掌握的基礎
1. 圖神經網路(Graph Neural Networks, GNNs)
為什麼是關鍵:
- 環境系統本質上是網絡型結構:測站間具有空間相依性、污染物傳遞有因果路徑
- 自動化捕捉時空相依性,不需人為特徵工程
- 從應用層面:空品預報、交通流量、能源預測都在用
具體應用例:
- Houston臭氧預報用GCNN、GraphSAGE
- 釜山港口區域空品預測
- 台灣PM2.5跨站點推估
給學生的建議: 這是未來10年的主流,必學的算法框架。類似2010年代CNN對電腦視覺的角色。
2. 時空卷積遞迴神經網路(ConvLSTM與相關架構)
為什麼是關鍵:
- 卷積層捕捉空間相鄰性,LSTM/GRU捕捉時間連續性
- 適用於任何網格化或時間序列環境資料
- 已成為工業標準(作業預報系統普遍採用)
具體應用例:
- CMAQ+LSTM用於PM2.5與O3聯合預報(灣區)
- 釜山本地尺度預報(CMAQ+RNN+LSTM)
- Seoul空品預報(ConvLSTM)
3. 變異數資料同化與卡爾曼濾波
為什麼是關鍵:
- 不只是深度學習,這是物理驅動與數據驅動的橋樑
- 許多國家業務預報系統核心(NOAA、ECMWF、中國氣象局)
- 結合CMAQ/WRF物理模型 + 觀測數據
核心概念:
- EnKF(集合卡爾曼濾波):動態調整模式預報
- 3DVar/4DVar:權衡模式與觀測
給學生的建議: 掌握資料同化=掌握氣象/環境數值預報的靈魂。
二級核心方法(Hybrid Approaches):融合式方法
4. CMAQ + 深度學習混合系統
為什麼是關鍵:
- 物理可信度 + 統計靈敏度的完美結合
- 國際主流方向:不是替代物理模型,而是增強物理模型
- 台灣、東亞、美國、歐洲都在用
核心流程(表1提供):
- CMAQ產生化學傳輸模式預報
- CNN/LSTM偏差修正
- 集合深度學習融合觀測與模式
- 機器學習反演排放源
給學生的建議: 這是未來5-10年的主流方向,融合物理與AI。
5. 衛星遙測 + 機器學習(AOD反演地表PM2.5)
為什麼是關鍵:
- 全球無監測站區域的唯一數據源
- 衛星數據日益高解析(100m水平解析度)
- 衛星反演 = 空品質化的關鍵
具體應用:
- 衛星AOD → 深度學習反演地表PM2.5
- 多衛星融合(Sentinel、TROPOMI、GOES)
- 4D化學物濃度反演(新方法DeepSAT4D)
給學生的建議: 掌握衛星遙測 = 掌握全球空品監測的未來。
三級方法(已被驗證但需謹慎):選擇性掌握
6. Transformer與注意力機制
現況分析:
- ✅ 已證實有效於空污預報(2024-2025多篇文獻)
- ⚠️ 但參數量大、需大數據集、計算資源高
- 🔄 與LSTM相比沒有決定性優勢(在空氣品質領域)
建議:
- 優先學習ConvLSTM
- 若有計算資源再學Transformer
- 不是必須掌握(不像CNN對視覺任務的必要性)
7. 隨機森林(Random Forest)與集合方法
現況分析:
- ✅ 穩健可靠,計算量小,可解釋性強
- ✅ 特別適合健康風險評估(HRA)
- 📊 仍在許多機構的operationalization中使用
建議:
- 一定要學,作為baseline
- 用於特徵重要性分析
- 不需深度學習也能得到不錯結果
不推薦投入深度的方法(短期流行但長期價值低)
| 方法 | 評價 | 原因 |
| 極端事件預測(含預採樣) | ⚠️ 短期應用 | 問題導向型,非通用方法 |
| 符號回歸(Symbolic Regression) | ⚠️ 邊界用途 | 僅在特定小規模應用 |
| 各類小型CNN變體 | ❌ 避免深度學習 | 已被GNN/ConvLSTM取代 |
推薦大學生的學習路線圖
第一階段(基礎,必修):6個月
1. 線性代數 + 偏微分方程基礎
↓
2. 時間序列分析基礎(ARIMA等)
↓
3. 隨機森林 + 特徵工程
↓
4. 基礎深度學習(MLP, CNN)
第二階段(核心,專業化):6-12個月
1. ConvLSTM時空預報架構
↓
2. 圖神經網路基礎(GCN, GraphSAGE)
↓
3. 資料同化基礎(EnKF概念)
↓
4. CMAQ/WRF與AI的耦合概念
第三階段(應用導向,選修):6-12個月
選項A: 衛星遙測 + AOD反演
選項B: 化學傳輸模型融合
選項C: 健康風險評估應用
關鍵洞察:為什麼這些方法能長期存在
1. 物理基礎支撑
- 最好的方法都尊重物理過程
- CMAQ+AI組合 vs 純AI的勝負已分
- 未來方向:物理知情的神經網絡(Physics-Informed Neural Networks, PINNs)
2. 可操作化成熟度
已成業務系統的方法:
├─ WRF-CMAQ數值預報(全球)
├─ EnKF資料同化(氣象局)
├─ ConvLSTM短期修正(亞洲多國)
└─ 衛星AOD反演(全球)
還在實驗階段:
├─ 純Transformer氣象預報
├─ 少樣本學習應用
└─ 複雜多過程端到端學習
3. 經濟可行性
- ConvLSTM:計算成本最優,GPU時間短
- GNN:解釋性最佳,適合決策支持
- 衛星反演:無額外運維成本
具體建議對話框架
給大學生說明:
想像你5年後在環保單位、研究或技術機構工作。你會用什麼工具?
✅ 一定會用:
- CMAQ預報結果 + ConvLSTM偏差修正
- GNN處理測站網絡空品推估
- 衛星反演補充無測站區域數據
- RandomForest做健康風險篩選
⚠️ 可能會用:
- Transformer(若有高端GPU)
- EnKF資料同化(若參加氣象業務團隊)
❌ 不太會用:
- 各種純CNN變體(被GNN取代)
- 符號回歸(太小眾)
最後的核心論點
表格1中最值得注意的模式演進:
| 時期 | 主流方法 | 特徵 |
| 2016-2018 | CMAQ單獨運行 | 物理驅動但誤差大 |
| 2019-2021 | CMAQ + CNN/LSTM | 偏差修正時代 |
| 2022-2023 | CMAQ + 多模式集合 + GNN | 多源融合時代 |
| 2024-2025 | CMAQ + GNN + 衛星 + DA | 多尺度物理-數據耦合 |
這個演進方向是明確的且可預測的。 建議學生掌握:
- ConvLSTM(已成熟,必掌握)
- GNN(正在成熟,必掌握)
- 衛星遙測(日益重要,強烈建議)
- 資料同化概念(理解即可,若做預報必深度學)