計劃類別碼與名稱之對照
背景
- 「計畫類別」是環評書件書目的重要項目,此處建立其代碼與名稱的對照表。
程式說明
proj_class.py程式碼主要是處理 proj_class.html 這個網頁原始碼檔,提取特定內容生成 proj_class.json 這個 JSON 檔。
主要邏輯說明如下:
- 從
proj_class.html讀取所有行到 lines 列表 - 過濾出所有有
"value="和'B'的行到 a 列表
(可能是某些分類選項) - 從
a再過濾出有 ‘<’ 和 ‘>’ 標籤的行到 b 列表,b 應該就是分類名 - 從
a列表提取 value 的值到 cat_Bnum,應該是分類代碼 - 從
b列表解析出中文字提取到 cat_CNnam,就是分類名稱 - 生成分類資料字典
dd,key是分類代碼,值是名稱 - dd 寫入
proj_class.json - 讀回
proj_class.json驗證是否一致
輸入: proj_class.html - 原始網頁資料
輸出: proj_class.json - 經提取處理的分類資料
重要變數: dd - 分類資料字典