環保專案成果書目之解讀
Table of contents
背景
這個 Python 腳本(rd_title.py)是用來從 HTML 檔案中提取特定的專案訊息,並將其儲存為一個 CSV 檔案。 這裡是腳本的主要步驟:
- 定義來源目錄和搜尋 HTML 檔案:
- 設定
source_directory
為目前目錄 ("./"
)。 - 使用
glob.glob
函數來尋找目前目錄下的所有 HTML 檔案。
- 設定
- 初始化 Pandas DataFrame:
- 建立一個空的 DataFrame
df0
。 - 建立一個空的字典
gp_cat
用於儲存項目類別。
- 建立一個空的 DataFrame
- 遍歷 HTML 檔案:
- 遍歷每個 HTML 檔案。
- 使用 BeautifulSoup 解析 HTML 內容。
- 提取資料:
- 在每個 HTML 檔案中尋找所有帶有類別
download_icon
的<a>
標籤。 - 對於每個鏈接,提取
href
屬性,進而提取proj_id
和group_id
。 - 從連結的
title
屬性中提取項目標題。 - 將擷取的資料儲存在一個字典中,並加入到
data_list
清單中。
- 在每個 HTML 檔案中尋找所有帶有類別
- 轉換資料到 DataFrame 並合併:
- 將
data_list
轉換為一個新的 DataFramedf
。 - 將
df
合併(concat
)到初始的df0
DataFrame 中。
- 將
df = pd.DataFrame(data_list)
combined_df = pd.concat([df0, df], ignore_index=True)
- 新增類別資訊並儲存 CSV 檔案:
- 對於
df0
中的每個group_id
,從gp_cat
字典中尋找對應的類別cat
並加入 DataFrame 中。 - 設定
proj_id
為 DataFrame 的索引。 - 將 DataFrame 儲存為 CSV 檔案
env_prj.csv
。
- 對於
這個腳本主要用於從多個 HTML 文件中提取相關的連結信息,並將這些資訊匯總和格式化為一個結構化的 CSV 文件,以便於進一步的數據分析和處理。