批次下載作業相關程式
基本說明
- 網路爬蟲是一類越來越普及的資訊技術1,此處使用此一名詞稱呼批次下載作業技術,僅為網路爬蟲部分功能,此處不涉及無特定目標的索引作業。
- 下載或上傳
- 包括定期或不定期,前者是運用電腦的排程控制、定期執行特定程式上網進行驗證、搜尋、畫面截取、下載等,「合理流量」的作業。
- 數據檔案之下載一般使用wget或cURL2
- 後者雖為手動批次進行,也可能因無約束而造成網路攻擊事件。
- 至於上網填報、上傳檔案等上載作業,除非對方網站允許,一般是不接受機器人作業方式的。
- 無目標、通用性目標之爬蟲行為,此處並不加以討論。
- 包括定期或不定期,前者是運用電腦的排程控制、定期執行特定程式上網進行驗證、搜尋、畫面截取、下載等,「合理流量」的作業。
- 此處之作業對象包括:
- 官方網頁提供之公開數據、文件、圖片、或文字
- 官方或商務網頁提供之畫面、影片
- 下載頻度與流量之控制
- 雖然大多數具有管理的網站,都會設定訪問頻率與下載流量的門檻,對不同需要的使用者提供不同程度的應對與資源分配,但下載者還是需要合理管理自己的程式與設定,避免造成遠端網站的拒絕或傷害。
- 除此之外,因下載數據量很龐大,也需在本地儲存、處理、品管、應用等等,有良好的管理。
- 由於是專案性質的應用,因此詳盡的技術細節、設定說明、與應用實證,見諸專案筆記,此處僅就一般或共同部分加以彙總。
- 網站特性之解析與應對策略
- 電腦排程之設定3
- 下載工具與程式
- 後續應用及發展
定期爬蟲專案簡介
- 自2016年以來陸續建置自動數據下載的專案條列如下。
氣象數據方面
- 觀測與再分析數據
- 中央氣象局(CWB)每天公開其自動站觀測結果在CODiS(CWB Observation Data Inquire System)網站,此處每日12時執行全國昨日監測結果的下載,詳CODiS筆記。
- 美國NCEP數據之每日下載:為氣象模式起始與邊界、同化等等所需要之觀測(或再分析)數據檔案,包括再分析結果、地面及高空觀測、以及海溫。
- 氣象模式產品
- 天氣報告與天氣圖
- 中央氣象局逐6小時天氣預報(文字稿)及天氣圖
- 逐6小時NOAA天氣圖下載:6-Hourly NCEP/NCAR Reanalysis Data Composite,提供東亞範圍之天氣圖。
空氣品質部分
- 環保署空品監測數據下載
- 逐時aqi數據之下載
- 逐月全台空品測站數據之下載
- 特殊性工業區空品監測數據下載
- CAMS預報數據
- 日本大氣污染情報網站圖面之下載
排放活動部分
- CEMS
- 電廠運轉率
- 交通量
批次爬蟲專案
全球空品模擬數據
空品畫面之截取
- earth.nullschool.net
- Windy網頁畫面
- airvisual
其他
- 癌症數據之下載
- 同仁發表文獻資料庫之建立
Reference
wiki、網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。” ↩
G. T. Wang, Linux 設定 crontab 例行性工作排程教學與範例,G. T. Wang, 2019/06/28 ↩
運用GFS/CWB/CAMS數值預報數進行台灣地區CMAQ模擬實例、http://sinotec24.com:8084/@iMacKuang5 ↩
sinotec24.com為Hinet給定,如遇機房更新或系統因素,將不會保留。敬請逕洽作者:sinotec2@gmail.com. ↩
Table of contents
- Download Hiway Forecasting Data
- Download Taipei Traffic Data
- PDF檔案之下載與整理
- Regulation Reader
- 環保專案報告之下載