批次下載作業相關程式

基本說明

  • 網路爬蟲是一類越來越普及的資訊技術1,此處使用此一名詞稱呼批次下載作業技術,僅為網路爬蟲部分功能,此處不涉及無特定目標的索引作業
  • 下載或上傳
    • 包括定期或不定期,前者是運用電腦的排程控制、定期執行特定程式上網進行驗證、搜尋、畫面截取、下載等,「合理流量」的作業。
      • 數據檔案之下載一般使用wget或cURL2
      • 後者雖為手動批次進行,也可能因無約束而造成網路攻擊事件。
    • 至於上網填報、上傳檔案等上載作業,除非對方網站允許,一般是不接受機器人作業方式的。
    • 無目標、通用性目標之爬蟲行為,此處並不加以討論。
  • 此處之作業對象包括:
    1. 官方網頁提供之公開數據、文件、圖片、或文字
    2. 官方或商務網頁提供之畫面、影片
  • 下載頻度與流量之控制
    • 雖然大多數具有管理的網站,都會設定訪問頻率與下載流量的門檻,對不同需要的使用者提供不同程度的應對與資源分配,但下載者還是需要合理管理自己的程式與設定,避免造成遠端網站的拒絕或傷害。
    • 除此之外,因下載數據量很龐大,也需在本地儲存、處理、品管、應用等等,有良好的管理。
  • 由於是專案性質的應用,因此詳盡的技術細節、設定說明、與應用實證,見諸專案筆記,此處僅就一般或共同部分加以彙總。
    1. 網站特性之解析與應對策略
    2. 電腦排程之設定3
    3. 下載工具與程式
    4. 後續應用及發展

定期爬蟲專案簡介

  • 自2016年以來陸續建置自動數據下載的專案條列如下。

氣象數據方面

空氣品質部分

排放活動部分

  • CEMS
  • 電廠運轉率
  • 交通量

批次爬蟲專案

全球空品模擬數據

空品畫面之截取

  • earth.nullschool.net
  • Windy網頁畫面
  • airvisual

其他

  • 癌症數據之下載
  • 同仁發表文獻資料庫之建立

Reference

  1. wiki、網路爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。” 

  2. 知乎:cURL 和 Wget 的优缺点各是什么? 

  3. G. T. Wang, Linux 設定 crontab 例行性工作排程教學與範例,G. T. Wang, 2019/06/28 

  4. 運用GFS/CWB/CAMS數值預報數進行台灣地區CMAQ模擬實例、http://125.229.149.182:8084/@iMacKuang5 

  5. 125.229.149.182為Hinet給定,如遇機房更新或系統因素,將不會保留。敬請逕洽作者:sinotec2@gmail.com. 


Table of contents