Y2pdf檔案之轉換

Table of contents

背景

這個 Python 腳本的目的是處理 PDF 文件,將它們轉換為文本文件(.txt)。以下是這個腳本的主要功能和邏輯:

主要功能:

  1. 讀取一個包含 PDF 文件路徑的 CSV 文件(paths2.csv)。
  2. 用一些自定義函數處理文本替換,並修改文件名。
  3. 創建一個 PDF 文件對象並使用 PyPDF2 函數庫讀取該文件。
  4. 對每個 PDF 文件提取文本內容。
  5. 將提取的文本保存為對應的 .txt 文件。
  6. 記錄已處理的文件,避免重複處理。
  7. 跳過已處理的文件,如果文件大小為零或加密,則進行錯誤處理。

輸入:

  • CSV 文件 paths2.csv 包含 PDF 文件的路徑信息。
  • 已處理文件的 not_write.txtwritten.txt

輸出:

  • 文本文件 .txt,內容是從相應的 PDF 文件中提取的文本。
  • 錯誤日誌,例如文件大小為零、文件加密、已處理文件等。

重要的程式邏輯:

  1. 使用 PyPDF2 函數庫來處理 PDF 文件。
  2. 使用 set 來記錄已處理和不需處理的文件。
  3. 使用自定義的替換函數 rep_str 來替換文件名中的奇怪字符串。
  4. 使用 for 迴圈遍歷每個 PDF 文件,提取文本,保存為 .txt 文件。
  5. 處理各種錯誤情況,如文件大小為零、文件加密等。

總體而言,這個腳本是為了將 PDF 文件轉換為可搜索的文本文件,同時處理一些文件名中的特殊字符。