Y2pdf檔案之轉換
背景
這個 Python 腳本的目的是處理 PDF 文件,將它們轉換為文本文件(.txt)。以下是這個腳本的主要功能和邏輯:
主要功能:
- 讀取一個包含 PDF 文件路徑的 CSV 文件(
paths2.csv
)。 - 用一些自定義函數處理文本替換,並修改文件名。
- 創建一個 PDF 文件對象並使用 PyPDF2 函數庫讀取該文件。
- 對每個 PDF 文件提取文本內容。
- 將提取的文本保存為對應的 .txt 文件。
- 記錄已處理的文件,避免重複處理。
- 跳過已處理的文件,如果文件大小為零或加密,則進行錯誤處理。
輸入:
- CSV 文件
paths2.csv
包含 PDF 文件的路徑信息。 - 已處理文件的
not_write.txt
和written.txt
。
輸出:
- 文本文件
.txt
,內容是從相應的 PDF 文件中提取的文本。 - 錯誤日誌,例如文件大小為零、文件加密、已處理文件等。
重要的程式邏輯:
- 使用
PyPDF2
函數庫來處理 PDF 文件。 - 使用
set
來記錄已處理和不需處理的文件。 - 使用自定義的替換函數
rep_str
來替換文件名中的奇怪字符串。 - 使用
for
迴圈遍歷每個 PDF 文件,提取文本,保存為 .txt 文件。 - 處理各種錯誤情況,如文件大小為零、文件加密等。
總體而言,這個腳本是為了將 PDF 文件轉換為可搜索的文本文件,同時處理一些文件名中的特殊字符。