Y2pdf檔案之轉換

Table of contents

Y2pdf檔案之轉換
- 背景

背景

這個 Python 腳本的目的是處理 PDF 文件，將它們轉換為文本文件（.txt）。以下是這個腳本的主要功能和邏輯：

主要功能：

讀取一個包含 PDF 文件路徑的 CSV 文件（paths2.csv）。
用一些自定義函數處理文本替換，並修改文件名。
創建一個 PDF 文件對象並使用 PyPDF2 函數庫讀取該文件。
對每個 PDF 文件提取文本內容。
將提取的文本保存為對應的 .txt 文件。
記錄已處理的文件，避免重複處理。
跳過已處理的文件，如果文件大小為零或加密，則進行錯誤處理。

輸入：

CSV 文件 paths2.csv 包含 PDF 文件的路徑信息。
已處理文件的 not_write.txt 和 written.txt。

輸出：

文本文件 .txt，內容是從相應的 PDF 文件中提取的文本。
錯誤日誌，例如文件大小為零、文件加密、已處理文件等。

重要的程式邏輯：

使用 PyPDF2 函數庫來處理 PDF 文件。
使用 set 來記錄已處理和不需處理的文件。
使用自定義的替換函數 rep_str 來替換文件名中的奇怪字符串。
使用 for 迴圈遍歷每個 PDF 文件，提取文本，保存為 .txt 文件。
處理各種錯誤情況，如文件大小為零、文件加密等。

總體而言，這個腳本是為了將 PDF 文件轉換為可搜索的文本文件，同時處理一些文件名中的特殊字符。