Link Search Menu Expand Document

BBM notes

Table of contents

背景

安裝

git clone https://github.com/yihong0618/bilingual_book_maker.git
cd bilingual_book_maker
pip install -r requirements.txt

設定

  • 團隊接納許多API的來源,設定方式也較為複雜。此處以openai為例,有2種設法
    • export openai_key=sk-...,並在命令列中輸入選項與值--openai_key ${openai_key}
    • export BBM_OPENAI_API_KEY=sk-...,命令列中就不需要--openai_key選項
  • 目標語言:選項(--language
    • 這個選項的值可以是縮寫(entw-hansja等等)、或是全名("Simplified Chinese""English"等等)
    • 內設是簡體中文,如果沒有設定,會將輸入文字翻譯成zh-hans

執行

前處理

  • pdf、docx檔案無法直接處理
  • 圖表無法處理
  • 圖表隨文以至於中斷文章段落,無法處理。

單次執行

  • 輸入檔
    • 選項--book_name
    • 這個選項的值可以是epub檔(xml格式),也可以是txt檔,
    • 檔案長短不拘,程式會自動按照ai的消化能力判斷每次處理的文章段落。
  • 輸出檔
    • 螢幕輸出
    • 內設輸出檔名*_bilingual.txt*為輸入之主檔名。

批次執行

  • 將螢幕輸出導至某個輸出檔,以求簡潔。
for i in {2..6};do 
  python3 make_book.py --book_name eia/C0$i.txt --openai_key ${openai_key} --language English > eia/E0$i.txt
done

結果

  • 本次翻譯環評報告共5章內容112K、2300多字,共使用了gpt-3.5-turbo等7個語言模型花了0.1USD、時間約花了25分鐘。
  • 翻譯品質的話,因為本人較少看英文的環評報告,看是看得懂,但就是覺得生硬,應該是個人的問題。
  • 套件似乎還可以要求修改特定的文章語調,如對結果仍不滿意,還可以進行微調。
  • 據聞:GPT-4 翻譯品質比較好,但價格較貴且速度慢一些。