Link Search Menu Expand Document

Transcripy實作經驗

Table of contents

背景

Dependency

  • python版本:太舊會有問題,python 3.11~12 is OK
  • ntlk版本:太新(如3.9.1)會有資安防寫功能,3.7 is OK
  • 似乎沒有必要安裝、且版本規則彼此衝突、不可能存在者:
    • simpleaudio
    • spleeter
    • typerprotobupyannote-database

HF token

model = Model.from_pretrained(model, 
                  use_auth_token="ACCESS_TOKEN_GOES_HERE")

執行結果

$ lst data/output/transcripts/
total 148K
-rw-r--r-- 1 kuang SESAir 11K Nov  4 15:17 台北小城-1.transc #沒有時間戳的連續TXT檔
-rw-r--r-- 1 kuang SESAir 22K Nov  4 15:17 台北小城-1.srt #每句話分開一段
-rw-r--r-- 1 kuang SESAir 49K Nov  4 15:17 台北小城-1.sami #視頻平台的字幕顯示
-rw-r--r-- 1 kuang SESAir 40K Nov  4 15:17 台北小城-1.dfx #webVTT交換檔
-rw-r--r-- 1 kuang SESAir 20K Nov  4 15:17 台北小城-1.txt #如下
(py311)
kuang@l40 /nas2/kuang/MyPrograms/transcripy
$ head data/output/transcripts/台北小城-1.txt
# Language: zh
00:00:04.334 - 00:00:09.396: SPEAKER_01: 這是一配
00:00:06.000 - 00:00:09.396: SPEAKER_01: 那怎麼是沒住的啦
00:00:08.000 - 00:00:10.000: SPEAKER_01: 剛剛洞都拔出來了
00:00:10.000 - 00:00:18.880: SPEAKER_00: 管子沒接了
00:00:12.000 - 00:00:18.880: SPEAKER_00: 那個可能是
00:00:14.000 - 00:00:18.880: SPEAKER_00: 我想要看一下
00:00:16.000 - 00:00:18.000: SPEAKER_01: 我們寫的是裡面寄房老舊管性老舊
00:00:20.000 - 00:00:24.786: SPEAKER_00: 但是這邊比較麻煩是
00:00:22.000 - 00:00:24.786: SPEAKER_00: 我記得他水質好像有分兩匙