Link Search Menu Expand Document

辨識講者的會議轉錄

Table of contents

背景

  • 會議中使用語音辨識技術能提高效率,減少手動紀錄時間,並且在辨識多講者的環境中,提供自動轉錄服務。
  • 隨著 AI 進步,不同 ASR 模型與整合方案逐漸應運而生,為使用者提供更多選擇。
  • 2020年方法論的中文說明,可以參考清大Behavioral Informatics & Interaction Computation Lab
  • Speaker Diarization: An Introductory Overview,La Javaness R&D 2023/7@medium除了概念介紹之外,也提供了pyannote與Nemo 2個開源方案。

這篇筆記建議從各項方案的特點與應用情境著手,依照會議需求選擇適合的 ASR 模型或整合方案。 希望這些資訊能幫助您在進行會議轉錄時找到最佳解決方案。

開源方案

Transcripy 與 pyannote-speaker-diarization

2024年5款常用開源的轉錄模型

Whisper、DeepSpeech、Kaldi、Wav2vec、SpeechBrain。每款 ASR 模型各有特點:

  • Whisper 專注於多語言辨識、
  • DeepSpeech 對資源需求較低、
  • Kaldi 開放度高但學習曲線較陡、
  • Wav2vec 擅長於低資源語音辨識,而
  • SpeechBrain 則提供多功能模組以供自訂。
  • source:Whisper, DeepSpeech, Kaldi, Wav2vec, or SpeechBrain: key factors to consider when choosing an open-source ASR model for your apps and projects. gladia 2024/9

雲端ASR模型

  • Amazon Transcribe 2023/11
    • 支援超過 100 種語言的辨識,適合國際化的多語言會議。
    • 其最新的語音模型能自動識別語者並進行精準轉錄。
  • google speech-to-text of multiple persons
    • 具有多人聲音辨識能力,能辨識會議中的不同講者,
    • 特別適合需要自動分段和標註的會議情境。

商業整合方案

經理人部落格

  • 再也不用輪流寫會議記錄!3 個即時記錄、產出摘要的 AI 小工具,讓你專心開會經理人2024/5

其他

  • 在地化多語系環境設計,精準辨識每一段對話uni-ai@內湖
    • 特別針對多語環境的語音辨識需求而設計,
    • 適合在多文化、多語系的商務或政府會議中使用。
  • AI多人語音辨識會議紀錄​Qmeeting@板橋
    • line好友156人
    • 支援多人語音辨識
  • cyberlink MyEdit
    • 提供簡單的會議記錄功能;
  • METAMatch 會議記錄AI助手 (企業雲端版)@內湖
    • 會議記錄助手適合企業用戶,
    • 提供雲端存取和安全性保障。