BLEU

Table of contents

背景
NIST

背景

prefix finetuning
- 《Prefix-Tuning: Optimizing Continuous Prompts for Generation》
- 是一篇探討如何有效利用大型預訓練語言模型（如GPT-2和BART）執行下游生成任務的研究文章。
- 傳統上，微調（fine-tuning）是常見的方式，但此方法需調整模型所有參數，並為每個任務儲存完整模型，成本較高。
- 為了解決這些問題，作者提出了「Prefix-Tuning」，這是一種輕量級替代方案。
- 該方法固定模型參數，僅優化一組連續的任務特定向量，稱為「Prefix」，這些向量像虛擬標記一樣參與語言生成過程。
- 實驗顯示：
  1. 性能表現：Prefix-Tuning 在大數據環境中與完整微調相當，但在低數據環境中表現更好。
  2. 數據外推：對於未見過的主題，Prefix-Tuning 的外推能力更佳。
  3. 效率：該方法僅需學習約 0.1% 的參數，大幅減少資源需求。
- 作者將這一技術應用於 GPT-2 的表格到文本生成和 BART 的摘要生成，證明了其在自然語言生成領域的實用性。
python模組
- 用 Python 計算文本 BLEU 分數和 ROUGE 值
- Python 的 NLTK 和 Rouge 库可以用來計算文本生成任務中的 BLEU 分數與 ROUGE 值，以評估生成文本與參考文本的差異程度。
- NLTK 支援句子級與語料級的 BLEU 分數計算，並允許自定義 n 元組權重；
- Rouge 庫則提供 ROUGE-1、ROUGE-2 和 ROUGE-L 的準確率、召回率和 F1 值計算。
- 這些指標被廣泛用於機器翻譯與自動摘要生成評估中。

NIST

NIST（National Institute of Standards and Technology）的計算，通常與其多種標準和工具相關。具體問題可能涉及不同領域，例如加密、性能測量或自然語言處理等。以下介紹幾個常見的 NIST 計算情境：

NIST BLEU 計算

在自然語言處理中，NIST 計算方法是 BLEU 的改進版，用於評估機器翻譯的準確性。 • BLEU（Bilingual Evaluation Understudy）注重 n-gram 匹配的次數，但 NIST 增加了 n-gram 的「資訊量權重」，更重視關鍵 n-gram 的匹配。

計算公式概述：

•	n-gram 加權：
•	BLEU 將 n-gram 視為同等重要，NIST 則根據 n-gram 的稀有性賦予不同權重，稀有的 n-gram 匹配將獲得更高的分數。
•	使用資訊增益（Information Gain）衡量權重： ￼
•	懲罰因子： 與 BLEU 相同，包含 brevity penalty（簡短懲罰），避免生成過於簡短的翻譯。

NIST SP 800 系列指導（如加密計算）

NIST 在資訊安全中的標準（如 AES 加密、密碼強度）提供了許多指南，例如： • 隨機數生成：使用公式衡量隨機數的熵。熵越高，安全性越強。 • 加密效率：計算加密的吞吐量、延遲等。公式通常由實驗測得：

NIST EER 計算（生物識別系統）

在生物識別系統中，NIST 定義了 EER（Equal Error Rate），用於衡量系統的準確性。 • 定義：當錯誤接受率（FAR）和錯誤拒絕率（FRR）相等時，系統的 EER 即為該值。 • 公式：通過調整閾值，找到以下相等的點：

NIST 測試套件（隨機性測試）

在隨機性測試中，NIST 提供一系列統計方法來衡量隨機數生成器的質量。例如： • 頻率測試：測試比特流中「1」和「0」的出現比例是否接近均勻。

常見應用

•	自然語言處理：NIST BLEU 分數用於翻譯評估。
•	資訊安全：計算密碼強度、加密算法效能。
•	生物識別：計算 EER 評估系統效能。
•	隨機性測試：確保隨機數生成器的品質。