LongChat

Table of contents

背景
Introduction and Summary

背景

這篇文章介紹了LongChat-7B和LongChat-13B這兩種聊天機器人模型，它們能處理高達16K tokens的長度文本。這些模型在長範圍檢索準確度上顯著優於其他開源模型，並且接近商業長文本模型的表現。LongChat模型除了可以處理長文本，還能精確地遵循人類指令並在人類偏好基準上表現出色。該團隊還分享了模型訓練方法和長文本處理的評估工具。

Introduction and Summary

在這篇文章中，我們介紹了最新系列的聊天機器人模型 LongChat-7B 和 LongChat-13B，具有高達 16K 令牌的擴展上下文長度的新水平。評估結果表明，
- LongChat-13B的遠程檢索精度比MPT-7B-storywriter（84K）、MPT-30B-chat（8K）和ChatGLM2-6B（8k）等其他長上下文開放模型高出2倍之多。
- LongChat 在縮小開放模型和專有長上下文模型（例如 Claude-100K 和 GPT-4-32K）之間的差距方面顯示出了可喜的成果。

圖 1：在遠端主題檢索任務上將 LongChat 與其他模型進行比較。

LongChat 模型不僅可以處理如此長的上下文長度，還可以精確地遵循人類在對話中的指令，並在人類偏好基準MT-Bench中表現出強大的性能。
它們的預覽版本可在 HuggingFace 上找到：lmsys/longchat-13b-16k和lmsys/longchat-7b-16k。可以使用 FastChat 在 CLI 或 Web 介面中進行測試：

python3 -m fastchat.serve.cli --model-path lmsys/longchat-7b-16k

開源社群對開發具有更長上下文的語言模型或擴展 LLaMA 等現有模型的上下文長度的興趣顯著增加。這種趨勢引發了各種有趣的觀察和廣泛的討論，例如Kaiokendev 的部落格和這份arXiv 手稿；同時，已經發布了幾個著名的模型，聲稱支援比 LLaMA 更長的上下文，值得注意的模型包括：

MPT-7B-storywriter支援 65K 上下文長度並推論至 84K。 MPT-30B-chat支援8K上下文長度。 ChatGLM2-6B支援 8K 上下文。

在 LMSYS Org，我們一直在同時探索各種技術來延長Vicuna等模型的脈絡。在這篇文章中，隨著 LongChat 系列的發布，我們分享了我們的評估工具來驗證法學碩士的長上下文能力。

使用我們的評估工具結合各種學術長上下文評估基準，我們對幾種聲稱支持長上下文的開源和商業模型進行了徹底的比較。透過此分析，我們檢查這些模型在其承諾的上下文長度上的表現如何。我們發現，雖然 GPT-3.5-turbo 等商業模型在我們的測試中表現良好，但許多開源模型並未在其承諾的上下文長度上提供預期結果。

用於重現部落格文章中的結果的資料和程式碼可在我們的 LongChat儲存庫中找到。我們在此筆記本中提供了視覺化。