Link Search Menu Expand Document

P100上的裝置與應用

Table of contents

背景

以下是对您的内容的摘要:

  • 微调目标:在单块16G的推理卡上微调复现vicuna-7b,一种基于多轮对话语料的FaceBook/LLaMA的微调方案。
  • 微调方案:采用lora方式只训练一部分参数,基础模型采用半精度llama-7b-hf,使用load_in_8bit装载基础模型,采用peft技术微调,采用bitsandbytes加速。
  • 微调过程:分为安装依赖环境、准备Llama模型、整理语料和微调四个步骤,每个步骤都有详细的命令和说明。
  • 参考链接:本文参考了以下项目和文章:

Bin Xue 2024

這篇文章¹ 講述了如何使用多輪對話數據來微調基於聊天的語言模型(LLM)。讓我們簡要摘要並翻譯一下。

Fine-Tuning chat-based LLM with Multi-Turn Conversational Data (Part I)

作者 Bin Xue 在這篇文章中介紹了如何使用多輪對話數據來微調基於聊天的語言模型。這種模型與單輪問答的語言模型有所不同,因為它需要能夠在生成新回應時考慮到最近的對話。

作者首先提到,LLMs(語言模型)首先通過大量數據(數萬億個標記)進行訓練,以預測下一個標記,從而建立基礎模型。然後,基礎模型通過監督微調進一步進行微調,形成具有不同核心功能的多種LLMs。例如,某些模型可能更適合遵循指令,而另一些則更適合聊天功能。

在微調聊天模型時,我們需要讓模型能夠根據指令或對話歷史生成回應。因此,我們需要在每個對話輪中遮蔽用戶的輸入,以便在模型訓練期間不參與損失計算。作者展示了一個示例對話格式,以便使用huggingface的聊天模板進行訓練。

總之,這篇文章提供了微調聊天模型的實用指南,並強調了數據處理和格式化的重要性。¹

來源: 與 Bing 的交談, 2024/3/10 (1) Fine-Tuning chat-based LLM with Multi-Turn Conversational Data (Part I) | by Bin Xue | Jan, 2024 - Medium. https://medium.com/@xuebinbin12/fine-tuning-chat-based-llm-with-multi-turn-conversational-data-part-i-d8c64d01a20d. (2) I think the SFTTrainer just does a right shift, i don’t think it’s the right approach because it’s fine-tuning not training from scratch … - Medium. https://medium.com/@xuebinbin12/i-think-the-sfttrainer-just-does-a-right-shift-i-dont-think-it-s-the-right-approach-because-it-s-865953aef20d. (3) you’re looking at the wrong post, the dataset being loaded in this post is being shifted one position to the right for the ‘next token prediction …. https://medium.com/@xuebinbin12/youre-looking-at-the-wrong-post-the-dataset-being-loaded-in-this-post-is-being-shifted-one-a60551ab7218. (4) Bin Xue – Medium. https://medium.com/@xuebinbin12. (5) undefined. https://github.com/huggingface/transformers.git. (6) undefined. https://github.com/huggingface/peft.git.