jina-embeddings-v2

Table of contents

背景

背景

- 這篇文章是關於Jina AI推出其第二代文本嵌入模型jina-embeddings-v2的最新進展。
- 該模型支持8K（8192個標記）的上下文長度，與OpenAI的專有模型text-embedding-ada-002在功能和在Massive Text Embedding Benchmark（MTEB）排行榜上的表現相當。
- 該模型在各種應用領域中展示了卓越的性能，包括法律文件分析、醫學研究、文學分析、金融預測和對話式人工智能等。此外，Jina AI還計劃發布一篇學術論文，詳細介紹jina-embeddings-v2的技術細節和基準測試結果，並正在開發類似於OpenAI的嵌入API平台。
- 目前Jina AI正在擴展其語言能力，計劃推出德語-英語模型。
jinaai/jina-embeddings-v2-base-en
- 本網頁介紹了 jina-embeddings-v2-base-en，這是由 Jina AI 訓練的文本嵌入集，用於序列長度不超過 8192 的英語單語文檔。
- 該模型基於 Bert 架構（JinaBert），該架構支援 ALiBi 的對稱雙向變體，以允許更長的序列長度。該模型在 C4 數據集上進行了預訓練，並在 Jina AI 收集的 4 億多個句子對和硬否定詞上進行了進一步訓練。
- 該模型可實現 1.37 億 p 的快速推理
- 該模型能夠使用1.37 億個參數進行快速推理，並在各種用例中提供比小型模型更好的性能，例如長文檔檢索、語義文本相似性、文本重排序、推薦、RAG 和基於LLM 的生成搜索等等。
- 該網頁還提供較短序列長度（最多 2048）的嵌入模型和用於對 Jina Embeddings 模型進行完全託管訪問的嵌入平台。此外，該網頁還宣布開發了德語和西班牙語的新雙語模型，並引用了描述該模型及其評估的論文。