Linq的AI檢索模型登頂HuggingFace MTEB排行榜

波士頓2024年6月5日 /美通社/ — 生成式人工智能(AI)初創公司Linq宣佈,該公司的大型嵌入模型「Linq-Embed-Mistral」在HuggingFace的「大規模文本嵌入基準(MTEB)」排行榜文本檢索評估中排名第一,超過了NVIDIA、Salesforce、Google,OpenAI和Cohere等競爭對手。這項評估由全球最大的機器學習平台HuggingFace負責。

Linq的嵌入模型在文本檢索類別中獲得了60.2分,高居榜首,領先於NVIDIA(59.4分)和Voyage AI(58.3分)。Google的模型以55.7分緊隨其後,OpenAI和Cohere分別獲得55.4分和55.0分。

HuggingFace的MTEB排行榜對嵌入模型在分類、聚類、成對分類、重排序、檢索、語義文本相似度(STS)和摘要這七個類別中的表現進行了排名。Linq的嵌入模型不僅在文本檢索類別中表現出色,在其他類別中也居於領先,總體排名第三。

MTEB總共列出了300多個嵌入模型,表明嵌入模型技術領域處於激烈但良性的競爭態勢。Linq在這項基準測試中的優異表現證明了其在嵌入模型技術方面的領先優勢。

嵌入模型在生成式AI中至關重要,尤其是通過採用檢索增強生成(RAG)技術來解決大語言模型(LLM)的幻覺問題。RAG允許模型通過訪問LLM內部不可用的最新數據或內部文檔來產生可靠的輸出。

負責該項目的Junseong Kim博士表示:「我們的研究表明,由於檢索數據具有廣泛的主題多樣性和高難度,GPT生成的數據並不完美,需要進行徹底驗證和改進。通過這些過程,輸出的質量可以提升到與人工標記數據相當的水平,最終基於MTEB基準數據集達到最佳檢索性能。研究結果顯示,通過使用GPT對數據進行精心優化和篩選,我們可以創建出針對RAG進行優化的模型,並最大限度地提高在特定領域的性能。」此外,他還強調:「重要的不僅僅是數據的改進,訓練方法的優化和快速的實驗週期也是提高檢索性能的關鍵。」

Linq聯合創始人兼首席執行官Jacob Choi說道:「準確的搜索對於生成式AI企業提高採用率至關重要。我們很自豪能夠開發出有助實現這一目標的核心嵌入模型,並且我們還將不斷擴展和完善該模型,以確保在金融和法律等專業領域提供精確的文本搜索。」Choi指出,2023年,ChatGPT的出現讓生成式AI的B2C(企業對消費者)用例開始興起。到了2024年,隨著準確性和安全技術的不斷改進,B2B(企業對企業)應用也將迎來顯著增長。

Massive Text Embedding Benchmark (MTEB) BEIR Retrieval Score in HuggingFace. as of May 30, 2024.

關於Linq

Linq(Wecover Platforms Inc)成立於2022年,由麻省理工學院電子與計算機工程系畢業生Jacob Choi和麻省理工學院計算科學與工程專業博士Subeen Pang共同創立。2021年,Choi因其AI神經形態計算研究入選福布斯「30位30歲以下科學領域精英」榜單。2022年,Linq獲得KakaoVentures,Smilegate Investment和Yellowdog的早期投資。2023年,Linq在Samsung Financial Networks主辦的「三星開放式協作」大賽中拔得頭籌,併入選美國最大的非股權式加速器MassChallenge的金融科技項目,繼續與畢馬威美國公司合作。

聯繫人:Jacob Choi ([email protected]