OpenData 公開 Vector 向量資料庫


Vector 是一個原生支援物件儲存的向量資料庫,用於近似最近鄰 (ANN) 搜尋,基於 SlateDB 構建,採用 SPANN 式架構:將聚類中心儲存在記憶體中以實現快速導航,並將列表和向量資料儲存在磁碟上以實現十億級容量。

主要特色

  • SPANN 索引:具有可配置質心比的記憶體高效能 ANN 搜尋
  • 元資料過濾:結合相似性和謂詞的混合查詢的倒排索引
  • 增量更新:LIRE 式的重新平衡可在不進行全局重建的情況下保持索引質量
  • Roaring 位元圖:用於快速集合作業的壓縮發布列表

Vector 每秒可處理約 1K 到 12K 次向量寫入,具體次數取決於資料集大小和向量維度。資料攝取瓶頸在於:(1) 遍歷質心索引以將向量指派給條目;(2) 執行 LIRE 時,索引器將質心分割後,計算新的聚類。向量越多,需要搜尋的質心就越多;維度越多,距離計算的成本就越高。

OpenData Vector 採用 MIT 許可證發布。

https://github.com/opendata-oss/opendata/tree/main/vector

Picture Source

OpenData

留言