OpenData 公開 Vector 向量資料庫

Vector 是一個原生支援物件儲存的向量資料庫，用於近似最近鄰 (ANN) 搜尋，基於 SlateDB 構建，採用 SPANN 式架構：將聚類中心儲存在記憶體中以實現快速導航，並將列表和向量資料儲存在磁碟上以實現十億級容量。

主要特色

Vector 每秒可處理約 1K 到 12K 次向量寫入，具體次數取決於資料集大小和向量維度。資料攝取瓶頸在於：(1) 遍歷質心索引以將向量指派給條目；(2) 執行 LIRE 時，索引器將質心分割後，計算新的聚類。向量越多，需要搜尋的質心就越多；維度越多，距離計算的成本就越高。

OpenData Vector 採用 MIT 許可證發布。

Picture Source

OpenData

KJPro Technology Blog