News

LanceDB是Midjourney的客戶,正在為多模式AI構建數據庫

張公社以前是Tubi的工程副總裁和Cloudera的資深專家,擁有多年構建數據工具和基礎設施的經驗。但當張公開始在人工智能領域工作時,他很快遇到了傳統數據基礎設施的問題 - 這些問題阻礙了他將AI模型應用於生產環境。

“機器學習工程師和AI研究人員通常受困於低劣的開發體驗,”張公在接受TechCrunch採訪時表示。“數據基礎設施公司並不真正理解機器學習數據的問題。”

因此,作為Pandas的聯合創建者之一(這是廣受歡迎的Python數據科學庫),張公聯合軟件工程師徐磊共同創辦了LanceDB。

LanceDB正在建立同名的開源數據庫軟件LanceDB,該軟件旨在支持多模式AI模型 - 這些模型不僅能訓練和生成文本,還能訓練和生成圖像、視頻等等。得到Y Combinator支持的LanceDB,本月完成了800萬美元的種子輪融資,由CRV、Essence VC和Swift Ventures領投,使其總融資額達到1100萬美元。

“如果多模式AI對貴公司未來成功至關重要,您希望您昂貴的AI團隊專注於模型並將人工智能與商業價值連接起來,”張公說。“不幸的是,今天,AI團隊大部分時間都在處理底層數據基礎設施細節。LanceDB提供了AI團隊需要的基礎,這樣他們就能自由地專注於對企業價值真正重要的事情,並比以前更快地將AI產品推向市場。”

LanceDB本質上是一個向量數據庫 - 一個包含一系列數字(“向量”)的數據庫,這些數字編碼了非結構化數據的含義(例如圖像、文本等等)。

正如我的同事保羅·索爾斯最近所寫的,當人工智能炒作周期達到頂峰時,向量數據庫正在經歷一個時刻。這是因為它們對各種AI應用非常有用,從電子商務和社交媒體平台上的內容推薦到減少幻覺。

向量數據庫的競爭激烈 - 其中包括Qdrant、Vespa、Weaviate、Pinecone和Chroma等供應商(不包括大型科技公司)。那麼,LanceDB有何獨特之處?張公表示,更好的靈活性、性能和可擴展性。

首先,張公表示,建立在Apache Arrow之上的LanceDB使用一個自定義數據格式Lance Format,該格式經過優化,用於支持多模式AI訓練和分析。Lance Format能夠處理數十億個向量和以PB為單位的文本、圖像和視頻,並允許工程師管理與該數據相關的各種形式的元數據。

“到目前為止,還從未有一個系統可以統一訓練、探索、搜索和大規模數據處理,”張公說。“Lance Format使AI研究人員和工程師能夠擁有單一的真相來源,並在整個AI管道中取得極快的性能。這不僅僅是關於存儲向量。”

LanceDB通過出售其開源軟件的全面管理版本來賺錢,並增加了硬件加速和治理控制等功能 - 企業似乎業務很強大。該公司的客戶名單包括文本到圖像平台Midjourney、聊天機器人獨角獸Character.ai、自駕車初創公司WeRide和Airtable。

張公堅稱,LanceDB最近獲得的風險投資不會轉移其注意力離開開源項目,他說該項目現在每月約有60萬次下載。

“我們希望創造一些能夠使大規模多模式數據的AI團隊工作變得更容易的東西,”他說。“LanceDB提供 - 並將繼續提供 - 一套非常豐富的生態整合,以最小化採用工作。”

我們正在推出一份AI通訊!在此處註冊,自2021年6月5日開始收到!

Related Articles

Back to top button Back to top button