新一代數(shù)據(jù)庫「偶數(shù)」獲紅杉中國、紅點(diǎn)中國投資,開源技術(shù)商業(yè)化是個好方向
偶數(shù)是一家算法公司。算法不斷迭代,就能讓數(shù)據(jù)庫提升更快的效率。
“偶數(shù)”成立于2016年底,是一個基于HAWQ的新一代數(shù)據(jù)庫項目,目前團(tuán)隊在30人。今年4月份公司獲得紅點(diǎn)中國的天使輪投資,又于近期完成了紅杉中國領(lǐng)投、紅點(diǎn)中國跟投的A輪融資,兩輪共計數(shù)千萬元。
我們先來看一下數(shù)據(jù)庫的發(fā)展歷程。
數(shù)據(jù)庫承擔(dān)的功能是存儲和計算,可分為交易型OLTP(on-line transaction processing)、分析型OLAP(On-Line Analytical Processing)兩類:
交易型OLTP是最穩(wěn)定的,主要是針對基本的、日常的事務(wù)處理,銀行交易就是一個典型的應(yīng)用場景,由于不能出紕漏,大企業(yè)基本都選用Oracle的產(chǎn)品,該市場80%已飽和,并且增長緩慢。
分析型OLAP是數(shù)據(jù)倉庫系統(tǒng),支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果,像現(xiàn)在智能交通中識別車牌就是典型應(yīng)用,需要分析大量數(shù)據(jù),以及現(xiàn)在正火熱的AI都需要分析型數(shù)據(jù)庫做底層支撐。分析型數(shù)據(jù)庫是創(chuàng)業(yè)公司的機(jī)會,存量市場在200億美元,目前還在保持高速增長。
分析型數(shù)據(jù)庫目前已經(jīng)歷三代,正朝著第四代演變。
Oracle做為數(shù)據(jù)庫的巨頭,產(chǎn)品即有OLTP,也有OLAP。第一代分析型數(shù)據(jù)庫/OLAP,代表有Oracle的Exadata,缺點(diǎn)是只能儲存在EMC這樣的高端專有硬件上,每個節(jié)點(diǎn)要花費(fèi)400多萬,并且,多節(jié)點(diǎn)共享一個存儲設(shè)備,導(dǎo)致可拓展性差,往往只能支持10幾個節(jié)點(diǎn)。
接著,出現(xiàn)第二代數(shù)據(jù)倉——MPP大規(guī)模并行處理。這時,數(shù)據(jù)已經(jīng)不需要儲存在專有硬件上,普通的x86服務(wù)器即可,成本自然下降。各個計算節(jié)點(diǎn)的數(shù)據(jù)獨(dú)立存在本地的硬盤上,互相之間不共享,計算時將任務(wù)并行的分散到多個服務(wù)器和節(jié)點(diǎn)上,在每個節(jié)點(diǎn)上計算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果。代表產(chǎn)品有HP Vertica、EMC收購的Greenplum、IBM Netezza,雖然這種架構(gòu)下節(jié)點(diǎn)可拓展至幾十個,但依舊不能滿足大規(guī)模的擴(kuò)展需求。
隨著Hadoop的發(fā)展,第三代數(shù)據(jù)庫崛起,數(shù)據(jù)存儲在HDFS上,HDFS是運(yùn)行在通用硬件上的分布式文件系統(tǒng)。此時,存儲、計算分離,各節(jié)點(diǎn)之間能夠互相訪問,擴(kuò)展性強(qiáng),可以延伸到上千個節(jié)點(diǎn)。不過由于新產(chǎn)品的性能還沒能很好磨合,有些情況下,第三代數(shù)據(jù)庫不如第二代快速。
之后,在Hadoop上就長出了很多開源技術(shù),用來更進(jìn)一步完善、優(yōu)化性能,HAWQ就是其中之一,此外還有Hive、Impala、Spark SQL等。
偶數(shù)的CEO常雷便是Apache HAWQ創(chuàng)始人,他告知,HAWQ數(shù)據(jù)庫可以比第二代快10倍,比第三代快30-50倍。
數(shù)據(jù)庫的性能取決于“優(yōu)化器”和“執(zhí)行器”,其中優(yōu)化器負(fù)責(zé)找出最佳步驟,執(zhí)行器負(fù)責(zé)控制硬件。而HAWQ的關(guān)鍵就在于執(zhí)行器。
例如,給一堆數(shù)據(jù)做排序,“先排序還是先篩選”是由優(yōu)化器決定,當(dāng)優(yōu)化器決定先排序時,接下來由執(zhí)行器調(diào)配硬件。我們知道在冒泡排序的算法里,用一個數(shù)據(jù)跟其他比較然后插入位置,此時用兩個甚至多個同時計算就會快很多,而HAWQ就是用一種高級指令控制硬件,同時計算多條數(shù)據(jù)。
再比如,CPU有一定的緩存空間,計算時訪問距離最近、速度最快,但空間有限,磁盤存儲空間最大卻訪問最遠(yuǎn)、速度最慢,所以,怎樣分配指令,用最快的資源處理最實時的需求,就是HAWQ執(zhí)行器需要做的事情。
這樣看來,偶數(shù)是一家算法公司。算法不斷迭代,就能讓數(shù)據(jù)庫提升更快的效率。
目前,偶數(shù)有兩款產(chǎn)品,一個是開源版的Apache HAWQ,另一個是商業(yè)版的Oushu Database(HAWQ++)。據(jù)常雷告知,剛發(fā)布的Oushu Database 3.0商業(yè)版比開源版快10倍,這樣算下來,就比Spark SQL等其他數(shù)據(jù)引擎快幾十倍。
至于應(yīng)用,偶數(shù)可以在數(shù)據(jù)庫內(nèi)做AI算法,效果會優(yōu)于TensorFlow,TensorFlow是獨(dú)立系統(tǒng),加在數(shù)據(jù)庫外,而偶數(shù)的算法可以做在數(shù)據(jù)庫內(nèi),訪問越近,速度越快。常雷告知,像是航母、銀行、電力運(yùn)維、金融、政府公安等行業(yè)目前都在應(yīng)用偶數(shù)數(shù)據(jù)庫,像是傳感器采集大量數(shù)據(jù)的場景,都需要快速處理。
收費(fèi)方面,偶數(shù)商業(yè)版根據(jù)CPU/節(jié)點(diǎn)/容量收取賬號年費(fèi)。
對于本次融資,紅點(diǎn)中國管理合伙人袁文達(dá)先生表示:“紅點(diǎn)中國本身是很看好大數(shù)據(jù)技術(shù)領(lǐng)域未來的發(fā)展趨勢,在國內(nèi)外投資了不少大數(shù)據(jù)技術(shù)公司,包括MapR、Dremio、Snowflake、Crunchbase、Kyligence等等,偶數(shù)團(tuán)隊來自于Pivotal、IBM等著名軟件公司,對國內(nèi)和國際市場以及產(chǎn)品落地有豐富的經(jīng)驗,以及HAWQ++在MPP分析數(shù)據(jù)庫的技術(shù)處于國際領(lǐng)先水平。我們很高興跟這樣的團(tuán)隊合作。”
至于融資資金,常雷透露,將主要用于研發(fā)和市場。
----
附:以下是Oushu Database 3.O主要的革新點(diǎn)
1. 全新執(zhí)行器,性能提升10倍。
執(zhí)行器是數(shù)據(jù)庫最核心的部件之一,Oushu Database 3.0對執(zhí)行器進(jìn)行了完全重新設(shè)計,充分利用了最新CPU的每一個特性,比如SIMD指令等,可以做到性能的極致。
2. 支持ORC外部存儲格式,結(jié)合新的執(zhí)行器,外部存儲的性能可以提升10-50倍。
這就使得外部存儲達(dá)到了內(nèi)部存儲的性能。
3. 支持新一代可插拔存儲框架,只需簡單編寫幾個函數(shù)就可以添加一個外部數(shù)據(jù)源。
傳統(tǒng)數(shù)據(jù)倉庫連接外部數(shù)據(jù)往往都是使用Connector形式,性能很慢,從而導(dǎo)致用戶需要使用先導(dǎo)入外部數(shù)據(jù)再查詢的方式,數(shù)據(jù)需要在多個系統(tǒng)存儲多份,浪費(fèi)了多倍存儲空間。
結(jié)合新一代執(zhí)行器,Oushu Database可插拔存儲框架使得數(shù)據(jù)庫可以直接高性能訪問外部數(shù)據(jù),查詢外部數(shù)據(jù)的性能和查詢內(nèi)部數(shù)據(jù)類似。
智能界(m.6567na.cn)中國智能科技聚合推薦平臺,秉承“引領(lǐng)未來智能生活”的理念,專注報道智能家居、可穿戴設(shè)備、智能醫(yī)療、機(jī)器人、3D打印、智能汽車、VR/AR/MR/、人工智能等諸多科技前沿領(lǐng)域。關(guān)注智能創(chuàng)新對人的生活方式、價值的改變,致力傳播放大這部分聲量。聚合品牌宣傳、代理招商、產(chǎn)品評測、原創(chuàng)視頻、fm電臺與試用眾測,深入智能科技行業(yè),全平臺多維度為用戶及廠商提供服務(wù),致力成為中國最具影響力的智能科技聚合推薦平臺。
智能界【微信公眾號ID:znjchina】【新浪/騰訊微博:@智能界】
數(shù)量:6 | 申請人數(shù):970 | 申領(lǐng):100積分 |
最新評論