北京2022年8月12日 /美通社/ -- 隨著經(jīng)濟(jì)社會加速數(shù)字化轉(zhuǎn)型,大數(shù)據(jù)、云計算、人工智能、區(qū)塊鏈等新一代信息技術(shù)快速興起,智慧政務(wù)、金融科技、智慧交通、遠(yuǎn)程教育、智慧醫(yī)療等應(yīng)用加速落地,辦公文檔、圖片、視頻、音頻、設(shè)計文檔、日志文件、機(jī)器數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式增長,企業(yè)和組織愈發(fā)重視海量非結(jié)構(gòu)化數(shù)據(jù)的管理與應(yīng)用。如何依靠底層技術(shù)讓海量非結(jié)構(gòu)化數(shù)據(jù)的管理和使用更簡單?無處不在的元數(shù)據(jù)給出了答案。
什么是元數(shù)據(jù)?
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),人們身邊的一切信息和資源都可以用數(shù)據(jù)來描述,元數(shù)據(jù)則是從數(shù)據(jù)資源中抽取用來說明其特征和內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),用于組織、管理、保存、檢索信息和資源。雖然人們看不見元數(shù)據(jù)的存在,但它卻無時無刻不伴隨左右。人們平時所津津樂道的大數(shù)據(jù),也是基于元數(shù)據(jù)來計算的。
企業(yè)和組織可以基于元數(shù)據(jù)對海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理,例如獲取后綴名為jpeg的所有圖片文件列表、獲取文件大小大于10M的文件列表、獲取給定日期之前創(chuàng)建的文件列表,在快速獲取符合條件的文件之后還可以高效管理對應(yīng)的數(shù)據(jù)。而如何更方便快捷地查找到非結(jié)構(gòu)化的文件成為分布式存儲面臨的全新挑戰(zhàn)。
傳統(tǒng)檢索方式較為簡單粗暴,難以應(yīng)對文件多、目錄層次深、檢索條件復(fù)雜等挑戰(zhàn)。例如Linux中的find查找,對象存儲中的前綴檢索,都只能遍歷所有文件進(jìn)行篩選,功能上不能滿足多樣化的檢索需求,檢索字段有限,檢索方式單一;還有性能上也影響了底層元數(shù)據(jù)管理服務(wù)的檢索能力和檢索效率。
浪潮分布式存儲基于對元數(shù)據(jù)檢索的研究,在分布式存儲平臺AS13000上進(jìn)行技術(shù)創(chuàng)新,在對象、文件、大數(shù)據(jù)三大非結(jié)構(gòu)化存儲場景,研發(fā)了元數(shù)據(jù)檢索功能,支持對文件名稱、路徑、類型、大小、自定義元數(shù)據(jù)、創(chuàng)建時間、修改時間、用戶(組)、桶等關(guān)鍵字段進(jìn)行檢索,以及支持基礎(chǔ)檢索和邏輯關(guān)系自定義等高級檢索功能。百億級文件,可以進(jìn)行亞分鐘級檢索。
浪潮分布式存儲:元數(shù)據(jù)檢索的四大優(yōu)勢
浪潮分布式存儲AS13000元數(shù)據(jù)檢索能夠同時兼容對象、文件、大數(shù)據(jù)三大非結(jié)構(gòu)化存儲場景,引入Elasticsearch作為元數(shù)據(jù)檢索引擎,支持NFS、CIFS、S3、Swift、HDFS協(xié)議。
Elasticsearch是一個可擴(kuò)展的RESTful風(fēng)格的分布式數(shù)據(jù)檢索和分析引擎,它能夠快速且近實時地存儲、檢索、分析海量數(shù)據(jù),通常用作具有復(fù)雜檢索應(yīng)用的底層引擎。
分布式存儲+Elasticsearch,即為浪潮分布式非結(jié)構(gòu)化存儲AS13000元數(shù)據(jù)檢索的核心。
文件的元數(shù)據(jù)信息會同步至Elasticsearch引擎中,基于此,企業(yè)的元數(shù)據(jù)檢索命令通過協(xié)議轉(zhuǎn)換,在Elasticsearch中檢索出符合要求的文件信息。
比如,浪潮分布式存儲具有更全面的協(xié)議支撐。浪潮分布式存儲AS13000能夠同時支持NFS、CIFS、S3、Swift、HDFS協(xié)議進(jìn)行檢索;同時支持企業(yè)自己的RESTful風(fēng)格訪問程序進(jìn)行自定義元數(shù)據(jù)信息檢索;
又如,具備更靈活便捷的檢索方式。基于上述的結(jié)構(gòu),浪潮分布式存儲AS13000實現(xiàn)了更為豐富的檢索手段和快捷的檢索速度,對數(shù)據(jù)存儲本身的讀寫影響更小。浪潮存儲支持的檢索內(nèi)容包括兩個方面,其一,豐富的檢索字段,包括文件名稱、路徑、類型、大小、創(chuàng)建時間、最后修改時間、用戶名、用戶組名、桶名,以及用戶自定義的元數(shù)據(jù)信息,都可以作為檢索字段。其二,多樣的檢索邏輯,支持大于、大于等于、小于、小于等于、不等于、等于等算術(shù)比較運(yùn)算符,邏輯支持"并且"、"或者"等邏輯運(yùn)算符。企業(yè)可以根據(jù)需求在檢索界面上進(jìn)行檢索式的組裝,且檢索結(jié)果支持分頁展示。
再如,更安全的元數(shù)據(jù)保護(hù)。為了保護(hù)企業(yè)的元數(shù)據(jù)信息,避免非法的RESTful請求惡意獲取Elasticsearch中的元數(shù)據(jù)信息,浪潮分布式存儲AS13000同時針對Elasticsearch進(jìn)行了安全限制,針對Elasticsearch提供數(shù)據(jù)流加密,同時基于角色進(jìn)行訪問安全校驗,保障元數(shù)據(jù)信息的網(wǎng)絡(luò)安全。
最后,更便捷的對接方式。浪潮分布式存儲AS13000不僅能夠提供元數(shù)據(jù)檢索服務(wù),同時能夠輕松對接企業(yè)的Elasticsearch引擎。如果企業(yè)原本就有元數(shù)據(jù)檢索引擎,則可以直接部署浪潮分布式存儲,對接企業(yè)的Elasticsearch,不需要企業(yè)更改原本的檢索手段,實現(xiàn)無縫切換。
具備元數(shù)據(jù)檢索功能的浪潮分布式存儲AS13000,已經(jīng)在金融、通信、教科研、醫(yī)療等行業(yè)規(guī)模部署,為企業(yè)提供更簡單、更豐富、更便捷的元數(shù)據(jù)檢索方式,讓企業(yè)輕松應(yīng)對數(shù)字經(jīng)濟(jì)時代的海量數(shù)據(jù)挑戰(zhàn)。