達觀企業(yè)級搜索引擎功能詳解,實現(xiàn)對企業(yè)內各形態(tài)信息全方位、高效率統(tǒng)一檢索
- 分類:產品介紹
- 發(fā)表:2021-10-19
達觀數(shù)據(jù)企業(yè)級搜索引擎,主要針對通信、能源、制造業(yè)等行業(yè),解決企業(yè)內信息檢索的問題。通過對散落在各系統(tǒng)中的數(shù)據(jù)、內容進行統(tǒng)一管理和高效利用,實現(xiàn)對企業(yè)內的數(shù)據(jù)、文檔、人物、圖片、表格等各形態(tài)信息進行全方位、高效率的統(tǒng)一檢索。達觀數(shù)據(jù)企業(yè)級搜索引擎的核心功能包括:多源異構數(shù)據(jù)接入,數(shù)據(jù)解析,索引創(chuàng)建配置,搜索意圖識別,搜索召回與排序等功能。
要實現(xiàn)對企業(yè)內數(shù)據(jù)的統(tǒng)一搜索,首先需具備企業(yè)內多源異構數(shù)據(jù)的接入能力。達觀企業(yè)級搜索引擎支持兩種方式接入數(shù)據(jù):數(shù)據(jù)上報和數(shù)據(jù)拉取。
圖1?通過數(shù)據(jù)上報方式接入數(shù)據(jù)
圖2?通過數(shù)據(jù)庫連接的方式拉取數(shù)據(jù)
數(shù)據(jù)解析包括各類文檔解析器、PDF解析器、OCR引擎等對接入的數(shù)據(jù)如各類文檔、圖片、表格進行解析,形成各個待檢索字段。
三、自定義創(chuàng)建配置索引,高效適配多場景搜索需求
索引創(chuàng)建配置用于自定義構建索引。比如企業(yè)內的一篇知識文檔,往往包括標題、正文等內容字段,以及作者、時間、類型等元數(shù)據(jù)字段。用戶在搜索時,哪些字段可被搜索、哪些字段可以做篩選、哪些字段在搜索命中時需要高亮,這些自定義設置功能可以通過達觀企業(yè)級搜索引擎的索引配置頁面來實現(xiàn)。
搜索意圖識別是利用自然語言處理技術,分析用戶的搜索Query,理解用戶真正的搜索意圖。比如用戶搜索“最新的產品說明書”,“最新”一詞,用戶真實的搜索意圖是找最近更新的產品說明書,而不是內容中包含“最新”一詞。所以除了搜到產品說明書外,用戶還希望按照產品說明書的更新時間/發(fā)布時間進行排序。
搜索引擎是從海量信息中快速查詢用戶需要的內容,這個過程要求“搜的準”,“搜的全”,“搜的快”。所以會分為召回和排序兩個階段。召回是預篩選,排序是對預篩選的結果,按照用戶需要的程度進一步排序。比如即將到來的2022年足球世界杯,全世界球迷都希望找到冠軍球隊。召回相當于世界杯的預選賽,各大洲篩選出有實力的球隊,排除魚腩隊伍,形成32強;排序相當于世界杯的正賽,32支球隊角逐最終冠軍。為什么不讓全球所有有參賽資格的球隊直接踢正賽呢,因為這樣會導致賽事周期拉長,即搜的不快。達觀企業(yè)搜索引擎在召回階段,設計了索引配置功能(見圖3),用戶可以自定義設置哪些字段可以被搜索,以及這些字段如果被搜索命中以后將獲得多少積分,積分多的會進入召回名單。通過這個功能就可以滿足各種場景的需求,比如針對一些標題概括性比較強的文檔,可以設置標題字段的命中積分高于正文字段;而針對標題黨這類內容,就可以設置正文字段的命中積分高于標題,或者干脆設置標題不參與搜索。達觀企業(yè)搜索引擎在召回結果的排序階段,設計了多種排序邏輯,包括按結果與用戶搜索意圖的相關性排序,按搜索結果本身的權威性或質量進行排序,按用戶搜索行為/用戶職責崗位排序等。
相較于傳統(tǒng)檢索技術,達觀數(shù)據(jù)企業(yè)級搜索引擎具備以下優(yōu)勢:
運用自然語言理解、OCR、知識圖譜等技術對數(shù)據(jù)進行深入的加工處理,實現(xiàn)更深入的內容理解含義。
支持對文檔、圖片、表格、網頁等多種格式的搜索,支持語義搜索、結構化查詢、圖譜問答等多種方式的查詢。
智能展現(xiàn)-更全面的內容呈現(xiàn)
支持人物卡片、數(shù)據(jù)圖表、知識圖譜、系統(tǒng)表單的知識卡片,根據(jù)用戶行為數(shù)據(jù)自動提升搜索排序效果。
系統(tǒng)數(shù)據(jù)源、統(tǒng)計分析與搜索配置管理,實現(xiàn)對內容的全面管理;數(shù)據(jù)分析、配置管理與效果評估等模塊,讓系統(tǒng)的調試效果可見;容器化應用系統(tǒng)一鍵部署,自動化監(jiān)控讓服務穩(wěn)定可靠。
如您對我們的產品感興趣,請點擊下方官網申請免費試用。