近十年來,檔案管理工作由原來的紙質(zhì)檔案管理轉(zhuǎn)向了電子檔案的管理,電子檔案的產(chǎn)生對徹底改變了原有的檔案管理模式,同時對電子檔案的應(yīng)用是電子政務(wù)建設(shè)過程中避不開的重要問題。利用人工智能技術(shù)對現(xiàn)有檔案系統(tǒng)進(jìn)行升級改造,對存量檔案進(jìn)行加工,使得活化檔案內(nèi)容,更便于應(yīng)用,是新時代的檔案建設(shè)的一大要務(wù)。國家對檔案管理和應(yīng)用工作一直十分重視,多年來對檔案管理工作的智能化提出了具體的建設(shè)要求,如下表所示:
時間線 |
規(guī)劃 |
指導(dǎo)意見 |
2014 |
《關(guān)于加強(qiáng)和改進(jìn)新形勢下檔案工作的意見》 |
“各檔案館(室)要加強(qiáng)對檔案信息的分析研究、綜合加工、深度開發(fā),提供深層次、高質(zhì)量檔案信息產(chǎn)品,不斷挖掘檔案的價值,努力把“死檔案”變成“活信息”、把“檔案庫”變成“思想庫””? |
2021 |
《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》 |
“積極探索知識管理?人工智能?數(shù)字人文等技術(shù)在檔案信息深層加工和利用中的應(yīng)用?” |
另一方面,近年來智慧城市如火如荼的建設(shè),帶動了城市各種公共設(shè)施的智慧化,相繼出現(xiàn)了“智慧交通”、“智慧醫(yī)療”、“智慧法院”、“智慧圖書館”等概念和應(yīng)用?在此背景下,檔案界提出了“智慧檔案館”的設(shè)想?
智慧檔案館是智慧城市中的一個子系統(tǒng),“是適應(yīng)大數(shù)據(jù)背景下的第四代檔案館,是繼數(shù)字檔案館之后檔案信息化發(fā)展的高級形態(tài)”?智慧檔案館的目標(biāo)是實(shí)現(xiàn)跨時空的檔案信息資源共享?跨平臺的服務(wù)集成,使用戶可以一站式獲取所需要的檔案信息資源?
但是現(xiàn)有的“智慧檔案館”建設(shè)大多還停留在檔案館本身的建設(shè)、設(shè)備、管理模式的改變。對于檔案本身攜帶信息的活化、應(yīng)用服務(wù)卻沒有進(jìn)展。達(dá)觀數(shù)據(jù)認(rèn)為真正的智慧檔案館應(yīng)該是充分運(yùn)用各類技術(shù)手段,對檔案資源管理并開發(fā)?檔案館運(yùn)行等各類信息進(jìn)行感知?挖掘,經(jīng)綜合分析和提煉萃取形成智慧信息,并將其應(yīng)用于決策?管理和服務(wù)?
隨著計(jì)算機(jī)信息技術(shù)的發(fā)展,檔案數(shù)據(jù)的類型日趨多樣化,由單一的結(jié)構(gòu)化數(shù)據(jù)變得多樣化,檔案數(shù)據(jù)規(guī)模也顯著增長?相比以前的紙質(zhì)檔案,數(shù)字化檔案帶來了更豐富的信息資源,同時也對檔案信息的檢索提出了挑戰(zhàn)?
現(xiàn)階段大多數(shù)數(shù)字化檔案館采用的存儲檢索方案是使用關(guān)系型數(shù)據(jù)庫存儲檔案編號和人工著錄項(xiàng),再基于關(guān)鍵字進(jìn)行匹配檢索?這種存儲檢索方案忽略了檔案數(shù)據(jù)內(nèi)部隱含的大量信息以及檔案數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,無法完全滿足用戶日益增加的檢索需求,更無法發(fā)掘檔案數(shù)據(jù)之間隱含的關(guān)系?達(dá)觀數(shù)據(jù)所擅長的AI+知識圖譜技術(shù)改變檔案數(shù)據(jù)的存儲方式和檔案資源的使用方式,為檔案智能檢索提供一種新的思路?
2012年谷歌公司提出了知識圖譜(KonwledgeGraph),初衷是為了提高其搜索引擎的準(zhǔn)確度和用戶的搜索體驗(yàn)?本質(zhì)上,知識圖譜作為一張巨大的語義網(wǎng)絡(luò),描述了現(xiàn)實(shí)生活中存在的各種實(shí)體?概念及其關(guān)系?實(shí)體?概念使用節(jié)點(diǎn)來描述,屬性?關(guān)系使用邊來描述?現(xiàn)在各種大規(guī)模的知識庫均可歸類于知識圖譜的范疇?
圖 基于達(dá)觀數(shù)據(jù)文本智能分析的技術(shù),可以實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都可以用來構(gòu)建知識圖譜
基于近些年人工智能技術(shù)的快速發(fā)展,知識圖譜技術(shù)因其強(qiáng)大的語義處理能力和信息關(guān)聯(lián)能力,在垂直領(lǐng)域中也得到了廣泛的關(guān)注?垂直領(lǐng)域的知識圖譜和通用型知識圖譜在數(shù)據(jù)源?信息廣度?知識準(zhǔn)確率上都有很大的差異?相比之下,垂直領(lǐng)域的知識圖譜的數(shù)據(jù)量較小?數(shù)據(jù)質(zhì)量較高?知識更為集中因此構(gòu)建垂直領(lǐng)域知識圖譜通常需要針對該領(lǐng)域特定的數(shù)據(jù)源采取定制化的特征提取方案才能夠高效地從數(shù)據(jù)中抽取出數(shù)據(jù)實(shí)體?構(gòu)建檔案領(lǐng)域知識圖譜將為多源異構(gòu)的檔案數(shù)據(jù)提供關(guān)聯(lián),充分挖掘檔案之間的關(guān)聯(lián)關(guān)系,為檔案智能檢索提供了一種新的思路?
檔案本體通俗來說就是檔案領(lǐng)域內(nèi)部各個層次的詞匯?概念和它們之間相關(guān)關(guān)聯(lián)的明確界定?常用的本體構(gòu)建的方法有骨架法?Methontology法?循環(huán)獲取法?TOVE企業(yè)建模法?七步構(gòu)建法等,通過綜合比較以上幾種本體構(gòu)建方法并結(jié)合檔案領(lǐng)域特點(diǎn)后建議選用斯坦福大學(xué)醫(yī)學(xué)院(StanfordUniversitySchoolOfMedicine)發(fā)布的七步法來構(gòu)建檔案本體,具體步驟如下圖所示:
實(shí)際而言在建立檔案知識圖譜的過程中,需要根據(jù)檔案的不同類型和應(yīng)用場景來建立實(shí)體和關(guān)系,舉例來說,城建檔案側(cè)重于大量的實(shí)施方案、規(guī)劃圖紙、檢驗(yàn)單據(jù)等,人事檔案側(cè)重于身份材料、經(jīng)歷證明、獎懲信息等,不同的場景需要抽抽取的實(shí)體和關(guān)系千差萬別。因此在整個實(shí)體的建立過程中需要根據(jù)不同的場景和應(yīng)用,建立不同模式的圖譜,以保證圖譜內(nèi)容契合于業(yè)務(wù)需求。
圖?對于檢測或驗(yàn)收單據(jù)的核心要素抽取
圖 基于表格數(shù)據(jù)的核心要素抽取
圖?基于圖紙的核心要素抽取,及圖紙文本信息索引入庫
圖 各個來源抽取的要素通過知識圖譜進(jìn)行關(guān)聯(lián),同時可以對檢驗(yàn)單據(jù)和圖紙的文本內(nèi)容進(jìn)行搜素
同時,知識圖譜的應(yīng)用將不光基于文字信息實(shí)體的抽取和關(guān)系搭建,存檔的海量圖像信息也可以進(jìn)行知識圖譜化,便于群眾對檔案信息的檢索和應(yīng)用。下面的例子就是說明了怎么從圖片中抽取實(shí)體和關(guān)系來建立知識圖譜。(吳寶康教授是我國著名檔案學(xué)家、新中國檔案學(xué)和檔案教育奠基人)
圖 摘自中國電子科技集團(tuán)公司電子科學(xué)研究院論文《檔案知識圖譜構(gòu)建技術(shù)研究》論文編號:8300015-2019-S14 作者:郭雪薇
達(dá)觀數(shù)據(jù)現(xiàn)在已經(jīng)與全國多家檔案館進(jìn)行合作,深入探索人工智能技術(shù)在檔案管理應(yīng)用領(lǐng)域的發(fā)展,預(yù)計(jì)在不久的將來就會有實(shí)際的檔案數(shù)據(jù)圖譜案例落地。未來達(dá)觀數(shù)據(jù)將在檔案事業(yè)發(fā)展的“十四五”建設(shè)中發(fā)揮自己的核心技術(shù)能力。