?
在自然語(yǔ)言處理領(lǐng)域,處理海量的文本文件最關(guān)鍵的是要把用戶最關(guān)心的問(wèn)題提取出來(lái)。而無(wú)論是對(duì)于長(zhǎng)文本還是短文本,往往可以通過(guò)幾個(gè)關(guān)鍵詞窺探整個(gè)文本的主題思想。與此同時(shí),不管是基于文本的推薦還是基于文本的搜索,對(duì)于文本關(guān)鍵詞的依賴也很大,關(guān)鍵詞提取的準(zhǔn)確程度直接關(guān)系到推薦系統(tǒng)或者搜索系統(tǒng)的最終效果。因此,關(guān)鍵詞提取在文本挖掘領(lǐng)域是一個(gè)很重要的部分。
?
關(guān)于文本的關(guān)鍵詞提取方法分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三種:
它是建關(guān)鍵詞抽取算法看作是二分類問(wèn)題,判斷文檔中的詞或者短語(yǔ)是或者不是關(guān)鍵詞。既然是分類問(wèn)題,就需要提供已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料,利用訓(xùn)練語(yǔ)料訓(xùn)練關(guān)鍵詞提取模型,根據(jù)模型對(duì)需要抽取關(guān)鍵詞的文檔進(jìn)行關(guān)鍵詞抽取
只需要少量的訓(xùn)練數(shù)據(jù),利用這些訓(xùn)練數(shù)據(jù)構(gòu)建關(guān)鍵詞抽取模型,然后使用模型對(duì)新的文本進(jìn)行關(guān)鍵詞提取,對(duì)于這些關(guān)鍵詞進(jìn)行人工過(guò)濾,將過(guò)濾得到的關(guān)鍵詞加入訓(xùn)練集,重新訓(xùn)練模型。
有監(jiān)督的文本關(guān)鍵詞提取算法需要高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取主要采用適用性較強(qiáng)的無(wú)監(jiān)督關(guān)鍵詞抽取。其文本關(guān)鍵詞抽取流程如下:
圖 1 無(wú)監(jiān)督文本關(guān)鍵詞抽取流程圖
?
無(wú)監(jiān)督關(guān)鍵詞抽取算法可以分為三大類,基于統(tǒng)計(jì)特征的關(guān)鍵詞抽取、基于詞圖模型的關(guān)鍵詞抽取和基于主題模型的關(guān)鍵詞抽取。
?
文本關(guān)鍵詞提取算法
基于于統(tǒng)計(jì)特征的關(guān)鍵詞抽取算法的思想是利用文檔中詞語(yǔ)的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞。通常將文本經(jīng)過(guò)預(yù)處理得到候選詞語(yǔ)的集合,然后采用特征值量化的方式從候選集合中得到關(guān)鍵詞?;诮y(tǒng)計(jì)特征的關(guān)鍵詞抽取方法的關(guān)鍵是采用什么樣的特征值量化指標(biāo)的方式,目前常用的有三類:
?
基于詞權(quán)重的特征量化
基于詞權(quán)重的特征量化主要包括詞性、詞頻、逆向文檔頻率、相對(duì)詞頻、詞長(zhǎng)等。
?
基于詞的文檔位置的特征量化
這種特征量化方式是根據(jù)文章不同位置的句子對(duì)文檔的重要性不同的假設(shè)來(lái)進(jìn)行的。通常,文章的前N個(gè)詞、后N個(gè)詞、段首、段尾、標(biāo)題、引言等位置的詞具有代表性,這些詞作為關(guān)鍵詞可以表達(dá)整個(gè)的主題。
?
基于詞的關(guān)聯(lián)信息的特征量化
詞的關(guān)聯(lián)信息是指詞與詞、詞與文檔的關(guān)聯(lián)程度信息,包括互信息、hits值、貢獻(xiàn)度、依存度、TF-IDF值等。
?
下面介紹幾種常用的特征值量化指標(biāo)。
?
詞性:詞性時(shí)通過(guò)分詞、語(yǔ)法分析后得到的結(jié)果?,F(xiàn)有的關(guān)鍵詞中,絕大多數(shù)關(guān)鍵詞為名詞或者動(dòng)名詞。一般情況下,名詞與其他詞性相比更能表達(dá)一篇文章的主要思想。但是,詞性作為特征量化的指標(biāo),一般與其他指標(biāo)結(jié)合使用。
?
詞頻:詞頻表示一個(gè)詞在文本中出現(xiàn)的頻率。一般我們認(rèn)為,如果一個(gè)詞在文本中出現(xiàn)的越是頻繁,那么這個(gè)詞就越有可能作為文章的核心詞。詞頻簡(jiǎn)單地統(tǒng)計(jì)了詞在文本中出現(xiàn)的次數(shù),但是,只依靠詞頻所得到的關(guān)鍵詞有很大的不確定性,對(duì)于長(zhǎng)度比較長(zhǎng)的文本,這個(gè)方法會(huì)有很大的噪音。
位置信息:一般情況下,詞出現(xiàn)的位置對(duì)于詞來(lái)說(shuō)有著很大的價(jià)值。例如,標(biāo)題、摘要本身就是作者概括出的文章的中心思想,因此出現(xiàn)在這些地方的詞具有一定的代表性,更可能成為關(guān)鍵詞。但是,因?yàn)槊總€(gè)作者的習(xí)慣不同,寫作方式不同,關(guān)鍵句子的位置也會(huì)有所不同,所以這也是一種很寬泛的得到關(guān)鍵詞的方法,一般情況下不會(huì)單獨(dú)使用。
互信息:互信息是信息論中概念,是變量之間相互依賴的度量?;バ畔⒉⒉痪窒抻趯?shí)值隨機(jī)變量,它更加一般且決定著聯(lián)合分布 p(X,Y) 和分解的邊緣分布的乘積 p(X)p(Y) 的相似程度。互信息的計(jì)算公式如下:
?
其中,p(x,y)是X和Y的聯(lián)合概率分布函數(shù),p(x)和p(y)分別為X和Y的邊緣概率分布函數(shù)。
當(dāng)使用互信息作為關(guān)鍵詞提取的特征量化時(shí),應(yīng)用文本的正文和標(biāo)題構(gòu)造PAT樹(shù),然后計(jì)算字符串左右的互信息。
詞跨度:詞跨度是指一個(gè)詞或者短語(yǔ)字文中首次出現(xiàn)和末次出現(xiàn)之間的距離,詞跨度越大說(shuō)明這個(gè)詞對(duì)文本越重要,可以反映文本的主題。一個(gè)詞的跨度計(jì)算公式如下:
其中,表示詞i在文本中最后出現(xiàn)的位置,?
表示詞 i 在文本中第一次出現(xiàn)的位置,sum表示文本中詞的總數(shù)。
?
詞跨度被作為提取關(guān)鍵詞的方法是因?yàn)樵诂F(xiàn)實(shí)中,文本中總是有很多噪聲(指不是關(guān)鍵詞的那些詞),使用詞跨度可以減少這些噪聲。
TF-IDF值:一個(gè)詞的TF是指這個(gè)詞在文檔中出現(xiàn)的頻率,假設(shè)一個(gè)詞w在文本中出現(xiàn)了m次,而文本中詞的總數(shù)為n,那么。一個(gè)詞的IDF是根據(jù)語(yǔ)料庫(kù)得出的,表示這個(gè)詞在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率。假設(shè)整個(gè)語(yǔ)料庫(kù)中,包含詞w的文本一共有M篇,語(yǔ)料庫(kù)中的文本一共有N篇,則
?
由此可得詞w的TF-IDF值為:
?
TF-IDF的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,相對(duì)容易理解。但是,TFIDF算法提取關(guān)鍵詞的缺點(diǎn)也很明顯,嚴(yán)重依賴語(yǔ)料庫(kù),需要選取質(zhì)量較高且和所處理文本相符的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。另外,對(duì)于IDF來(lái)說(shuō),它本身是一種試圖抑制噪聲的加權(quán),本身傾向于文本中頻率小的詞,這使得TF-IDF算法的精度不高。TF-IDF算法還有一個(gè)缺點(diǎn)就是不能反應(yīng)詞的位置信息,在對(duì)關(guān)鍵詞進(jìn)行提取的時(shí)候,詞的位置信息,例如文本的標(biāo)題、文本的首句和尾句等含有較重要的信息,應(yīng)該賦予較高的權(quán)重。
?
基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法通過(guò)上面的一些特征量化指標(biāo)將關(guān)鍵詞進(jìn)行排序,獲取TopK個(gè)詞作為關(guān)鍵詞。
?
基于統(tǒng)計(jì)特征的關(guān)鍵詞的重點(diǎn)在于特征量化指標(biāo)的計(jì)算,不同的量化指標(biāo)得到的結(jié)果也不盡相同。同時(shí),不同的量化指標(biāo)作為也有其各自的優(yōu)缺點(diǎn),在實(shí)際應(yīng)用中,通常是采用不同的量化指標(biāo)相結(jié)合的方式得到Topk個(gè)詞作為關(guān)鍵詞。
?
文本關(guān)鍵詞提取算法
基于詞圖模型的關(guān)鍵詞抽取首先要構(gòu)建文檔的語(yǔ)言網(wǎng)絡(luò)圖,然后對(duì)語(yǔ)言進(jìn)行網(wǎng)絡(luò)圖分析,在這個(gè)圖上尋找具有重要作用的詞或者短語(yǔ),這些短語(yǔ)就是文檔的關(guān)鍵詞。語(yǔ)言網(wǎng)絡(luò)圖中節(jié)點(diǎn)基本上都是詞,根據(jù)詞的鏈接方式不同,語(yǔ)言網(wǎng)絡(luò)的主要形式分為四種:共現(xiàn)網(wǎng)絡(luò)圖、語(yǔ)法網(wǎng)絡(luò)圖、語(yǔ)義網(wǎng)絡(luò)圖和其他網(wǎng)絡(luò)圖。
?
在語(yǔ)言網(wǎng)絡(luò)圖的構(gòu)建過(guò)程中,都是以預(yù)處理過(guò)后的詞作為節(jié)點(diǎn),詞與詞之間的關(guān)系作為邊。語(yǔ)言網(wǎng)絡(luò)圖中,邊與邊之間的權(quán)重一般用詞之間的關(guān)聯(lián)度來(lái)表示。在使用語(yǔ)言網(wǎng)絡(luò)圖獲得關(guān)鍵詞的時(shí)候,需要評(píng)估各個(gè)節(jié)點(diǎn)的重要性,然后根據(jù)重要性將節(jié)點(diǎn)進(jìn)行排序,選取TopK個(gè)節(jié)點(diǎn)所代表的詞作為關(guān)鍵詞。節(jié)點(diǎn)的重要性計(jì)算方法有以下幾種方法。
?
1
綜合特征法
綜合特征法也叫社會(huì)網(wǎng)絡(luò)中心性分析方法,這種方法的核心思想是節(jié)點(diǎn)中重要性等于節(jié)點(diǎn)的顯著性,以不破壞網(wǎng)絡(luò)的整體性為基礎(chǔ)。此方法就是從網(wǎng)絡(luò)的局部屬性和全局屬性角度去定量分析網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)湫再|(zhì),常用的定量計(jì)算方法如下。
度:節(jié)點(diǎn)的度是指與該節(jié)點(diǎn)直接向量的節(jié)點(diǎn)數(shù)目,表示的是節(jié)點(diǎn)的局部影響力,對(duì)于非加權(quán)網(wǎng)絡(luò),節(jié)點(diǎn)的度為:對(duì)于加權(quán)網(wǎng)絡(luò),節(jié)點(diǎn)的度又稱為節(jié)點(diǎn)的強(qiáng)度,計(jì)算公式為:
接近性:節(jié)點(diǎn)的接近性是指節(jié)點(diǎn)到其他節(jié)點(diǎn)的最短路徑之和的倒數(shù),表示的是信息傳播的緊密程度,其計(jì)算公式為:
特征向量:特征向量的思想是節(jié)點(diǎn)的中心化測(cè)試值由周圍所有連接的節(jié)點(diǎn)決定,即一個(gè)節(jié)點(diǎn)的中心化指標(biāo)應(yīng)該等于其相鄰節(jié)點(diǎn)的中心化指標(biāo)之線性疊加,表示的是通過(guò)與具有高度值的相鄰節(jié)點(diǎn)所獲得的間接影響力。特征向量的計(jì)算公式如下:
集聚系數(shù):節(jié)點(diǎn)的集聚系數(shù)是它的相鄰的節(jié)點(diǎn)之間的連接數(shù)與他們所有可能存在來(lái)鏈接的數(shù)量的比值,用來(lái)描述圖的頂點(diǎn)之間階級(jí)成團(tuán)的程度的系數(shù),計(jì)算公式如下:
平均最短路徑:節(jié)點(diǎn)的平局最短路徑也叫緊密中心性,是節(jié)點(diǎn)的所有最短路徑之和的平均值,表示的是一個(gè)節(jié)點(diǎn)傳播信息時(shí)對(duì)其他節(jié)點(diǎn)的依賴程度。如果一個(gè)節(jié)點(diǎn)離其他節(jié)點(diǎn)越近,那么他傳播信息的時(shí)候也就越不需要依賴其他人。一個(gè)節(jié)點(diǎn)到網(wǎng)絡(luò)中各點(diǎn)的距離都很短,那么這個(gè)點(diǎn)就不會(huì)受制于其他節(jié)點(diǎn)。計(jì)算公式如下:
因?yàn)槊總€(gè)算法的側(cè)重方向的不同,在實(shí)際的問(wèn)題中所選取的定量分析方法也會(huì)不一樣。同時(shí),對(duì)于關(guān)鍵詞提取來(lái)說(shuō),也可以和上一節(jié)所提出的統(tǒng)計(jì)法得到的詞的權(quán)重,例如詞性等相結(jié)合構(gòu)建詞搭配網(wǎng)絡(luò),然后利用上述方法得到關(guān)鍵詞。
?
系統(tǒng)科學(xué)法
?
系統(tǒng)科學(xué)法進(jìn)行中心性分析的思想是節(jié)點(diǎn)重要性等于這個(gè)節(jié)點(diǎn)被刪除后對(duì)于整個(gè)語(yǔ)言網(wǎng)絡(luò)圖的破壞程度。重要的節(jié)點(diǎn)被刪除后會(huì)對(duì)網(wǎng)絡(luò)的呃連通性等產(chǎn)生變化。如果我們?cè)诰W(wǎng)絡(luò)圖中刪除某一個(gè)節(jié)點(diǎn),圖的某些指定特性產(chǎn)生了改變,可以根據(jù)特性改變的大小獲得節(jié)點(diǎn)的重要性,從而對(duì)節(jié)點(diǎn)進(jìn)行篩選。
隨機(jī)游走法
?
隨機(jī)游走算法時(shí)網(wǎng)絡(luò)圖中一個(gè)非常著名的算法,它從給定圖和出發(fā)點(diǎn),隨機(jī)地選擇鄰居節(jié)點(diǎn)移動(dòng)到鄰居節(jié)點(diǎn)上,然后再把現(xiàn)在的節(jié)點(diǎn)作為出發(fā)點(diǎn),迭代上述過(guò)程。
?
隨機(jī)游走算法一個(gè)很出名的應(yīng)用是大名鼎鼎的PageRank算法,PageRank算法是整個(gè)google搜索的核心算法,是一種通過(guò)網(wǎng)頁(yè)之間的超鏈接來(lái)計(jì)算網(wǎng)頁(yè)重要性的技術(shù),其關(guān)鍵的思想是重要性傳遞。在關(guān)鍵詞提取領(lǐng)域, Mihalcea 等人所提出的TextRank算法就是在文本關(guān)鍵詞提取領(lǐng)域借鑒了這種思想。
?
PageRank算法將整個(gè)互聯(lián)網(wǎng)看作一張有向圖,網(wǎng)頁(yè)是圖中的節(jié)點(diǎn),而網(wǎng)頁(yè)之間的鏈接就是圖中的邊。根據(jù)重要性傳遞的思想,如果一個(gè)大型網(wǎng)站A含有一個(gè)超鏈接指向了網(wǎng)頁(yè)B,那么網(wǎng)頁(yè)B的重要性排名會(huì)根據(jù)A的重要性來(lái)提升。網(wǎng)頁(yè)重要性的傳遞思想如下圖所示:
圖 2 PageRank簡(jiǎn)單描述(來(lái)自PageRank論文)
?
在PageRank算法中,最主要的是對(duì)于初始網(wǎng)頁(yè)重要性(PR值)的計(jì)算,因?yàn)閷?duì)于上圖中的網(wǎng)頁(yè)A的重要性我們是無(wú)法預(yù)知的。但是,在原始論文中給出了一種迭代方法求出這個(gè)重要性,論文中指出,冪法求矩陣特征值與矩陣的初始值無(wú)關(guān)。那么,就可以為每個(gè)網(wǎng)頁(yè)隨機(jī)給一個(gè)初始值,然后迭代得到收斂值,并且收斂值與初始值無(wú)關(guān)。
PageRank求網(wǎng)頁(yè)i的PR值計(jì)算如下:
?
其中,d為阻尼系數(shù),通常為0.85。是指向網(wǎng)頁(yè) i 的網(wǎng)頁(yè)集合。
是指網(wǎng)頁(yè)j中的鏈接指向的集合,
是指集合中元素的個(gè)數(shù)。
?
TextRank在構(gòu)建圖的時(shí)候?qū)⒐?jié)點(diǎn)由網(wǎng)頁(yè)改成了句子,并為節(jié)點(diǎn)之間的邊引入了權(quán)值,其中權(quán)值表示兩個(gè)句子的相似程度。其計(jì)算公式如下:
公式中的為圖中節(jié)點(diǎn)
和的邊
的權(quán)重。其他符號(hào)與PageRank公式相同。
?
TextRank算法除了做文本關(guān)鍵詞提取,還可以做文本摘要提取,效果不錯(cuò)。但是TextRank的計(jì)算復(fù)雜度很高,應(yīng)用不廣。
?
文本關(guān)鍵詞提取算法
基于主題關(guān)鍵詞提取算法主要利用的是主題模型中關(guān)于主題的分布的性質(zhì)進(jìn)行關(guān)鍵詞提取。算法步驟如下:
算法的關(guān)鍵在于主題模型的構(gòu)建。主題模型是一種文檔生成模型,對(duì)于一篇文章,我們的構(gòu)思思路是先確定幾個(gè)主題,然后根據(jù)主題想好描述主題的詞匯,將詞匯按照語(yǔ)法規(guī)則組成句子,段落,最后生成一篇文章。
?
主題模型也是基于這個(gè)思想,它認(rèn)為文檔是一些主題的混合分布,主題又是詞語(yǔ)的概率分布,pLSA模型就是第一個(gè)根據(jù)這個(gè)想法構(gòu)建的模型。同樣地,我們反過(guò)來(lái)想,我們找到了文檔的主題,然后主題中有代表性的詞就能表示這篇文檔的核心意思,就是文檔的關(guān)鍵詞。
?
pLSA模型認(rèn)為,一篇文檔中的每一個(gè)詞都是通過(guò)一定概率選取某個(gè)主題,然后再按照一定的概率從主題中選取得到這個(gè)詞語(yǔ),這個(gè)詞語(yǔ)的計(jì)算公式為:
?
?
一些貝葉斯學(xué)派的研究者對(duì)于pLSA模型進(jìn)行了改進(jìn),他們認(rèn)為,文章對(duì)應(yīng)主題的概率以及主題對(duì)應(yīng)詞語(yǔ)的概率不是一定的,也服從一定的概率,于是就有了現(xiàn)階段常用的主題模型–LDA主題模型。
?
LDA是D.M.Blei在2003年提出的。LDA采用了詞袋模型的方法簡(jiǎn)化了問(wèn)題的復(fù)雜性。在LDA模型中,每一篇文檔是一些主題的構(gòu)成的概率分布,而每一個(gè)主題又是很多單詞構(gòu)成的一個(gè)概率分布。同時(shí),無(wú)論是主題構(gòu)成的概率分布還是單詞構(gòu)成的概率分布也不是一定的,這些分布也服從Dirichlet 先驗(yàn)分布。
?
文檔的生成模型可以用如下圖模型表示:
其中和
為先驗(yàn)分布的超參數(shù),
為第k個(gè)主題下的所有單詞的分布,
為文檔的主題分布,w為文檔的詞,z為w所對(duì)應(yīng)的主題。
?
圖 3 Blei在論文中的圖模型
?
DA挖掘了文本的深層語(yǔ)義即文本的主題,用文本的主題來(lái)表示文本的也從一定程度上降低了文本向量的維度,很多人用這種方式對(duì)文本做分類,取得了不錯(cuò)的效果。具體LDA的算法在請(qǐng)參考《一文詳解LDA主題模型》。
?
LDA關(guān)鍵詞提取算法利用文檔的隱含語(yǔ)義信息來(lái)提取關(guān)鍵詞,但是主題模型提取的關(guān)鍵詞比較寬泛,不能很好的反應(yīng)文檔主題。另外,對(duì)于LDA模型的時(shí)間復(fù)雜度較高,需要大量的實(shí)踐訓(xùn)練。
文本關(guān)鍵詞提取算法
現(xiàn)階段,文本的關(guān)鍵詞提取在基于文本的搜索、推薦以及數(shù)據(jù)挖掘領(lǐng)域有著很廣泛的應(yīng)用。同時(shí)在實(shí)際應(yīng)用中,因?yàn)閼?yīng)用環(huán)境的復(fù)雜性,對(duì)于不同類型的文本,例如長(zhǎng)文本和短文本,用同一種文本關(guān)鍵詞提取方法得到的效果并相同。因此,在實(shí)際應(yīng)用中針對(duì)不同的條件環(huán)境所采用的算法會(huì)有所不同,沒(méi)有某一類算法在所有的環(huán)境下都有很好的效果。
?
相對(duì)于上文中所提到的算法,一些組合算法在工程上被大量應(yīng)用以彌補(bǔ)單算法的不足,例如將TF-IDF算法與TextRank算法相結(jié)合,或者綜合TF-IDF與詞性得到關(guān)鍵詞等。同時(shí),工程上對(duì)于文本的預(yù)處理以及文本分詞的準(zhǔn)確性也有很大的依賴。對(duì)于文本的錯(cuò)別字,變形詞等信息,需要在預(yù)處理階段予以解決,分詞算法的選擇,未登錄詞以及歧義詞的識(shí)別在一定程度上對(duì)于關(guān)鍵詞突提取會(huì)又很大的影響。
?
關(guān)鍵詞提取是一個(gè)看似簡(jiǎn)單,在實(shí)際應(yīng)用中卻十分棘手的任務(wù),從現(xiàn)有的算法的基礎(chǔ)上進(jìn)行工程優(yōu)化,達(dá)觀數(shù)據(jù)在這方面做了很大的努力并且取得了不錯(cuò)的效果。
文本關(guān)鍵詞提取算法
本文介紹了三種常用的無(wú)監(jiān)督的關(guān)鍵詞提取算法,并介紹了其優(yōu)缺點(diǎn)。關(guān)鍵詞提取在文本挖掘領(lǐng)域具有很廣闊的應(yīng)用,現(xiàn)有的方法也存在一定的問(wèn)題,我們依然會(huì)在關(guān)鍵詞提取的問(wèn)題上繼續(xù)努力研究,也歡迎大家積極交流。
參考文獻(xiàn)
?
[2] Page L, Brin S, Motwani R,et al. The PageRank citation ranking: Bringing order to the web[R]. StanfordInfoLab, 1999.
?
[3] 劉知遠(yuǎn). 基于文檔主題結(jié)構(gòu)的關(guān)鍵詞抽取方法研究[D]. 北京: 清華大學(xué), 2011.
?
[4] tf-idf,https://zh.wikipedia.org/zh-hans/Tf-idf
?
[5] 一文詳解機(jī)器領(lǐng)域的LDA主題模型?https://zhuanlan.zhihu.com/p/31470216
?
[6] Blei D M, Ng A Y, Jordan MI. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003,3(Jan): 993-1022.
?
[7] 趙京勝, 朱巧明, 周國(guó)棟, 等. 自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 軟件學(xué)報(bào), 2017,28(9): 2431-2449.