色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來(lái)臨之際一起破浪前行

干貨分享!手把手教你構(gòu)建用于文本聚類任務(wù)的大規(guī)模、高質(zhì)量語(yǔ)料

 

看不懂
寫在前面:本文旨在開源一個(gè)構(gòu)建用于學(xué)習(xí)任務(wù)的的大規(guī)模中文語(yǔ)料(文件大小2G+,訓(xùn)練語(yǔ)料數(shù)量1000W+),基于此語(yǔ)料和對(duì)比學(xué)習(xí)模型,學(xué)習(xí)到的語(yǔ)義表示可以較好的捕捉到語(yǔ)句之間細(xì)顆粒度的主題相似度(Thematic Similarity),可應(yīng)用于下游的文本聚類、問答匹配、語(yǔ)義檢索和相同內(nèi)涵語(yǔ)句識(shí)別等場(chǎng)景。

一、什么是語(yǔ)義關(guān)聯(lián)性(Semantic Relatedness)

語(yǔ)義關(guān)聯(lián)性(Semantic Relatedness)一般有兩種情境 — 首先,概念可以是相關(guān)的,因?yàn)樗鼈冇性S多共同的特征(考慮老鼠、鼴鼠、袋鼠等),這也意味著它們屬于同一類別(Membership of Same Category)。根據(jù)不同的理論觀點(diǎn),這種類型的關(guān)聯(lián)性被稱為分類學(xué)相關(guān)性或相似性(Taxonomic Relations or Similarity)。第二,不同的概念(如鼠標(biāo)和點(diǎn)擊)被認(rèn)為可能是相關(guān)的,因?yàn)樗鼈兘?jīng)常在某種語(yǔ)境下共同出現(xiàn)( Co-occurrence )— 例如,在時(shí)間、空間或語(yǔ)言學(xué)等背景下的經(jīng)常共現(xiàn)。由此產(chǎn)生的相關(guān)性通常被稱為聯(lián)想(Association)。本文的重點(diǎn)是一種特定類型的聯(lián)想關(guān)系,即主題相關(guān)性(Thematic Relatedness)。
主題相關(guān)性是將在同一環(huán)境或語(yǔ)境中扮演不同的、通常是互補(bǔ)角色的概念聯(lián)系起來(lái)。認(rèn)知心理學(xué)有越來(lái)越多的研究表明,主題相關(guān)性對(duì)認(rèn)知過程(Cognitive Processes)至關(guān)重要,可與分類學(xué)相關(guān)(Taxonomic Relations )并駕齊驅(qū)。
對(duì)一個(gè)概念的分類學(xué)分析(Taxonomic Analysis)關(guān)注的是概念的固有特征,而主題視角(Thematic Perspective)則是處理統(tǒng)一事件中概念之間的外部關(guān)系。概念之間的分類學(xué)關(guān)系是基于對(duì)概念特征的比較;屬于一個(gè)共同的分類學(xué)類別的概念具有共同的屬性或功能,因此傾向于具有物理相似性。相比之下,主題相關(guān)是在一個(gè)共同的事件或主題中發(fā)揮互補(bǔ)作用的概念之間形成的,這往往意味著這些具有不同(盡管是互補(bǔ)的)特征和功能。?
為此,我們需要厘清如下四個(gè)概念:
  • 語(yǔ)義關(guān)聯(lián)性(Semantic Relatedness)?
最廣泛的類別,包括兩個(gè)概念之間的任何類型的語(yǔ)義關(guān)系。
  • 分類學(xué)相關(guān)(Taxonomic Relations)?
關(guān)聯(lián)性的一個(gè)子集,被定義為屬于同一分類學(xué)類別,這涉及到具有共同的特征和功能。在許多文獻(xiàn)中,這種類型的關(guān)聯(lián)性經(jīng)常被稱為相似性。
  • 非分類學(xué)相關(guān)(Non-Taxonomic Relations)?
某些概念在某些語(yǔ)境下的因頻繁的共現(xiàn)(co-occurrence )關(guān)系而存在/產(chǎn)生的關(guān)聯(lián)性。
  • 主題相關(guān)(Thematic Relations)?
非分類學(xué)相關(guān)的一個(gè)子集,被定義為在事件或場(chǎng)景中的共現(xiàn)關(guān)系,這種關(guān)聯(lián)下的詞匯之間存在著互補(bǔ)關(guān)系。如“家具”這一主題下,“椅子”和“布置”,前者是物體,名詞,后者是動(dòng)作,是動(dòng)詞;前者是后者的動(dòng)作被施加者,二者在語(yǔ)法層面和語(yǔ)義層面是互補(bǔ)搭配的關(guān)系,聯(lián)合在一起則呈現(xiàn)較為完整的語(yǔ)義信息。
看不懂1
講了這么語(yǔ)義關(guān)聯(lián)性的話題,那它到底跟我們的NLP任務(wù)有何聯(lián)系呢?
  • 文本分類?–?根據(jù)定義,文本分類是基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)技術(shù),按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類打標(biāo)簽。它跟我們上面提到的分類學(xué)相關(guān)(Taxonomic Relations)直接相關(guān)。
  • 文本聚類?–?文本聚類主要是基于無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法,在不事先規(guī)定聚類數(shù)的情況下,?依據(jù)著名的聚類假設(shè):同類的文檔相似度較大,而不同類的文檔相似度較小。它跟我們上面提到的主題相關(guān)(Thematic Relations)聯(lián)系密切。
本文筆者主要關(guān)注的是文本聚類問題,筆者接下來(lái)將提到的、用于訓(xùn)練文本聚類高質(zhì)量表示模型的wiki triplet三元組語(yǔ)料也是為該任務(wù)服務(wù)。

二、基于主題相似的文本聚類

(???Text Clustering Based Thematic Relations)

文本聚類是一個(gè)被廣泛研究的NLP問題,它有許多應(yīng)用,包括協(xié)作過濾(collaborative fifiltering)、文檔組織(document organization )和索引(indexing)。根據(jù)聚類目標(biāo)的不同,文本聚類可以應(yīng)用于不同層次、粒度的文本,即從詞匯、語(yǔ)句、篇章再到完整的文檔都可以作為文本聚類的輸入。?
在本文中,筆者關(guān)注的是基于主題相似性( thematic similarity)的語(yǔ)句聚類問題,目的是將討論同一主題的句子組合在一起,而不是將具有同一內(nèi)涵的語(yǔ)句聚合在一起的聚類任務(wù)。?舉例說(shuō)明一下:
基于相似內(nèi)涵的語(yǔ)句聚類:
?
  • 越南發(fā)現(xiàn)新冠變異病毒混合體,易于空氣傳播

  • 越南衛(wèi)生部29號(hào)宣布,發(fā)現(xiàn)了一種可以通過空氣迅速傳播的新冠變異毒株,這一變種病毒具有最早在印度發(fā)現(xiàn)的毒株和最早在英國(guó)發(fā)現(xiàn)的兩個(gè)變種病毒的雙重特征。
  • 越南此次發(fā)現(xiàn)的毒株更具傳染性,并且很容易通過空氣傳播。
上面的語(yǔ)句講的都是一件事,語(yǔ)義顆粒度較細(xì),即新冠變異毒株在越南的傳播。
基于主題相似性語(yǔ)句聚類:
  • 第1集主要內(nèi)容:1915年5月9日,袁世凱下令,同意與日本簽訂喪權(quán)辱國(guó)的二十一條。根據(jù)這個(gè)條約,中國(guó)承認(rèn)日本繼承德國(guó)在山東的一切權(quán)益,日本在中國(guó)南滿和蒙古東部享有特殊權(quán)利,日本獲得在中國(guó)多條鐵路建筑權(quán)等等。北洋政府的賣國(guó)行徑遭到全國(guó)民眾的強(qiáng)烈反對(duì),全國(guó)各大城市都舉行了聲勢(shì)浩大的示威游行。流亡海外的孫中山、黃興等人呼吁革命者回國(guó)倒袁。
  • 第2集主要內(nèi)容:陳獨(dú)秀歸國(guó),汪孟鄒、陳子壽等人為其接風(fēng)洗塵。在飯桌上,眾人探討當(dāng)下局勢(shì),陳獨(dú)秀指出如今所面臨的強(qiáng)敵不僅是強(qiáng)在武力上,更強(qiáng)在思想和理念上。為此陳獨(dú)秀決定創(chuàng)辦一份雜志,作為喚醒國(guó)人政治覺悟和倫理覺悟的號(hào)角,從而探索出一條振興中華的道路。
  • 第42集主要內(nèi)容:?李大釗在北京長(zhǎng)辛店分發(fā)《新青年》的刊物,并為眾人講述五一國(guó)際勞動(dòng)節(jié)的由來(lái),他告訴大家美國(guó)的勞工游行示威要求每日工作八小時(shí),呼吁工人們也要團(tuán)結(jié)起來(lái)為了自己的權(quán)利而奮斗。此外,中國(guó)共產(chǎn)黨第一個(gè)早期組織在上海成立,陳獨(dú)秀等人志愿加入中國(guó)共產(chǎn)黨。?
  • 第43集主要內(nèi)容:周恩來(lái)將陳獨(dú)秀寄來(lái)的刊物拿給延年喬年,延年和喬年已經(jīng)發(fā)現(xiàn)了無(wú)政府主義是行不通的,他們已經(jīng)通過反復(fù)研讀馬克思主義的刊物確認(rèn)了馬克思主義才是中國(guó)的救國(guó)之路,決心與無(wú)政府主義徹底決裂。
上面的句落講的都不是一件事,但都屬于同一主題—?即《覺醒年代》的劇情簡(jiǎn)介,但語(yǔ)義顆粒度較粗。
基于主題的文本聚類有許多使用場(chǎng)景。比如,在多文檔摘要(multi-document summarization)任務(wù)中,人們經(jīng)常從多個(gè)文檔中提取句子,這些句子必須被組織成有意義的章節(jié)和段落。同樣,在新興的計(jì)算論證(computational argumentation)領(lǐng)域,論點(diǎn)(arguments)可能在廣泛的文章集中被發(fā)現(xiàn),這就需要進(jìn)一步的主題組織(thematic organization)來(lái)產(chǎn)生一個(gè)有說(shuō)服力的論證敘述( argumentative narrative)。

三、基于中文Wiki構(gòu)建可用于

訓(xùn)練主題相似語(yǔ)義表示規(guī)模的大規(guī)模語(yǔ)料

一言以蔽之,筆者創(chuàng)建的語(yǔ)料是一種弱監(jiān)督(Weakly-Supervised)形式的三元組?(Triplet),即(Anchor,Positive,Negtive),包含錨定語(yǔ)句、正例語(yǔ)句(與錨定語(yǔ)句內(nèi)容存在主題相似的語(yǔ)句)和負(fù)例語(yǔ)句(與錨定語(yǔ)句內(nèi)容不存在主題相似的語(yǔ)句),需與對(duì)比學(xué)習(xí)任務(wù)結(jié)合起來(lái)使用。
據(jù)筆者觀察,維基百科的行文組織良好、有邏輯,關(guān)于人、事、物的介紹通常會(huì)劃分為若干個(gè)(固定)版塊(sections )和段落(paragraphs),每個(gè)版塊/段落下轄的內(nèi)容具有高度一致性,而段落于段落之間往往是統(tǒng)一大主題下的小分支,主體內(nèi)容會(huì)有差異。
舉例來(lái)說(shuō),“2019冠狀病毒病”的文章布局如下,分為若干個(gè)大的版塊:
看不懂2

“名稱”段落下的內(nèi)容組織:

2020年1月初,由于肺炎病例原因不明,并正進(jìn)行病原鑒定及病因溯源等初步調(diào)查,因而武漢市衛(wèi)生健康委員會(huì)稱之為“不明原因肺炎”[56]。
1月8日,香港特區(qū)政府衛(wèi)生署將其命名為“嚴(yán)重新型傳染性病原體呼吸系統(tǒng)病”(Severe Respiratory Disease associated with a Novel Infectious Agent)?[57][58]。衛(wèi)生署在新聞公報(bào)中則稱為“新型冠狀病毒感染”[59],后改稱“2019冠狀病毒病”[60]。澳門特別行政區(qū)政府將其命名為“新型冠狀病毒感染”[61]。
2月11日,世界衛(wèi)生組織正式宣布將此疾病定名為“2019冠狀病毒病”(Coronavirus disease 2019,COVID-19),表示在定名時(shí)須在名稱中使用“既不涉及地理位置、動(dòng)物、個(gè)人或人群,又容易發(fā)音,并且與該疾病相關(guān)的名稱”,以避免造成其他可能不準(zhǔn)確的或污名化的名稱的問題[14][66][67]
“癥狀”下的內(nèi)容組織:
2019冠狀病毒病的癥狀及嚴(yán)重程度因人而異,本疾病存在無(wú)癥狀感染者[72],有癥狀患者主要以輕癥居多(約81%)[73]。大多數(shù)患者的表現(xiàn)以類流感癥狀為主。發(fā)熱是2019冠狀病毒病最常見的癥狀[31],可能是高燒或低燒[31],大多數(shù)患者都會(huì)在某一階段出現(xiàn)發(fā)熱[31]。大多數(shù)患者也有咳嗽癥狀,可能是干咳或排痰性咳嗽[31]。
嚴(yán)重并發(fā)癥包含急性呼吸窘迫綜合征(ARDS)[79]、敗血性休克、全身炎癥反應(yīng)綜合征(SIRS)[79][80]、難以糾正的代謝性酸中毒、急性心肌損傷、凝血功能障礙,甚至死亡等[81]。
疾病潛伏期通常約在暴露后4-5天左右,一般認(rèn)為不會(huì)超過14天[82]。97.5%的患者會(huì)在感染后11.5天內(nèi)出現(xiàn)癥狀[83]。目前認(rèn)為無(wú)癥狀患者也具有傳播疾病的能力[84]。
2020年8月,南加州大學(xué)的科學(xué)家報(bào)告稱,2019冠狀病毒病的初始癥狀的“可能”順序是先發(fā)燒,然后是咳嗽和肌肉疼痛,惡心和嘔吐通常出現(xiàn)在腹瀉之前[85]。這與流感最常見的途徑形成鮮明對(duì)比,即先咳嗽后發(fā)燒[85]。
由上可見,版塊/段落之間的內(nèi)容的主題相關(guān)性較弱,而版塊/段落內(nèi)的語(yǔ)句內(nèi)容之間存在高度的主題一致性,且粒度較細(xì)。
據(jù)此,筆者將按如下方式、步驟來(lái)構(gòu)建主題Triplet,對(duì)于某一個(gè)詞條頁(yè)面所呈現(xiàn)的內(nèi)容:
1、在同一段落的任一兩個(gè)句子為正例,其中一個(gè)為anchor,另一個(gè)為positive;2、和anchor、positive相異的段落下的任意一句為negtive;

3、考慮到后續(xù)訓(xùn)練模型的效率和學(xué)習(xí)效果,我們需要謹(jǐn)慎挑選負(fù)例,即選擇困難負(fù)例(hard negtive);考慮到詞條謀篇布局的規(guī)范嚴(yán)謹(jǐn)性,anchor和positive所在段落的前后相繼的段落中的任意語(yǔ)句可作為hard negtive。

4、為避免模型學(xué)習(xí)到固定模式,即干擾信號(hào),hard negtive需要隨機(jī)在上一段和下一段中生成。

5、過濾掉一些大事記之類的詞條,此類詞條乃綜合性詞條,按時(shí)間組織,內(nèi)容主題方面千差萬(wàn)別,無(wú)一致性,無(wú)學(xué)習(xí)意義;

6、去掉過短(少于10字)和過長(zhǎng)的語(yǔ)句(多于256字)。

由此,大批量triplet就生成了 -(anchor,positive,negtive),1000W+個(gè)triplet。
三元組示例:
  1. (? ‘新文化運(yùn)動(dòng)為五四運(yùn)動(dòng)做了思想上和組織上的預(yù)備’,’關(guān)于新文化運(yùn)動(dòng)與1919年的五四運(yùn)動(dòng)的關(guān)系有不同看法[17],一種意見認(rèn)為二者基本是一個(gè)運(yùn)動(dòng)的兩個(gè)階段,可以統(tǒng)稱為廣義的“五四運(yùn)動(dòng)”,或者“五四新文化運(yùn)動(dòng)”’,

    ‘1915年9月,陳獨(dú)秀在上海創(chuàng)辦《青年雜志》,1916年改名《新青年》,刊物上還印有法文刊名La Jeunesse’),

  2. ?(? ‘自然語(yǔ)言處理(英語(yǔ):Natural Language Processing,縮寫作 NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。’,’自然語(yǔ)言處理包括多方面和步驟,基本有認(rèn)知、理解、生成等部分。’,

    ‘在口語(yǔ)中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無(wú)誤的一種最佳組合。在書寫上,漢語(yǔ)也沒有詞與詞之間的邊界。’),

  3. ?(? ‘次年其弟陳喬年亦遇害。兩兄弟均被安葬在龍華烈士陵園’,’1927年6月26日,陳延年被自己的老師吳稚暉背叛,在上海北四川路恒豐里104號(hào)中共上海區(qū)委所在地被國(guó)民政府逮捕,陳延年拒絕招降。’,

    ‘ 陳延年,又名遐延,筆名林木,男,安徽安慶人,中國(guó)共產(chǎn)黨早期領(lǐng)導(dǎo)人之一,陳獨(dú)秀長(zhǎng)子’)

結(jié)語(yǔ)

筆者自己基于中文wiki百科生成了一個(gè)訓(xùn)練語(yǔ)義模型的語(yǔ)料,用于多個(gè)NLP任務(wù),都取得了不錯(cuò)的效果:
  • 基于語(yǔ)義的文本檢索:
Query: 一個(gè)人在吃意大利面
Top 5 most similar sentences in corpus:
????????????某男子正在吃意面 (Score: 0.8763)
????????????一個(gè)人在吃食物 (Score: 0.6450)
????????????一個(gè)男人正在吃一塊面包 (Score: 0.5701)
????????????一個(gè)男人騎著白馬在一個(gè)封閉的地面上行走 (Score: 0.1964)?????????
一個(gè)男人在騎馬 (Score: 0.1908)
  • 相同表述語(yǔ)句對(duì)齊(從大量無(wú)序文本中找到語(yǔ)義最接近的語(yǔ)句對(duì))
???? ???? 學(xué)富五車 博學(xué)多才 Score: 0.7170
????????????油嘴滑舌 油頭滑腦 Score: 0.7159
????????????戮力同心 舉國(guó)同心 Score: 0.7118
????????????戮力同心 同心同德 Score: 0.7109
????????????招賢納士 博學(xué)多才 Score: 0.7092
????????????自以為是 師心自用 Score: 0.7045
  • 基于語(yǔ)義相似度閾值的聚類(設(shè)定相似度閾值和最小聚類成員數(shù)實(shí)現(xiàn)自動(dòng)聚類)
Start clustering…
A total of 40 clusters were automated detected~
Cluster 1, # 22 Items?
現(xiàn)在刷卡消費(fèi)怎么沒有積分???
為啥現(xiàn)在刷卡消費(fèi)沒有積分了?
為什么刷卡消費(fèi)沒有積分了?
刷卡消費(fèi)為什么沒有積分
為什么現(xiàn)在刷卡沒有積分?
我近期的消費(fèi)怎么沒有積分???
我消費(fèi)了怎么沒積分呢?
為什么消費(fèi)沒有積分呢?
為什么我最近消費(fèi)的沒有積分呢
我的信用卡為啥沒有積分
我的信用卡為什么沒有積分
Cluster 2, # 15 Items?
為什么我信用卡不能用
信用卡怎么不能使用是為什么
我的信用卡不能用了?
我的信用卡為何不能套現(xiàn)
為什么停用我的信用卡
為什么我的卡用不了了
我的卡怎么不能用了呢?
為什么我的信用卡臨時(shí)額度用不了
Cluster 3, # 11 Items?
積分兌換的禮品太少了
積分兌換禮品品類太少了
積分兌換的獎(jiǎng)品太少了,
積分兌換的物品太少
現(xiàn)在可以積分兌換的禮品怎么那么少?
積分兌換的東西太少了,能增加自己想換的禮品
積分兌換產(chǎn)品太少了,希望能重視
積分兌換禮品太少了,什么時(shí)候有多一點(diǎn)產(chǎn)品上線?
Cluster 4, # 8 Items?
想積分抵年費(fèi)應(yīng)該怎么弄
請(qǐng)問如何積分抵扣年費(fèi)?
我想用積分抵年費(fèi),不知怎么操作
請(qǐng)問積分兌換卡年費(fèi)怎么辦理
我要用積分對(duì)換年費(fèi),行不行?
Cluster 39, # 3 Items?
賬單15.84,忘記還款,扣我15的違約金,太狠了點(diǎn)吧?唉,不敢用你們的卡了
就差15塊多沒還,肯定是忘了,違約金太狠了吧,不合理
我是忘還了,英該提醒一下,你們直接扣我15元,我不想用你們的信用卡了
Cluster 40, # 3 Items?
已經(jīng)最低還款了怎么還顯示要最低還款
我已經(jīng)最低還款了,為什么還不行
還款了為什么還顯示未改款最低額度
Clustering done after 0.36 sec

參考文獻(xiàn)

Kacmajor M, Kelleher J D. Capturing and measuring thematic relatedness[J]. Language Resources and Evaluation, 2020, 54(3): 645-682.
Dor L E, Mass Y, Halfon A, et al. Learning Thematic Similarity Metric Using Triplet Networks[J].