色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來(lái)臨之際一起破浪前行

對(duì)知乎16W+問題進(jìn)行文本挖掘,發(fā)現(xiàn)了這些秘密

在知乎上,如果說(shuō)話題屬于宏觀層次,能反映某一領(lǐng)域大的架構(gòu)和總體趨勢(shì),那么,問題則屬于相對(duì)微觀的層次,能夠從用戶群中挖掘更為具體、粒度更細(xì)的興趣或需求點(diǎn)擊下方圖片即可放大。

pic_001

在這里,筆者拋出一個(gè)假設(shè):

各個(gè)話題下的熱門問題會(huì)對(duì)其關(guān)注用戶產(chǎn)生認(rèn)知上的影響,挖掘熱門內(nèi)容就能預(yù)判用戶群感興趣的內(nèi)容傾向。

要理解這個(gè)假設(shè),不得不提到傳播學(xué)領(lǐng)域的“議程設(shè)置理論”。

議程設(shè)置理論認(rèn)為媒體上的信息往往不能決定人們對(duì)某一事件或意見的具體看法,但可以通過(guò)刻意安排相關(guān)的議題(在知乎上可以理解為話題、問題或者具體的內(nèi)容)來(lái)有效地左右人們關(guān)注哪些事實(shí)和意見,以及他們談?wù)摰南群箜樞颉?/span>各類媒體報(bào)道和用戶UGC賦予各種議題不同程度的顯著性的方式,影響著人們的對(duì)周圍世界的大事及重要性的判斷。

了解知乎數(shù)據(jù)分析相關(guān)話題的“議程安排”,我們就能了解占領(lǐng)相關(guān)人群心智的是哪些熱門事件和內(nèi)容。

如下圖所示,由于近期NBA的莫雷和蕭華發(fā)表了不當(dāng)言論,引發(fā)了社會(huì)的熱議。最先知悉這一事件的是體育界人士,但隨著事態(tài)的發(fā)展,以及關(guān)注和搜索這一話題的人不斷增加,該事件登上知乎的熱搜榜單,被越來(lái)越多的人所了解,最終成為一個(gè)有影響力的社會(huì)事件。與此同時(shí),各種媒體及大V的發(fā)聲,也直接或間接的影響公眾的認(rèn)知、觀點(diǎn)和情緒點(diǎn)擊下方圖片即可放大。

pic_002

剛才的例子可以抽象成如下議程設(shè)置模型,反映一般性的規(guī)律點(diǎn)擊下方圖片即可放大

pic_003

在本分析項(xiàng)目中,筆者認(rèn)為廣大關(guān)注“數(shù)據(jù)分析”的知乎用戶對(duì)于數(shù)據(jù)分析領(lǐng)域(包括數(shù)據(jù)分析的學(xué)習(xí)、就業(yè)、技能等)中重要問題的認(rèn)識(shí)和判斷與知乎上的各類信息,尤其是話題和問題之間,存在著一種高度對(duì)應(yīng)的關(guān)系,即知乎上的熱門話題和熱門問題,同樣也作為重要信息反映在公眾的意識(shí)和腦海中;知乎上提問越多、回答越多、關(guān)注越多的問題,用戶對(duì)該問題的重視程度越高。根據(jù)這種高度對(duì)應(yīng)的相關(guān)關(guān)系,我們可以認(rèn)為認(rèn)為知乎上的熱門問題具有一種形成“議事日程”的功能,知乎上的熱門問題可以賦予各種議題不同程度“顯著性”的方式,影響著數(shù)據(jù)分析相關(guān)的用戶所矚目的焦點(diǎn)和對(duì)數(shù)據(jù)分析相關(guān)問題的認(rèn)知。了解這些熱門話題和問題,我們就能間接的知悉數(shù)據(jù)分析相關(guān)人群的利益訴求點(diǎn)是哪些。

在對(duì)問題數(shù)據(jù)分析之前,我們先來(lái)了解下知乎平臺(tái)上,話題和問題的關(guān)聯(lián)邏輯,這有利于我們更好的理解分析結(jié)果。

  • 話題和問題之間的關(guān)系點(diǎn)擊下方圖片即可放大

pic_004

問題是由用戶自發(fā)提出而生成的,每個(gè)問題都可以選擇添加話題標(biāo)簽,所能添加的話題標(biāo)簽數(shù)0=< 話題標(biāo)簽數(shù)<=5,假如某個(gè)問題添加了一個(gè)話題標(biāo)簽,那么

  • 問題會(huì)出現(xiàn)在該話題的全部問題中,根據(jù)問題及其回答的質(zhì)量和熱度,可能會(huì)出現(xiàn)在話題動(dòng)態(tài)和精華頁(yè)中

  • 問題會(huì)根據(jù)一定規(guī)則出現(xiàn)在該話題的各頁(yè)面中

  • 相關(guān)用戶在該話題下的回答數(shù)、獲贊數(shù)會(huì)發(fā)生變化

  • 關(guān)注該話題的用戶的話題動(dòng)態(tài)頁(yè)中會(huì)出現(xiàn)這個(gè)問題。未來(lái),取決于條目和用戶的相關(guān)性,部分問題或者回答還會(huì)出現(xiàn)在關(guān)注該問題的首頁(yè)feed流中

本文根據(jù)問題數(shù)量選取了跟“數(shù)據(jù)分析”相關(guān)的10大話題,依次是數(shù)據(jù)、數(shù)據(jù)分析、算法與數(shù)據(jù)結(jié)構(gòu)、商業(yè)數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)結(jié)構(gòu)、大數(shù)據(jù)分析和互聯(lián)網(wǎng)數(shù)據(jù)分析,從中采集了16W+的問題,其中會(huì)出現(xiàn)有個(gè)問題對(duì)應(yīng)多個(gè)話題情況,也就是說(shuō),這16W+的問題存在重復(fù)。

下圖是各個(gè)話題下問題數(shù)量的分布情況:

pic_005

數(shù)據(jù)從2010年12月份開始統(tǒng)計(jì),在整體上,各大話題下的問題數(shù)量是上升的趨勢(shì),其中“數(shù)據(jù)”話題下的提問數(shù)量增幅最大,多半是因?yàn)樵撛掝}外延較大,所有跟“數(shù)據(jù)“相關(guān)的問題都能打上”數(shù)據(jù)“這一話題標(biāo)簽。

1.?各個(gè)話題下問題發(fā)布量走勢(shì)

下面統(tǒng)計(jì)一下這10個(gè)數(shù)據(jù)分析相關(guān)話題從2010.12到2019.08的提問數(shù)量趨勢(shì),如下圖所示點(diǎn)擊下方圖片即可放大

pic_007

從上個(gè)圖可以看到,在2018.03-2018.07這段時(shí)間,絕大部分話題下的數(shù)據(jù)提問數(shù)量達(dá)到一個(gè)較高的數(shù)值,“數(shù)據(jù)科學(xué)”這一話題下的問題突然猛漲,說(shuō)明這段時(shí)間知乎上用戶對(duì)數(shù)據(jù)相 -關(guān)的問題關(guān)注度較高,間接映射出這段時(shí)間數(shù)據(jù)行業(yè)及其職位的火熱程度。

2. 問題發(fā)布時(shí)間規(guī)律(日&時(shí))

再根據(jù)提問數(shù)量的時(shí)間分布,我們可以得知知乎上“數(shù)據(jù)分析”相關(guān)用戶群體的互動(dòng)(提問行為)規(guī)律。按提問的day(周一 ~ 周日)和hour(0時(shí)~23時(shí))來(lái)關(guān)聯(lián)統(tǒng)計(jì)點(diǎn)擊下方圖片即可放大。

pic_008

從上圖可以看到,用戶的提問時(shí)間大都集中在周一到周五、9時(shí)~23時(shí),顏色顯示為深紅色的時(shí)間區(qū)間是10時(shí)~11時(shí)和15時(shí)~16時(shí),這個(gè)時(shí)間段正是工作時(shí)間,這說(shuō)明大部分人是在正兒八經(jīng)的工作時(shí)間劃水摸魚~

此外,上圖還反映了一個(gè)有意思的現(xiàn)象,即周一到周四大家都會(huì)在下班后的20時(shí)~23時(shí)之間有活躍,但是在周五下班后卻活躍度大大降低,看來(lái)臨近周末,大家追求、探尋知識(shí)的熱情也大大降低了。

下面,再來(lái)根據(jù)互動(dòng)數(shù)據(jù)找出這10個(gè)話題下16W+問題中的熱門問題。

那么,問題來(lái)了?怎么定義熱門?如何客觀的評(píng)價(jià)問題的熱門程度?

不急,接著往下看。

3. 利用TOPSIS法對(duì)問題的熱度進(jìn)行排序

TOPSIS (Technique for Order Preference by Similarity to an Ideal Solution),中文名為優(yōu)劣解距離法。TOPSIS 法是一種常用的組內(nèi)綜合評(píng)價(jià)方法,能充分利用原始數(shù)據(jù)的信息,其結(jié)果能精確地反映各評(píng)價(jià)方案之間的差距?;具^(guò)程為基于歸一化后的原始數(shù)據(jù)矩陣,采用余弦法找出有限方案中的最優(yōu)方案和最劣方案,然后分別計(jì)算各評(píng)價(jià)對(duì)象與最優(yōu)方案和最劣方案間的距離,獲得各評(píng)價(jià)對(duì)象與最優(yōu)方案的相對(duì)接近程度,以此作為評(píng)價(jià)優(yōu)劣的依據(jù)。該方法對(duì)數(shù)據(jù)分布及樣本含量沒有嚴(yán)格限制,數(shù)據(jù)計(jì)算簡(jiǎn)單易行。

舉一個(gè)容易理解的例子:

?
小明數(shù)學(xué)考試 134 分,要怎么知道他的成績(jī)是好還是不好呢?
?
基于分布的評(píng)價(jià)方法會(huì)觀察小明的分?jǐn)?shù)位于班級(jí)分?jǐn)?shù)的哪個(gè)水平(如前 5%、前 10%),但這種評(píng)價(jià)方法只能給出一個(gè)方向的情況。如班上成績(jī)除了最高分外,其余都是 134 分,那么小明的成績(jī)就是并列的倒數(shù)第一,但是正向評(píng)價(jià)給出的結(jié)果是前 5%。
?
而 TOPSIS 就是找出班上最高分(假設(shè)是 147 分)、最低分(假設(shè)是 69 分),然后計(jì)算小明的分?jǐn)?shù)和這兩個(gè)分?jǐn)?shù)之間的差距,從而得到自己分?jǐn)?shù)好壞的一個(gè)客觀評(píng)價(jià)。距離最高分越近,那么評(píng)價(jià)情況越好,距離最低分越近,那么評(píng)價(jià)情況越糟。

16W+問題中,會(huì)存在一個(gè)問題對(duì)應(yīng)多個(gè)話題的情況,所以需要做去重處理,去重之后有10W+的問題量,每個(gè)問題都有如下4個(gè)維度:

  • answer_count(回答量)

  • comment_count(評(píng)論量)

  • follower_count(關(guān)注量)

  • view_count(閱讀量)

上述4個(gè)量化指標(biāo)正好都是正向的數(shù)值型指標(biāo),也就是數(shù)值越大,對(duì)問題的熱度提升越好,但各維度的權(quán)重肯定會(huì)存在一定差異,這個(gè)就交給TOPSIS來(lái)自動(dòng)完成。

以下分別是原始數(shù)據(jù)、計(jì)算過(guò)程和結(jié)果點(diǎn)擊下方圖片即可放大pic_009

按照熱度綜合得分指數(shù)排名,TOP20熱門話題按熱度值從高到低排列,依次是點(diǎn)擊下方圖片即可放大

pic_010

為了避免看不清,再次羅列下TOP20熱門問題:

(一)2017 年最令你震驚、悚然的數(shù)據(jù)是什么?

(二)商業(yè)分析能力是怎樣煉成的?

(三)不小心刪除公司數(shù)據(jù),會(huì)怎么樣?

(四)在哪里能找到各行業(yè)的分析研究報(bào)告?

(五)如何快速成為數(shù)據(jù)分析師?

(六)區(qū)塊鏈?zhǔn)鞘裁矗绾魏?jiǎn)單易懂地介紹區(qū)塊鏈?

(七)如何評(píng)價(jià)大數(shù)據(jù)「殺熟」?

(八)哪段代碼最能代表程序員的暴力美學(xué)?

(九)不小心刪庫(kù)是一種怎樣的體驗(yàn)?

(十)為什么很多不懂比特幣的人,會(huì)詆毀和抨擊比特幣?

(十一)有哪些值得推薦的數(shù)據(jù)可視化工具?

(十二)比特幣是什么?

(十三)五個(gè)囚犯先后從100顆綠豆中抓綠豆。抓得最多和最少的人將被處死,不能交流,可以摸出剩下綠豆的數(shù)量,誰(shuí)的存活幾率最大?

(十四)為什么機(jī)器人研究了幾十年,還是給人感覺沒有太大進(jìn)展?

(十五)你寫過(guò)什么有趣的程序?

(十六)如何看待 2017 年 5 月 12 日中國(guó)大量高校及公共設(shè)備發(fā)生電腦中毒,勒索比特幣的事件?

(十七)在數(shù)據(jù)分析、挖掘方面,有哪些好書值得推薦?

(十八)「數(shù)據(jù)會(huì)說(shuō)謊」的真實(shí)例子有哪些?

(十九)哪些 Python 庫(kù)讓你相見恨晚?

(二十)鹿晗關(guān)曉彤公開戀情,是如何把新浪微博的服務(wù)器搞垮的??

上面只是TOP20的結(jié)果,假如我們想了解TOP100具體是哪方面的數(shù)據(jù)分析問題,這就需要人工稍微整理下了。

4.?TOP100熱門問題歸類

秉著“抓大放小”的原則,筆者針對(duì)上述篩選出的TOP100熱門問題使用內(nèi)容分析法進(jìn)行分析。

內(nèi)容分析法(Content Analysis)是一種對(duì)傳播內(nèi)容(包括且不限文本、圖片、視頻等)進(jìn)行客觀、系統(tǒng)和定量的描述的研究方法。其實(shí)質(zhì)是對(duì)傳播內(nèi)容所含信息量及其變化的分析,即由表征的有意義的詞句推斷出準(zhǔn)確意義的過(guò)程。內(nèi)容分析的過(guò)程是層層推理的過(guò)程。

定性內(nèi)容分析的常見起點(diǎn)通常是轉(zhuǎn)錄采訪文本。定性內(nèi)容分析的目的是將大量文本系統(tǒng)地轉(zhuǎn)換為關(guān)鍵結(jié)果的高度組織和簡(jiǎn)潔的摘要。對(duì)逐字記錄的訪談中的原始數(shù)據(jù)進(jìn)行分析以形成類別或主題,這是在分析的每個(gè)步驟中進(jìn)一步提取數(shù)據(jù)的過(guò)程;從表面化的文字內(nèi)容到其蘊(yùn)藏的內(nèi)涵。

以下示例來(lái)自某個(gè)醫(yī)院對(duì)患者的采訪記錄,使用內(nèi)容分析法由淺入深,最終定位到該醫(yī)院存在的服務(wù)問題點(diǎn)擊下方圖片即可放大

pic_011

在實(shí)操方面,基于MECE分析法?Mutually Exclusive Collectively Exhaustive,中文意思是“相互獨(dú)立,完全窮盡”)對(duì)TOP100熱門問題中的議題做到不重疊、不遺漏的分類,該分類務(wù)必完全、徹底、能適合于所有問題,使所有分析單位都可歸入相應(yīng)的類別,不能出現(xiàn)無(wú)處可歸的現(xiàn)象,借此有效把握“數(shù)據(jù)分析”相關(guān)問題的內(nèi)容結(jié)構(gòu)和內(nèi)容傾向,發(fā)現(xiàn)其中的熱門主題。

筆者在瀏覽TOP100熱門問題,將其劃分為以下6類:

  • 學(xué)習(xí)方法:怎么樣學(xué)習(xí)數(shù)據(jù)分析

  • 技能&工具:進(jìn)行數(shù)據(jù)分析的相關(guān)工具,如Excel、SPSS或Python等,以及一些操作小技能,比如怎樣用excel繪制旭日?qǐng)D

  • 分析&洞察:利用數(shù)據(jù)(分析)產(chǎn)生的洞見

  • 應(yīng)用:數(shù)據(jù)(分析)的實(shí)際應(yīng)用

  • 數(shù)據(jù)采集:數(shù)據(jù)爬蟲或者采集軟件

  • 學(xué)習(xí)資源:數(shù)據(jù)(分析)相關(guān)的書刊、資料

以下是對(duì)問題進(jìn)行編碼的示例:
  • 做數(shù)據(jù)分析不得不看的書有哪些?—> 學(xué)習(xí)資源

  • 中國(guó)現(xiàn)在各行業(yè)的發(fā)展情況如何?—> 分析&洞察

  • 怎樣用 Excel 做數(shù)據(jù)分析?—> 技能&工具

  • 怎樣進(jìn)行大數(shù)據(jù)的入門級(jí)學(xué)習(xí)?—> 學(xué)習(xí)方法

  • 有哪些網(wǎng)站用爬蟲爬取能得到很有價(jià)值的數(shù)據(jù)?—> 數(shù)據(jù)采集

  • 新興專業(yè) BA(business analytics)到底學(xué)什么?發(fā)展前景怎樣?—> 應(yīng)用

然后,統(tǒng)計(jì)各個(gè)分類的占比,結(jié)果如下點(diǎn)擊下方圖片即可放大

pic_012

目前熱門問題中談到數(shù)據(jù)分析“學(xué)習(xí)方法”的較多,其次是“技能&工具”,二者數(shù)量之和占到TOP100的一半,結(jié)合一些具體問題描述,可以反映出2點(diǎn):

  • 許多用戶在數(shù)據(jù)分析(包括大數(shù)據(jù)、編程、機(jī)器學(xué)習(xí)等)的學(xué)習(xí)路徑方面摸不清頭腦,他們想了解如何在較短的時(shí)間內(nèi)取得較好的學(xué)習(xí)效果,這是數(shù)據(jù)分析相關(guān)人群的一個(gè)很迫切的利益訴求;

  • 許多用戶對(duì)于數(shù)據(jù)分析的實(shí)操很感興趣,想了解如何通過(guò)使用數(shù)據(jù)分析工具將數(shù)據(jù)分析工作落地,這方面的閱讀需求表現(xiàn)在對(duì)干貨內(nèi)容(這里是回答)的“癡迷”上。

與此相比,“分析&洞察”、“應(yīng)用”、“數(shù)據(jù)采集”占比偏少,這類內(nèi)容相對(duì)深?yuàn)W或者技術(shù)性較高,讀者看起來(lái)也比較吃力,閱讀興趣隨之降低。

此外,“學(xué)習(xí)資源”的提問占比最少,這從側(cè)面反映廣大知乎用戶(數(shù)據(jù)分析相關(guān)人群)不太愿意花時(shí)間(系統(tǒng)性的)閱讀數(shù)據(jù)分析相關(guān)的書刊、PDF資料或者github開源代碼,惰性暴露無(wú)遺~

總體說(shuō)來(lái),如果將技巧比作“術(shù)”,強(qiáng)調(diào)如何將數(shù)據(jù)分析用具體的技能和工具落地;將數(shù)據(jù)的應(yīng)用、分析比作“道”,強(qiáng)調(diào)如何高屋建瓴的用數(shù)據(jù)分析解決實(shí)際問題。那么,這部分?jǐn)?shù)據(jù)反映出數(shù)據(jù)分析相關(guān)用戶對(duì)于高層次數(shù)據(jù)分析內(nèi)容的閱讀需求不大,其閱讀興趣主要集中在科普類、技巧類的淺層次內(nèi)容。

5.?問題所屬話題標(biāo)簽的社會(huì)網(wǎng)絡(luò)分析

與用戶的話題關(guān)注列表相比,問題下的標(biāo)簽列表元素組合會(huì)更容易理解一些。在這里,筆者將話題標(biāo)簽之間的共現(xiàn)關(guān)系抽象成圖,采用圖聚類的方法對(duì)熱門話題標(biāo)簽進(jìn)行聚類,以期從問題的角度去發(fā)現(xiàn)熱門主題(在這里,筆者將“主題”設(shè)置為一個(gè)比“話題”內(nèi)涵更大的概念)。

每一個(gè)標(biāo)簽都代表一個(gè)話題,是一個(gè)詞匯。以詞匯為基本要素的聚類方法打破了所有文檔的邊界,對(duì)整個(gè)文檔集合構(gòu)建詞匯共現(xiàn)網(wǎng)絡(luò)。網(wǎng)絡(luò)中的節(jié)點(diǎn)對(duì)應(yīng)文檔集合中的詞匯,網(wǎng)絡(luò)中的邊描述詞匯的共現(xiàn)關(guān)系?;谠~匯共現(xiàn)網(wǎng)絡(luò),可以采用社區(qū)發(fā)現(xiàn)算法將復(fù)雜網(wǎng)絡(luò)分割成若干子圖網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)子圖網(wǎng)絡(luò)結(jié)構(gòu)包含若干在內(nèi)容上密切相關(guān)的詞匯,它們指向特定的話題。

在這里,筆者選取共現(xiàn)頻次(Weight)大于500次的高頻關(guān)聯(lián)關(guān)系來(lái)構(gòu)建詞匯共現(xiàn)網(wǎng)絡(luò),結(jié)果有101對(duì)共現(xiàn)詞匯對(duì)被篩選出來(lái)。結(jié)果如下點(diǎn)擊下方圖片即可放大

pic_013

根據(jù)共現(xiàn)模式發(fā)現(xiàn)不同的話題組,線條的粗細(xì)代表話題關(guān)聯(lián)關(guān)系的強(qiáng)弱,點(diǎn)的大小代表話題的重要程度,而顏色可以區(qū)分不同類型的熱門主題點(diǎn)擊下方圖片即可放大。

pic_015

根據(jù)上圖中節(jié)點(diǎn)的顏色及話題標(biāo)簽的語(yǔ)義包含關(guān)系,筆者區(qū)分出以下熱門主題:
  • 橙色系:虛擬貨幣

  • 綠色系:算法

  • 紫色系:大數(shù)據(jù)及數(shù)據(jù)分析

  • 藍(lán)色系:數(shù)據(jù)庫(kù)

根據(jù)每個(gè)聚類的節(jié)點(diǎn)數(shù)多少、 聚類中心的節(jié)點(diǎn)大小以及線條的粗細(xì),我們可以知道

  • 大數(shù)據(jù)&數(shù)據(jù)分析是其中最為熱門的主題

  • 數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)、機(jī)器學(xué)習(xí)這幾個(gè)話題間存在很強(qiáng)的相關(guān)性,也就是說(shuō)數(shù)據(jù)相關(guān)的問題,同時(shí)出現(xiàn)這幾個(gè)話題標(biāo)簽的可能性較大

6.?發(fā)掘話題的關(guān)注點(diǎn)變化

文本挖掘中常常會(huì)涉及到“分布式假設(shè)”:如果兩個(gè)詞的上下文相似,那么這兩個(gè)詞也是相似的(Words that occur in similar contexts tend to have similar meanings.)。

舉例來(lái)說(shuō),有以下兩段話分別是周武王和魏征對(duì)商紂王和隋煬帝的評(píng)價(jià):

  • 商王受無(wú)道,暴殄天物,害虐烝民,為天下逋逃主,萃淵藪

  • 煬帝恃其俊才,驕矜自用,故口誦堯、舜之言而身為桀、紂之行,曾不自知,以至覆亡也

上面的評(píng)價(jià)對(duì)兩位帝王的具體措辭不同,但形容紂王和隋煬帝的語(yǔ)境相同,都提到兩位帝王的施政暴虐,不恤民情,因而紂王和煬帝的所作所為基本相同,二者一同劃到“暴君”的行列。

進(jìn)一步來(lái)講,如果詞匯w的含義由分布式表示(w的上下文詞匯)uw 概括,則w含義的變化應(yīng)該能在uw 中反映出來(lái)。如下圖所示,在1850s/1900年代、1950年代和1990年代的英語(yǔ)世界,gay、broadcast和awful的詞義分別有不同的內(nèi)涵,內(nèi)涵的變遷可以通過(guò)其語(yǔ)境(上下文詞匯)呈現(xiàn)出來(lái)。同時(shí),內(nèi)涵的變遷也折射出社會(huì)人文環(huán)境的變化,比如“broadcast”在1850年代是“播撒種子(通過(guò)sow、seed可以看出)”的意思,但到了1900年代,由于大眾媒體和無(wú)線電的產(chǎn)生,出現(xiàn)了一個(gè)引申含義 — “傳播或者無(wú)線電廣播(通過(guò)newspapers、radios可以看出)”,再到了1990年代,又引申到播放電視節(jié)目了(通過(guò)BBC、television可以看出)…

pic_014

由此,筆者想對(duì)這16W+問題進(jìn)行詞匯語(yǔ)義變遷挖掘,試圖發(fā)現(xiàn)一些熱門詞匯所代表事物的內(nèi)涵在近些年發(fā)生了哪些變化。以下分別是“數(shù)據(jù)挖掘”和“數(shù)據(jù)分析”在2011~2019這九年間的討論熱點(diǎn)點(diǎn)擊下方圖片即可放大。

pic_016

從上面的圖示中,我們可以發(fā)現(xiàn)兩個(gè)詞匯上下文中的“穩(wěn)定”與“變化”。變化的是趨勢(shì),穩(wěn)定的是規(guī)律。比如,較長(zhǎng)的時(shí)間段內(nèi)容,“數(shù)據(jù)挖掘”話題跟文本挖掘、NLP方面的話題聯(lián)系緊密,“數(shù)據(jù)分析”跟咨詢、行業(yè)研究聯(lián)系密切;而二者在2019年跟招聘、面試、職業(yè)發(fā)展等相關(guān)話題沾上了邊,反映了相關(guān)用戶對(duì)數(shù)據(jù)挖掘/分析方面的就業(yè)比較關(guān)心,間接反映出該領(lǐng)域的就業(yè)問題比較突出,廣大從業(yè)者不再是前幾年畢業(yè)就遭哄搶的“香餑餑”了。

下面再看看一些互聯(lián)網(wǎng)界的熱門詞匯,看看它們?cè)谶@9年間,內(nèi)涵發(fā)生了哪些變化,它們的解讀就留給熱心讀者了點(diǎn)擊下方圖片即可放大~

pic_017

結(jié)語(yǔ)

從上面的分析中,結(jié)合直接和間接反映的結(jié)果,以及筆者的推斷,得出如下結(jié)論:

  • 數(shù)據(jù)分析相關(guān)的問題大都是提問者在上班“摸魚”期間提出的,也就是說(shuō),這部分用戶在知乎上的活躍時(shí)間是周一到周五,9:00-12:00,14:00-18:00;
  • 知乎上數(shù)據(jù)分析技巧類和學(xué)習(xí)方法類的內(nèi)容較為“吃香”,這也折射出這部分用戶執(zhí)著于對(duì)數(shù)據(jù)分析之“術(shù)”的追求,而對(duì)數(shù)據(jù)分析之“道”,即應(yīng)用的關(guān)注較少;

  • 虛擬貨幣、算法、大數(shù)據(jù)、數(shù)據(jù)庫(kù)等話題是數(shù)據(jù)分析相關(guān)提問中最為熱門的4個(gè)頭部話題;

  • 去年的數(shù)據(jù)(分析)話題的一個(gè)高峰,彼時(shí)相關(guān)崗位還比較熱門,但由于某些原因(中美貿(mào)易戰(zhàn)、經(jīng)濟(jì)下行等),這部分工作目前供過(guò)于求,不再是香餑餑了。

作者介紹

蘇格蘭折耳喵:達(dá)觀數(shù)據(jù)高級(jí)解決方案經(jīng)理。擅長(zhǎng)數(shù)據(jù)分析和可視化表達(dá),熱衷于用數(shù)據(jù)發(fā)現(xiàn)洞察,指導(dǎo)實(shí)踐。