據(jù)中國新聞網(wǎng)報道,2020年度中央機關(guān)及其直屬機構(gòu)公務員招考筆試有超143萬人報名,涉及中央和國家機關(guān)86個單位、23個直屬機構(gòu),而計劃招錄2.4萬人,通過資格審查人數(shù)與錄用計劃數(shù)之比約為60:1,在報名期間出現(xiàn)多個競爭超“千里挑一”的職位也就不足為奇了。
雖然筆者沒參加過國家公務員考試(以下簡稱“國考”),但本著“內(nèi)行看門道,外行看熱鬧”的心態(tài),筆者想一個旁觀者的視角,通過一些語義分析技術(shù)去發(fā)現(xiàn)近八年(2011~2018)國考行政職業(yè)能力測驗(以下簡稱“行測”)考了哪些內(nèi)容,看能否有一些規(guī)律性的發(fā)現(xiàn)。
數(shù)據(jù)來源
“行程計算”類考題是重軸戲

- 小王步行的速度比跑步慢50%,跑步的速度比騎車慢50%。如果他…問小王跑步從A城到B城需要多少分鐘 ;
甲、乙兩人計劃從A地步行去B地,乙早上7︰00出發(fā),勻速步行前往,…,為了追上乙,甲決定跑步前進,跑步的速度是乙步行速度的2.5倍,但每跑半小時都需要休息半小時,那么甲什么時候才能追上乙 ;
如右圖所示,甲乙兩人從A、B兩點同時出發(fā),朝不同方向沿小路散步,已知甲的速度是乙的2倍。問以下哪個坐標圖能準確描述兩人之間的直線距離與時間的關(guān)系?
Note
-
詞頻:一般詞匯出現(xiàn)的次數(shù)越多,它的重要程度越高; -
位置:句首、句中還是句末,一般來說,句中的詞匯權(quán)重會高一些; -
詞性:名詞、動詞); -
詞長:詞匯的長度,一般來說,詞匯的長度越長,好漢的語義信息越豐富,給的權(quán)重也更高一些。
近八年所有題干的詞匯關(guān)聯(lián)圖
字體大小表示詞匯的權(quán)重值大小,原理同上,能反映詞匯在評論中的重要性
不同的顏色代表不同的話題
詞匯之間距離越近,說明它們在同一語境中出現(xiàn)的頻率較高,越具有語義相關(guān)性,比如“速度”、“執(zhí)法船”、“行駛”、“小時”和“騎車”等詞匯挨得很近,我們能迅速聯(lián)想這些關(guān)鍵詞跟試題中的“行程問題”有關(guān),而不是跟政治、物理或者汽車有關(guān)。
行程類:這類題一般涉及到路程、速度、時間三者的變化關(guān)系,主要反映在紫色系的詞匯簇群中,從“速度”、“行駛”、“距離”、“騎車”等詞匯可以看出;
生物醫(yī)學常識類:這類題主要考察應試者對于生物和醫(yī)學相關(guān)常識的知識覆蓋面,主要反映在深藍色的詞匯簇群中,從“抽搐”、“浮游植物”、“懸浮質(zhì)”、“海水”等詞匯可以看出;
財政學類:這類題主要考察應試者在宏觀經(jīng)濟相關(guān)指標的簡單計算能力,主要反映在土黃色的詞匯簇群中,從“交易規(guī)?!薄ⅰ翱傤~”、“水產(chǎn)品”、“同比增長”等詞匯可以看出;
場景計算類:這類題從應試者的生活、工作場景出發(fā),考察應試者的基本計算能力,主要反映在青綠色和寶石藍兩個詞匯簇群中,從“培訓”、“部門”、“單位”、“平均年齡”、“概率”、“定價”和“余額”等詞匯可以看出。
Note:
此處的詞匯關(guān)聯(lián)圖基于HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)實現(xiàn)。相較于傳統(tǒng)的聚類算法(K-means、Spectral clustering、Agglomerative clustering、DBSCAN等),它有如下3大優(yōu)良特性:
-
不需要設定聚類數(shù),有算法自動算出來簇群數(shù) -
可以較好的處理數(shù)據(jù)中的噪音 -
可以找到基于不同密度的簇(與DBSCAN不同),并且對參數(shù)的選擇更加魯棒(Robust,模型更加健壯)
近八年各年份試題的相似度度量
-
從歷年的考題內(nèi)容相似度來看,2011年和2012年、2017年和2018年的試題內(nèi)容相關(guān)度較高,也就意味著出題結(jié)構(gòu)的連續(xù)性較好,以此類推,2013年度、2014年度、2015年度和2016年度的試題連續(xù)性也較好。與之相反的是,2012年度、2013年度的出題內(nèi)容相似度較低,出題內(nèi)容有一定的跳躍性。總體上來看,國考試題在出題內(nèi)容上的連續(xù)性較好,只是偶爾出現(xiàn)變動。
-
從歷年試題的特征來看,2011年的人文特征較為明顯,2018年的經(jīng)濟方面的試題較多,2018年的邏輯測試較突出,2015年的語言學方面出題較多,2016年的偏計算,其他年份的特征不甚突出。
Note: