色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達觀動態(tài)

達觀愿與業(yè)內同行分享 助力各企業(yè)在大數據浪潮來臨之際一起破浪前行

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福
這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

一、歷史背景解讀

 

18世紀英國業(yè)余(一點都不業(yè)余好嗎)數學家托馬斯·貝葉斯(Thomas Bayes,1702~1761)提出過一種看似顯而易見的觀點:“用客觀的新信息更新我們最初關于某個事物的信念后,我們就會得到一個新的、改進了的信念。”這個研究成果由于簡單顯得平淡無奇,直至他死后兩年才于1763年由他的朋友理查德·普萊斯幫助發(fā)表。

 

他的數學原理很容易理解,簡單說就是,如果你看到一個人總是做一些好事,則會推斷那個人多半會是一個好人。這就是說,當你不能準確知悉一個事物的本質時,你可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。

 

用數學語言表達就是:支持某項屬性的事件發(fā)生得愈多,則該屬性成立的可能性就愈大。與其他統計學方法不同,貝葉斯方法建立在主觀判斷的基礎上,你可以先估計一個值,然后根據客觀事實不斷修正。

1774年,法國數學家皮埃爾-西蒙·拉普拉斯(Pierre-Simon Laplace,1749-1827)獨立地再次發(fā)現了貝葉斯公式。拉普拉斯關心的問題是:當存在著大量數據,但數據又可能有各種各樣的錯誤和遺漏的時候,我們如何才能從中找到真實的規(guī)律。

 

拉普拉斯研究了男孩和女孩的生育比例。有人觀察到,似乎男孩的出生數量比女孩更高。這一假說到底成立不成立呢?拉普拉斯不斷地搜集新增的出生記錄,并用之推斷原有的概率是否準確。每一個新的記錄都減少了不確定性的范圍。拉普拉斯給出了我們現在所用的貝葉斯公式的表達:

 

P(A/B)=P(B/A)*P(A)/P(B),

 

該公式表示在B事件發(fā)生的條件下A事件發(fā)生的條件概率,等于A事件發(fā)生條件下B事件發(fā)生的條件概率乘以A事件的概率,再除以B事件發(fā)生的概率。公式中,P(A)也叫做先驗概率,P(A/B)叫做后驗概率。嚴格地講,貝葉斯公式至少應被稱為“貝葉斯-拉普拉斯公式”。

二、 原理推導

 

理論上,概率模型分類器是一個條件概率模型:

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

獨立變量C有若干類別,條件依賴于若干特征變量這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,但問題在于如果特征數量n的維度較大或者每個特征能取大量值時,基于概率模型列出概率表變得不現實。所以我們修改這個模型使之變得可行。?根據貝葉斯公式有以下式子:

 

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

或者,這樣表達比較簡潔明了:

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

其中,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福為先驗概率,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福為后驗概率;可以這么理解,在不知道需要預測的樣本任何特征的時候,先判斷該樣本為某個類別的概率這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福為,再知道樣本的特征之后,乘上這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福之后,得到該樣本再知這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

之后,樣本屬于這個類別的條件概這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福。這個乘上去的因子可能是起到促進的作用(當該因子大于1),也可能起到抑制的作用(當該因子小于1)。這個比較容易理解,比如沒有任何信息的時候,可以判斷一個官為貪官的概率為0.5,再知道該官員財產大于一千萬后,則根據常理判斷該官員為貪官的概率為0.8。

實際中,我們只關心分式中的分子部這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,因為分母不依賴于C,而且特征的值也是給定的,于是分母可以認為是一個常數。這樣分子就等價于聯合分布模型。

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?? ??? ? ??

現在,“樸素”的條件獨立假設開始發(fā)揮作用了:假設每個特這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,對于其他特征這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福是獨立的,即特征之間相互獨立,就有:

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

這里還要再解釋一下為什么要假設特征之間相互獨立。

?

我們這么想,假如沒有這個假設,在數據量很大的情況下,那么我們對右邊這些概率的估計其實是不可做的,這么說,假設一個分類器有4個特征,每個特征有10個特征值,則這四個特征的聯合概率分布是4維的,可能的情況就有這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

種。

?

計算機掃描統計還可以,但是現實生活中,往往有非常多的特征,每一個特征的取值也是非常之多,那么通過統計來估計后面概率的值,變得幾乎不可做,這也是為什么需要假設特征之間獨立的原因,樸素貝葉斯法對條件概率分布做了條件獨立性的假設,由于這是一個較強的假設,樸素貝葉斯也由此得名!這一假設使得樸素貝葉斯法變得簡單,但有時會犧牲一定的分類準確率。

?

有了特征相互獨立的條件以后,對這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,聯合分布模型可表達為:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

這就意味著,變量C的條件分布可以表達為:

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

其中,Z只依賴這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,當特征變量已知時Z是個常數。

?

至此,我們我們可以從概率模型中構造分類器,樸素貝葉斯分類器包括了這種模型和相應的決策規(guī)則。一個普通的規(guī)則就是選出最有可能的那個:這就是大家熟知的最大后驗概率(MAP)決策準則。相應的分類器便是如下定義的公式:

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

當特征值為離散型時:

?

類的先驗概率這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福可以通過訓練集的各類樣本的出現次數來估計,例如:這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福類的先驗概率這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,類條件概率這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福。即可求得這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福類的條件概率這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,最后比較各個類別的概率值的大小判斷該測試樣本應該屬于哪個類別。

?

當特征值為連續(xù)型時:

?

通常的假設這些連續(xù)數值為高斯分布。例如,假設訓練集中某個連續(xù)特征x。首先我們對數據類別分類,然后計算每個類別中x的均值和方差。令這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福表示為x在c類上的均值,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福表示為這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福在c類上的方差。在給定類中某個值的概率,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,可以通過將這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福表示為均值為這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福方差為這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福的正態(tài)分布計算出來。如下,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福。

?

處理連續(xù)數值問題的另一種常用的技術是通過離散化連續(xù)數值的方法,通常,當訓練樣本數量較少或者是精確的分布已知時,通過概率分布的方法是一種更好的選擇。在大量樣本的情形下離散化的方法表現更優(yōu),因為大量的樣本可以學習到數據的分布。由于樸素貝葉斯是一種典型的用到大量樣本的方法(越大計算量的模型可以產生越高的分類精確度),所以樸素貝葉斯方法都用到離散化方法,而不是概率分布估計的方法。

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

三、舉個栗子(實例)

?

這里舉兩個例子,一個離散型的,一個連續(xù)型的:

?

離散型實例,給定如下數據:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

根據以上數據,現在有一對男女朋友,男生向女生求婚,男生的四個特點分別是不帥,性格不好,身高矮,不上進,請判斷女生是嫁還是不嫁?

該問題轉換為數學問題就是比較這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福的概率。

?

由貝葉斯公式得:

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

假設各個特征相互獨立,即:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

首先我們整理訓練數據中:

嫁的樣本數總共有6個,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

不帥,也嫁了的樣本數總共有6個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

性格不好,也嫁了的樣本數總共有1個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福;;

矮,也嫁了的樣本數總共有1個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

不上進,也嫁了的樣本數總共有1個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福;

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

同理:

不嫁的樣本數總共有6個,這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福;

不帥,就不嫁的樣本數總共有1個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福;

性格不好,就不嫁的樣本數總共有3個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福=這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福;

矮,就不嫁的樣本數總共有6個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福;

不上進,就不嫁的樣本數總共有3個,則這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福;

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

由于分母都相同,且分子這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,所以走后得出的結論是該女生不嫁給這個男生。

?

連續(xù)型實例,給定訓練數據如下:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

通過以上人體測量特征,包括身高、體重、腳的尺寸,判斷一個人是男性還是女性。

測試樣本:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

首先,假設人的身高,體重,腳的尺寸都滿足高斯分布,分別計算各個特征的均值和方差,得到下表:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

其次,我們認為先驗概率是男性或者是女性是等概率的,即這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,或者通過統計樣本中男女比例來作為先驗概率也可以,本例得到的結果是一樣的。

?

判斷該條測試樣本屬于男性還是女性,就等價于比較是男性的后驗概率和女性的后驗概率哪個大。

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

分母是個常數,只需要比較分子就行,這里給出分母的值:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

? ? ? ? ? ??

計算男性的后驗概率:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,其中這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,這里大于1是因為是概率密度函數,而不是概率分布函數,所以大于1也是合理的。

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

 

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

由于女性的后驗概率分子較大,所以我們預測這個樣本的為女性。

四、實戰(zhàn)運用

 

達觀數據作為在文本智能處理領域的領先企業(yè),在文本挖掘領域有著深厚的技術底蘊。在實際的工作中有大量的文本分類的實際運用場景。下面將舉一個常見的例子:廣告識別。

?

這里有一批已經標注好的用戶評論數據如下圖,我們定義有聯系方式的評論為廣告,即廣告識別等價于識別是否包含聯系方式。

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

首先,將每條評論轉換為詞向量,這里我們使用python的分詞包jieba來進行分詞,例如上圖中的某條評論:”您好您可以在網貸之家httpshujuwangdaizhijiacomarchives387html看到迷你貸的相關數據哦,其他第三方網站都是不準確的?!?,分詞結果為:“您好/您/可以/在/網貸/之家/httpshujuwangdaizhijiacomarchives387html/看到/迷你/貸/的/相關/數據/哦/,/其他/第三方/網站/都/是/不/準確/的/。”。

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

然后,將語料庫(corpus)中所有的評論分詞后的詞語作為一個集合,稱為詞袋(Bag of words)。計算每條評論中每個詞語的TF-IDF值,TF-IDF公式為:

? ? ? ? ? ? ? ? ? ? ? ? ? ??

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,這里除以總評論數是將詞頻歸一化了;

??????

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福,這里+1是為了避免分母為0。

??????

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

 

TF-IDF值的意義是:

?

一個詞語在評論中出現次數越多, 同時在所有評論中出現次數越少, 越能夠代表該評論。每條評論根據詞袋構建一個數字向量,向量長度為詞袋的詞語總數,每個詞對應一維特征,如果該詞在這條評論中,則這維特征是這個詞語的TF-IDF值;如果該詞不在評論中,則這維特征為0。這樣就將每條評論轉換為一個向量。

?

假設特征之間是相互獨立的,該例子就轉換為連續(xù)型的貝葉斯分類器。當然,這里也可以用這個詞語的詞頻來作為特征,這時該例子為離散型的貝葉斯分類器,這里我們用TF-IDF值。本例子使用scikit-learn中的Naive Bayes模塊,這個模塊中有三個訓練模塊:GaussianNB、MultinomialNB、BernoulliNB,分別是高斯樸素貝葉斯、多項式分布樸素貝葉斯和伯努利樸素貝葉斯。多項式分布是將重復詞語是為其重復多次,伯努利樸素貝葉斯是將重復的詞語視為其只出現1次,本例子是連續(xù)型的這里我們用高斯樸素貝葉斯。將轉換后的數據90%作為訓練集,10%作為測試集,部分代碼如圖:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

?

進行交叉驗證后得到的結果如圖:

?

這個男人嫁還是不嫁?懂點樸素貝葉斯(Naive Bayes)原理讓你更幸福

五、綜述

 

貝葉斯分類器是一種生成式模型,通過計算概率來進行分類,可以用來處理多分類問題,對于小規(guī)模的數據預測,同樣表現良好。貝葉斯分類器適合多分類任務,適合增量式訓練,對于大規(guī)模數據,計算復雜度較低,同時算法原理比較簡單易懂。

?

但缺點是,對輸入數據比較敏感,而且貝葉斯分類器是假設特征之間相互獨立,而往往實際例子中特征之間都有相互聯系,所以對于特征之間相關性較強的運用場景,準確率上會有一定損失;并且連續(xù)型的特征是假設該特征滿足高斯分布,同樣會帶來一定準確率上的損失。所以在實際運用當中,充分考慮特征之間的相關性和特征的分布情況是至關重要的。

 

References

 

 

1.? 李賢平.概率論基礎(第三版)[M]. 高等教育出版社,2010.

2.? 李航.統計學習方法[M]. 北京:清華大學出版社 2012.

3.? 鐘波 劉瓊蓀.數理統計[M]. 高等教育出版社,2012.

4.? Domingos, Pedro; Pazzani, Michael.?On the optimality of the simple Bayesian classifier under zero-one loss.?Machine Learning. 1997,?29: 103–137.

5.? Webb, G. I.; Boughton, J.; Wang, Z.?Not So Naive Bayes: Aggregating One-Dependence Estimators. Machine Learning (Springer). 2005,?58?(1): 5–24.?doi:10.1007/s10994-005-4258-6.

A

BOUT

關于作者

孟禮斌,達觀數據算法工程師,負責達觀數據個性化推薦系統的研發(fā)、優(yōu)化,以及推薦系統中機器學習算法的具體應用,對各種機器學習算法有濃厚興趣。