色屁屁www影院免费观看入口,欧美性猛交ⅹxxx乱大交妖精,欧美激情第5页,欧美性猛交xxxx三人,欧美一a级做爰片大开眼界

達(dá)觀動(dòng)態(tài)

達(dá)觀愿與業(yè)內(nèi)同行分享 助力各企業(yè)在大數(shù)據(jù)浪潮來臨之際一起破浪前行

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

當(dāng)面對(duì)眾多選擇時(shí),如何選才能最大化收益(或者說最小化我們的開銷)?比如,怎么選擇最優(yōu)的上班的路線才能使途中花費(fèi)的時(shí)間最少?假設(shè)每天上下班路線是確定的,我們便可以在賬本中記下往返路線的長(zhǎng)度。

?

A/B測(cè)試便是基于數(shù)據(jù)來進(jìn)行優(yōu)選的常用方法,在記錄多次上班路線長(zhǎng)度后,我們便會(huì)從數(shù)據(jù)中發(fā)現(xiàn)到一些模式(例如路線A比路線B花的時(shí)間更少),然后最終一致選擇某條路線。

?

當(dāng)A/B測(cè)試遇到非簡(jiǎn)單情況時(shí)(如分組不夠隨機(jī)時(shí),或用戶量不夠大到可以忽略組間差異,或不希望大規(guī)模A/B測(cè)試長(zhǎng)期影響一部分用戶的收益),該怎樣通過掌握理論知識(shí)來更好的指導(dǎo)實(shí)踐呢?本文嘗試通過由淺入深的介紹,希望能夠幫助大家對(duì)A/B測(cè)試有更加深入的理解。

NO.1

達(dá)觀數(shù)據(jù)丨A/B測(cè)試數(shù)學(xué)原理

為什么需要A/B測(cè)試

任何問題,只要它的每個(gè)選項(xiàng)能夠被多次進(jìn)行測(cè)試,并且每個(gè)選項(xiàng)在被測(cè)試時(shí)都能返回固定的結(jié)果,那么它就能使用A/B測(cè)試技術(shù)來進(jìn)行優(yōu)化。在上述例子中,每天的上下班路線是確定的,所以我們能夠在賬本中記下往返路線的長(zhǎng)度。

那么什么樣的路線對(duì)于用戶來說才是一個(gè)好的方案呢?是考慮路線A還是B?什么時(shí)候用戶才有充分的數(shù)據(jù)去確定哪條線路是最好的?測(cè)試線路好與不好的最優(yōu)策略又是什么?圖1用形式化概括定義了問題。

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

圖1 形式化定義的問題

在這個(gè)場(chǎng)景中,參與的用戶正面臨一個(gè)選擇,根據(jù)他的決策會(huì)生成一個(gè)結(jié)果,而這個(gè)結(jié)果會(huì)對(duì)應(yīng)一份給參與者的反饋。假設(shè)用戶持續(xù)地暴露于這個(gè)決策,他應(yīng)該怎么制定獲得最大收益(或等效地說,最小成本)的策略?

圖1中假定了用戶多次處于需要進(jìn)行選擇的場(chǎng)景中,每一次進(jìn)行決策都會(huì)達(dá)成一項(xiàng)結(jié)果,而這個(gè)結(jié)果會(huì)關(guān)聯(lián)相應(yīng)的反饋。在上下班這個(gè)例子中,假定他每天都需要上下班,而且他每次上下班都必須進(jìn)行線路的選擇,產(chǎn)出的結(jié)果是這次上下班中所有因素的結(jié)合體,反饋就是從這些因素中構(gòu)建出來的(陳運(yùn)文 達(dá)觀數(shù)據(jù))。

這是個(gè)淺顯的例子,在互聯(lián)網(wǎng)產(chǎn)品研發(fā)時(shí),有大量類似的場(chǎng)景需要做出各種正確的選擇,例如:

1

著陸頁(yè)優(yōu)化(Landing-page optimization)

在用戶點(diǎn)擊去往的頁(yè)面(著陸頁(yè)),如何獲得最大的轉(zhuǎn)化率(常用計(jì)算方法為有購(gòu)買行為或深度網(wǎng)頁(yè)交互行為的用戶數(shù)占網(wǎng)站訪問總用戶數(shù)的比率)。決策要考慮到著陸頁(yè)的形式和內(nèi)容(要從可能已有的3或4個(gè)備選方案中做出選擇),希望能夠從候選集合中選出最好的著陸頁(yè),以能夠吸引來訪的用戶,并讓深度交互或者購(gòu)買行為的概率最大化。

2

廣告創(chuàng)意優(yōu)化(Ad creative optimization)

在線廣告提出了許多適合機(jī)器學(xué)習(xí)技術(shù)應(yīng)用的挑戰(zhàn),其中之一就是如何選擇廣告的形式和內(nèi)容。當(dāng)我們決定將要進(jìn)行廣告展示,以及確定了廣告的價(jià)格后,在這個(gè)廣告位上選擇放置什么廣告呢?我們需要對(duì)大量的決策進(jìn)行測(cè)試,選出正確的廣告創(chuàng)意組合。

 

NO.2

達(dá)觀數(shù)據(jù)丨A/B測(cè)試的數(shù)學(xué)原理

什么是A/B測(cè)試

經(jīng)常遇到的問題是,我們應(yīng)該怎么評(píng)估各不相同的決策,以及應(yīng)該采用哪些策略來測(cè)試我們的產(chǎn)出? A/B測(cè)試(A/B testing)就是其中之一的方法。A/B測(cè)試近年來很受歡迎,但大部分產(chǎn)品經(jīng)理也許會(huì)簡(jiǎn)單地認(rèn)為它只不過是一種包含兩個(gè)組的實(shí)驗(yàn),其實(shí)背后有更為復(fù)雜的數(shù)學(xué)統(tǒng)計(jì)理論知識(shí)。

 

具體細(xì)節(jié)

當(dāng)進(jìn)行A/B測(cè)試時(shí),通常會(huì)采用兩個(gè)(或多個(gè))組:A組和B組。第一個(gè)組是對(duì)照組,第二個(gè)組會(huì)改變其中一些因素。就以著陸頁(yè)優(yōu)化為例,A組會(huì)展示現(xiàn)有的著陸頁(yè),B組會(huì)展示一個(gè)內(nèi)容或者內(nèi)容作了某些修改的新著陸頁(yè)。A/B測(cè)試的目的就是嘗試了解新的布局是否在統(tǒng)計(jì)上顯著地改變了轉(zhuǎn)化率。

特別值得注意的是,將用戶分配到對(duì)應(yīng)的組需要經(jīng)過深思熟慮。對(duì)于A/B測(cè)試,我們可以高效地進(jìn)行隨機(jī)分組。當(dāng)用戶數(shù)量較大時(shí),各組間用戶行為可以假設(shè)是相同的(即組間沒有偏差)。但是,這里有三個(gè)非常重要的關(guān)鍵點(diǎn),是大家有必要進(jìn)一步理解其數(shù)學(xué)理論原理的原因:

1
問題1
怎樣驗(yàn)證兩個(gè)組的用戶的行為是無偏差、完全相同的

2
問題2

當(dāng)兩個(gè)組的用戶行為不完全相同時(shí)(例如分組不夠隨機(jī)或者組內(nèi)用戶數(shù)量較小時(shí)),該如何設(shè)計(jì)AB測(cè)試以實(shí)現(xiàn)期望的驗(yàn)證結(jié)果

3
問題3

當(dāng)用戶基礎(chǔ)行為受其他因素影響發(fā)生整體變化了呢?例如季節(jié)、時(shí)間波動(dòng)、熱度等因素影響下,怎樣更好的剔除干擾來評(píng)估結(jié)果

NO.3

達(dá)觀數(shù)據(jù)丨A/B測(cè)試的數(shù)學(xué)原理

AB測(cè)試的統(tǒng)計(jì)理論

假設(shè)我們已經(jīng)構(gòu)建了兩組數(shù)目較大的用戶組,這些用戶組的區(qū)別僅在于他們到達(dá)的著陸頁(yè)。我們現(xiàn)在希望能測(cè)試兩組間的轉(zhuǎn)化率在統(tǒng)計(jì)上是否存在明顯差異。由于樣本量大,我們可以采用雙樣本單尾z-檢驗(yàn)(two-sample, one-tailed z-test)。另外,對(duì)于較小的樣本集合,我們可以依賴于t-檢驗(yàn)。

z檢驗(yàn)(z-test)是在數(shù)據(jù)是正態(tài)分布和隨機(jī)抽樣的假設(shè)下運(yùn)行的,目的是驗(yàn)證測(cè)試集(B組)是否與該對(duì)照集(A組)有顯著不同,但是如何執(zhí)行這個(gè)測(cè)試呢?

 

假設(shè)有來自A組和B組中的每一組的5,000個(gè)樣本。我們需要一個(gè)數(shù)學(xué)公式來說明我們的零假設(shè)(null hypothesis)——兩組群體的轉(zhuǎn)化率沒有顯著的正差異,和備擇假設(shè)(或稱對(duì)立假設(shè),alternative hypothesis)——不同人群間的轉(zhuǎn)化率確實(shí)存在著正差異。

我們可將采樣轉(zhuǎn)化率視為一個(gè)正態(tài)分布的隨機(jī)變量,也就是說,采樣的轉(zhuǎn)化率是在正態(tài)分布下對(duì)轉(zhuǎn)化率的一個(gè)觀測(cè)。要了解這一點(diǎn),請(qǐng)考慮從同一組中提取多個(gè)樣本進(jìn)行實(shí)驗(yàn)將導(dǎo)致略有不同的轉(zhuǎn)化率。每當(dāng)對(duì)某組進(jìn)行抽樣時(shí),可獲得群體轉(zhuǎn)化率的估計(jì),對(duì)于A組和B組都是如此。為此我們提出一個(gè)新的正態(tài)隨機(jī)變量,它是A和B組的隨機(jī)變量的組合,是差值的分布。讓我們用X來表示這個(gè)新的隨機(jī)變量,定義為:

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

其中,Xe表示實(shí)驗(yàn)組的轉(zhuǎn)化率的隨機(jī)變量,Xn表示對(duì)照組的轉(zhuǎn)化率的隨機(jī)變量?,F(xiàn)在我們可以寫出零假設(shè)和備擇假設(shè)。零假設(shè)可以表示為:

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

這表示實(shí)驗(yàn)組和對(duì)照組是相同的。兩個(gè)隨機(jī)變量Xe和Xn分布在相同的群體平均值周圍,所以我們的新隨機(jī)變量X應(yīng)該分布在0左右。我們的備擇假設(shè)可以表示如下:

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

實(shí)驗(yàn)組的隨機(jī)變量的期望值大于對(duì)照組的期望值;該群體的平均值較高。

 

我們可以在零假設(shè)的前提下,對(duì)X的分布執(zhí)行單尾z檢驗(yàn),以確定是否有證據(jù)支持備擇假設(shè)。為了達(dá)到這個(gè)目的,我們對(duì)X進(jìn)行采樣,計(jì)算標(biāo)準(zhǔn)分,并測(cè)試已知的顯著性水平。

X的采樣等效于運(yùn)行兩個(gè)實(shí)驗(yàn),確定它們各自的轉(zhuǎn)化率,并將對(duì)照組和實(shí)驗(yàn)組的轉(zhuǎn)化率相減。按照標(biāo)準(zhǔn)分的定義,可以寫作:

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

其中,P_experiment是實(shí)驗(yàn)組的轉(zhuǎn)化率,P_control?是對(duì)照組的轉(zhuǎn)化率,SE是轉(zhuǎn)化率差值的標(biāo)準(zhǔn)差。

為確定標(biāo)準(zhǔn)誤差,注意到轉(zhuǎn)化過程是符合二項(xiàng)分布的,因此訪問該網(wǎng)站可以被看作單次伯努利試驗(yàn)(single Bernoulli trial),而積極結(jié)果(完成轉(zhuǎn)化)的可能性是未知的。

假設(shè)樣本數(shù)量足夠大,我們可以使用廣泛采用的Wald方法(參考Lawrence D. Brown, T. Tony Cai, and Anirban DasGupta, “Confidence Intervals for a Binomial Proportion and Asymptotic Expansions,” The Annals of Statistics 30, no. 1 (2002): 160–201.)將該分布近似為正態(tài)分布。為了捕獲特定轉(zhuǎn)化率的不確定性,我們可以將標(biāo)準(zhǔn)誤差(SE)寫入實(shí)驗(yàn)組和對(duì)照組,其中p是轉(zhuǎn)化的可能性,n是樣本數(shù)量,具體如下:

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

從二項(xiàng)分布(np(1-p))的方差得到分子,而分母表示當(dāng)采用更多的樣本時(shí),轉(zhuǎn)化率的誤差會(huì)隨之下降。請(qǐng)注意正面結(jié)果的概率等同于轉(zhuǎn)化率,并且因?yàn)閮蓚€(gè)變量的標(biāo)準(zhǔn)誤差可以通過相加來合并,得到如下結(jié)果:

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

 

通過替換,可獲得如下的z檢驗(yàn)公式,這是一個(gè)符合二項(xiàng)分布的Wald(或正態(tài))區(qū)間的公式:

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

z的值越大,反對(duì)零假設(shè)的證據(jù)就越多。為了獲得單尾測(cè)試的90%置信區(qū)間,我們的z值將需要大于1.28。這實(shí)際上這是指在零假設(shè)(A組和B組的人口平均值是相同的)的條件下,等于或大于這個(gè)轉(zhuǎn)化率差值的偶然發(fā)生的概率小于10%。

換句話說,在對(duì)照組和實(shí)驗(yàn)組的轉(zhuǎn)化率來自具有相同平均值的分布的假設(shè)前提下,如果運(yùn)行相同的實(shí)驗(yàn)100次,只會(huì)有10次具有這樣的極端值。我們可以通過95%的置信區(qū)間,更嚴(yán)格的邊界和更多的證據(jù)來反對(duì)零假設(shè),這時(shí)需要將z值增加到1.65。

研究影響z大小的因素會(huì)帶來很多有用的幫助。很顯然,如果在一個(gè)給定的時(shí)間點(diǎn)從一個(gè)實(shí)驗(yàn)集和一個(gè)對(duì)照集中提取兩個(gè)轉(zhuǎn)化率,轉(zhuǎn)化率的差值越大將導(dǎo)致z分?jǐn)?shù)越大。因此就有了更多的證據(jù)表明兩個(gè)集合分別來自不同的人群,而且這些人群帶有不同的均值。然而樣品的數(shù)量也很重要,如你所見,大量樣本將導(dǎo)致總體較小的標(biāo)準(zhǔn)誤差。這表明運(yùn)行實(shí)驗(yàn)的時(shí)間越長(zhǎng),轉(zhuǎn)化率的估算越準(zhǔn)確。

 

NO.4

達(dá)觀數(shù)據(jù)丨A/B測(cè)試的數(shù)學(xué)原理

評(píng)估效果的代碼實(shí)現(xiàn)

設(shè)想你在負(fù)責(zé)大型零售網(wǎng)站,設(shè)計(jì)團(tuán)隊(duì)剛剛修改了著陸頁(yè)。每周有約20,000用戶,并可以量化用戶的轉(zhuǎn)化率:即購(gòu)買產(chǎn)品的百分比。設(shè)計(jì)團(tuán)隊(duì)向你保證新網(wǎng)站將帶來更多的客戶。但你不太確定,希望運(yùn)行A / B測(cè)試來看看效果是否真的會(huì)提高。

用戶在第一次訪問網(wǎng)站時(shí)被隨機(jī)分配到A組或B組,并在實(shí)驗(yàn)期間始終保留在該組中,實(shí)驗(yàn)結(jié)束時(shí)評(píng)估兩組用戶的平均轉(zhuǎn)化率。統(tǒng)計(jì)結(jié)果是,新著陸頁(yè)的平均轉(zhuǎn)化率是0.002,而原先的著陸頁(yè)的平均轉(zhuǎn)化率是0.001。在著陸頁(yè)永久更改為新設(shè)計(jì)之前,你需要知道這一增長(zhǎng)是否足夠明確。下面這段代碼幫你回答這個(gè)問題。

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

這段代碼獲取實(shí)驗(yàn)中z的值,在上述參數(shù)條件下z值為1.827,超過了92%置信區(qū)間,但不在95%的區(qū)間內(nèi)。可以說,從控制分布中抽取數(shù)據(jù)的概率小于0.08。因此在該區(qū)間內(nèi)數(shù)據(jù)提升是顯著的。我們應(yīng)該否定零假設(shè),接受備擇假設(shè),即組之間有差異,第二組具有較高的轉(zhuǎn)化率。如果我們控制了用戶組的所有其他方面,就意味著網(wǎng)站的新設(shè)計(jì)產(chǎn)生了積極的效果。

你應(yīng)該能夠從代碼中看到轉(zhuǎn)化率分布的標(biāo)準(zhǔn)誤差對(duì)返回的z值有直接影響。 對(duì)給定的常數(shù)值p_experiment和p_control,兩個(gè)組的SE越高,z的數(shù)值越小,結(jié)果就越不顯著。還注意到由于SE的定義,z的數(shù)值與樣本的數(shù)量具有直接關(guān)系,對(duì)于給定的轉(zhuǎn)換概率也同樣如此。圖2展示了這種關(guān)系。

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

圖2

 

圖2 展示了A / B組的固定轉(zhuǎn)化率,以及A / B組中的用戶數(shù)量和z值之間的關(guān)系。 假設(shè)轉(zhuǎn)化率不會(huì)隨著我們收集更多數(shù)據(jù)而改變,我們需要每個(gè)組中大約3,000個(gè)用戶達(dá)到70%的置信區(qū)間。 要達(dá)到80%的置信區(qū)間時(shí)需要每組約5000個(gè)用戶,達(dá)到90%時(shí)需要 7500個(gè)用戶,達(dá)到95%時(shí)需要12000個(gè)用戶。

 

圖2中可見對(duì)于兩個(gè)組的給定轉(zhuǎn)化率,測(cè)試組中的用戶越多,備擇假設(shè)的證據(jù)就越充分。直觀上來看這很容易理解:當(dāng)收集的數(shù)據(jù)越多,我們對(duì)結(jié)果越自信!我們也可以繪制一張類似的圖,保持用戶數(shù)量不變,改變組之間的差異。但必須注意,對(duì)正在關(guān)注的應(yīng)用,不應(yīng)該期望效果的大幅度變化。

 

NO.5

達(dá)觀數(shù)據(jù)丨A/B測(cè)試的數(shù)學(xué)原理

A/B測(cè)試方法的副作用和處理辦法

對(duì)于非常小的效果變化,往往都需要?jiǎng)?chuàng)建相當(dāng)大的對(duì)照組和測(cè)試組來實(shí)現(xiàn)AB測(cè)試,這個(gè)的代價(jià)往往是很大的。設(shè)想下在零售商場(chǎng)中,每天觀察到的用戶數(shù)量,往往需要很久的時(shí)間才能得出明顯的結(jié)論。在實(shí)際業(yè)務(wù)應(yīng)用中,會(huì)遇到的問題是:當(dāng)你運(yùn)行測(cè)試時(shí)整體運(yùn)行的效果是受到很大影響的,因?yàn)楸仨氂幸话氲挠脩籼幱谛Ч患训膶?shí)驗(yàn)組,或者有一半的用戶處于效果不佳的對(duì)照組,而且你必須等待測(cè)試完成才能停止這種局面。

 

這是被稱為探索利用難題(explore-exploit conundrum)的一個(gè)經(jīng)典問題。我們需要運(yùn)行次優(yōu)方法,以探索空間,并找到效果更好的解決方案,而一旦找到了更好的解決方案,我們還需要盡快利用它們來實(shí)現(xiàn)效果提升。能否可以更快地利用新的解決方案,而不必等待測(cè)試完全完成呢?答案是肯定的。下面簡(jiǎn)單介紹下多臂賭博機(jī)(multi-armed bandit,MAB)的概念。

 

1

多臂賭博機(jī)的定義

 

多臂賭博機(jī)(multi-armed bandit,MAB)的名字來源于著名的賭博游戲角子賭博機(jī)(one-armed bandit)。對(duì)那些從沒去過賭場(chǎng)的人,我們來做下解釋:角子機(jī)(又稱老虎機(jī))是一個(gè)需要你拉杠桿(或搖臂)的賭博機(jī)器,根據(jù)機(jī)器展示的數(shù)值,你可能會(huì)得到一筆獎(jiǎng)勵(lì),也可能(更大幾率)得不到任何東西。和你想的一樣,這些機(jī)器的設(shè)置都對(duì)莊家有利,所以能獲的獎(jiǎng)勵(lì)的幾率是非常非常小的。

多臂賭博機(jī)(理論上的)擴(kuò)展了這種形式,想象你面對(duì)的是一堆角子賭博機(jī),每個(gè)賭博機(jī)都被分配按照一個(gè)獨(dú)立的概率進(jìn)行獎(jiǎng)勵(lì)。作為一個(gè)玩家,你不知道在這些機(jī)器后的獲獎(jiǎng)概率,你唯一可以找到獲獎(jiǎng)概率的方法是進(jìn)行游戲。你的任務(wù)是通過玩這些機(jī)器,最大限度地提高所獲的獎(jiǎng)勵(lì)。那么你應(yīng)該使用什么策略呢?

 

2

多臂賭博機(jī)策略

 

為了更嚴(yán)格地定義問題,我們通過數(shù)學(xué)形式化來表達(dá),假設(shè)現(xiàn)在有k個(gè)賭博機(jī),可觀察到的每臺(tái)的獲獎(jiǎng)概率等于p_k。假設(shè)一次只能拉動(dòng)一個(gè)搖臂,并且賭博機(jī)只會(huì)按照它關(guān)聯(lián)的概率機(jī)型獎(jiǎng)勵(lì)。這是一個(gè)設(shè)置了限定局?jǐn)?shù)的有限次的游戲。在游戲期間任意時(shí)間點(diǎn)時(shí),水平線H被定義為允許的剩余游戲的數(shù)量。

對(duì)所有機(jī)器用戶會(huì)嘗試最大化的獲獎(jiǎng)回報(bào)。在游戲中的任一時(shí)間點(diǎn),我們都可以通過使用稱為遺憾值(regret)來度量用戶的表現(xiàn)。遺憾值的意思是,假設(shè)用戶能在每一步選擇最優(yōu)的賭博機(jī),得到的獎(jiǎng)勵(lì)和目前獲得的實(shí)際獎(jiǎng)勵(lì)的差值。遺憾值的數(shù)學(xué)定義為:

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

其中T表示我們到目前為止進(jìn)行過的步數(shù),r_t表示在第t步獲得的獎(jiǎng)勵(lì),u_opt表示每一局從最優(yōu)賭博機(jī)返回來的期望獎(jiǎng)勵(lì)。遺憾值的數(shù)值越低,策略越優(yōu)。但因?yàn)檫@個(gè)度量值會(huì)受到偶然性的影響(獎(jiǎng)勵(lì)可能會(huì)被從最優(yōu)賭博機(jī)選擇中獲得的期望獎(jiǎng)勵(lì)更高),我們可以選擇使用遺憾值的期望值代替,定義為:

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

其中μ_t是在第t步從賭博機(jī)中獲得的平均獎(jiǎng)勵(lì)(不可觀測(cè)的)。因?yàn)榈诙?xiàng)是來自所選策略的期望獎(jiǎng)勵(lì),所以它將小于或等于來自最優(yōu)策略(每一步都選擇最優(yōu)的賭博機(jī))的期望獎(jiǎng)勵(lì)。

 

3

Epsilon優(yōu)先方法

 

Epsilon優(yōu)先(Epsilon first)是MAB策略中最簡(jiǎn)單的一種方式,它被認(rèn)為和事先執(zhí)行A/B測(cè)試方法具有同等意義。給定ε,執(zhí)行探索空間操作的次數(shù)為(1 – ε) × N,其中N是游戲中總共的局?jǐn)?shù),剩余的次數(shù)都是執(zhí)行后續(xù)探索的局?jǐn)?shù)。

update_best_bandit算法會(huì)持續(xù)統(tǒng)計(jì)記錄每一個(gè)賭博機(jī)的獎(jiǎng)勵(lì)收入和游戲局?jǐn)?shù)。變best_bandit會(huì)在每一局結(jié)束進(jìn)行更新,記錄當(dāng)前具有最高獲獎(jiǎng)概率的賭博機(jī)的編號(hào),流程如下:

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

4

Epsilon貪婪

 

Epsilon貪婪(epsilon-greedy)策略中,ε表示我們進(jìn)行探索空間的概率,和進(jìn)行利用已知最優(yōu)搖臂的事件互斥

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

該方法的特點(diǎn):不需要等到探索階段完成,才能開始利用有關(guān)賭博機(jī)的獎(jiǎng)勵(lì)表現(xiàn)的知識(shí)。但要小心,該算法不會(huì)考慮效果數(shù)據(jù)的統(tǒng)計(jì)意義。因此可能發(fā)生這樣的情況:個(gè)別賭博機(jī)的獎(jiǎng)勵(lì)峰值導(dǎo)致后續(xù)的所有局游戲都錯(cuò)誤地選擇了這個(gè)賭博機(jī)(陳運(yùn)文 達(dá)觀數(shù)據(jù))。

 

5

Epsilon遞減

 

Epsilon遞減(epsilon-decreasing)策略在實(shí)驗(yàn)開始階段,會(huì)有一個(gè)很高的ε值,所以探索空間的可能性很高。ε值會(huì)隨著水平線H上升而不斷遞減,致使利用似然知識(shí)的可能性更高。

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

需要注意這里有幾種方法去來選擇一個(gè)最優(yōu)的速率來更新ε值,具體取決于賭博機(jī)的數(shù)量,以及他們各自進(jìn)行獎(jiǎng)勵(lì)的權(quán)重。

 

6

貝葉斯賭博機(jī)

 

與A / B測(cè)試類似,貝葉斯賭博機(jī)(Bayesian bandits)假設(shè)每個(gè)賭博機(jī)的獲獎(jiǎng)概率被建模為獲獎(jiǎng)概率的分布。當(dāng)我們開始實(shí)驗(yàn)時(shí),每個(gè)賭博機(jī)都有一個(gè)通用的先驗(yàn)概率(任意賭博機(jī)的獎(jiǎng)勵(lì)比率初始都是同等的)。

在某一個(gè)賭博機(jī)上進(jìn)行的局?jǐn)?shù)越多,我們對(duì)它的獎(jiǎng)勵(lì)信息就了解越多,所以基于可能的獎(jiǎng)勵(lì)概率更新其獲獎(jiǎng)概率分布。當(dāng)需要選擇玩哪一個(gè)賭博機(jī)的時(shí)候,從獲獎(jiǎng)概率分布中采樣,并選擇對(duì)應(yīng)樣本中具有最高獎(jiǎng)勵(lì)比率的賭博機(jī)。圖3提供了在給定時(shí)間內(nèi)對(duì)三個(gè)賭博機(jī)所含信息的圖形化表示。

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起

圖3

 

使用貝葉斯賭博機(jī)策略對(duì)三個(gè)賭博機(jī)的獲獎(jiǎng)概率信息進(jìn)行建模。第1、2和3個(gè)賭博機(jī)的平均獲獎(jiǎng)率分別為0.1、0.3和0.4。 第1個(gè)賭博機(jī)具有較低的平均值而且方差也比較大,第2個(gè)賭博機(jī)具有較高的平均值和較小的方差,第3個(gè)賭博機(jī)具有更高的平均值和更小的方差。

 

可以看到關(guān)于賭博機(jī)的獲獎(jiǎng)概率分布的信息被編碼為三個(gè)分布。每個(gè)分布具有遞增的平均值和遞減的方差。因此,我們不太確定獎(jiǎng)勵(lì)期望值為0.1的真實(shí)獎(jiǎng)勵(lì)率,最可靠的是獎(jiǎng)勵(lì)期望值為0.4的賭博機(jī)。因?yàn)橘€博機(jī)的選擇是通過對(duì)分布進(jìn)行抽樣來進(jìn)行的,所以分布期望值是0.1的賭博機(jī)的搖臂也可能被拉動(dòng)。這個(gè)事件會(huì)發(fā)生在第2個(gè)賭博機(jī)和第3個(gè)賭博機(jī)的采樣樣本獎(jiǎng)勵(lì)值異常小,而且第1個(gè)賭博機(jī)的采樣樣本異常大時(shí),相應(yīng)代碼如下(陳運(yùn)文 達(dá)觀數(shù)據(jù)):

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

NO.6

達(dá)觀數(shù)據(jù)

A/B測(cè)試的數(shù)學(xué)原理

總結(jié)

A/B測(cè)試和貝葉斯賭博機(jī)的各自的優(yōu)點(diǎn)和局限是:兩者有各自適用的場(chǎng)景,也驗(yàn)證的變量數(shù)量也各不相同,具體如下表。

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

此外,兩個(gè)方法的收斂速度也很不一樣。在A/B測(cè)試中是指獲得統(tǒng)計(jì)意義,在貝葉斯賭博機(jī)中是指累積遺憾值不再增加。以本章最開始的網(wǎng)站優(yōu)化為例,首先請(qǐng)注意,任何行為的改變可能是微小的(<0.01),而我們已經(jīng)知道貝葉斯賭博機(jī)相比大的改變提升,需要更多的收斂時(shí)間。如果加了多種選擇,在同一個(gè)實(shí)驗(yàn)中測(cè)試多種登陸頁(yè)面,將更加會(huì)影響收斂速度。假如用戶變化導(dǎo)致的底層分布變的比模型收斂更快呢?比如,季節(jié)趨勢(shì),銷售或者其他因素可能會(huì)影響。

 

技術(shù)干貨 | 如何選擇上班路線最省時(shí)間?從A/B測(cè)試數(shù)學(xué)原理說起 

顯然,收集的數(shù)據(jù)越多,對(duì)效果的潛在變化的把握度就越高。當(dāng)2個(gè)組劃分本身就存在統(tǒng)計(jì)差異時(shí),通過多臂賭博機(jī)而不是A/B測(cè)試的方法可以從概率上修正我們選擇的分布。本文還重點(diǎn)介紹了z檢驗(yàn)(z-test)的數(shù)學(xué)知識(shí),因?yàn)槠錁?gòu)成了A/B測(cè)試的統(tǒng)計(jì)理論基礎(chǔ)。