您的位置:首頁(yè) >社會(huì ) > 正文

民主化A/B實(shí)驗

導讀 A/B實(shí)驗是一種通過(guò)實(shí)驗來(lái)做效果評估的方法,主要流程是將評估對象隨機抽樣成對照組和實(shí)驗組,對實(shí)驗組施加策略干預,然后通過(guò)兩組之間的效果對比,得出上線(xiàn)策略會(huì )產(chǎn)生的影響。本文分享的內容不涉及具體的算法。

全文目錄:

1. 個(gè)人和Statsig公司介紹


(資料圖片)

2. Statsig公司的創(chuàng )始故事

3. 什么是民主化的A/B實(shí)驗

4. Statsig如何推進(jìn)A/B實(shí)驗民主化

分享嘉賓|王家侃 Statsig Founding Engineer

編輯整理|李冠 百維金科信息科技有限公司

出品社區|DataFun

01

Statsig公司介紹

公司名稱(chēng)Statsig,取自于統計學(xué)顯著(zhù)性的英文簡(jiǎn)稱(chēng)。我們提供A/B實(shí)驗以及相應的功能管理平臺,現在也開(kāi)始做一些用戶(hù)分析方面的內容。公司使命就是民主化A/B實(shí)驗,用數據來(lái)驅動(dòng)決策,脫離傳統的“老板說(shuō)了算”這種模式。服務(wù)的客戶(hù)中不乏著(zhù)名的創(chuàng )業(yè)公司,如Figma、Notion、OpenAI等。

我們企業(yè)工程團隊主要服務(wù)企業(yè)級用戶(hù),宗旨是讓所有在Statsig簽約的用戶(hù),跑更多更好的實(shí)驗。我們的工作內容橫跨售前和售后,比如幫助銷(xiāo)售介紹公司產(chǎn)品和實(shí)驗文化,也會(huì )參加用戶(hù)的實(shí)驗設計和結果評審等。

02

Statsig公司創(chuàng )始故事

Statsig在2021年2月創(chuàng )立于美國西雅圖,整個(gè)團隊都是前Facebook西雅圖的員工,包含6名工程師和1名數據科學(xué)家。創(chuàng )立時(shí)正處于新冠高峰期,但還是要求全員去公司上班,因為早期每天都要做很多新的決定,只有這樣才能有更強的執行力。

我們的CEO,是前Facebook的副總裁,也是西雅圖分部的負責人。他在 Facebook 任職的10年內,西雅圖分部從剛開(kāi)始十幾個(gè)員工,一直做到 8000 個(gè)員工。他在公司內部也是一個(gè)比較有名的連續創(chuàng )業(yè)者,曾經(jīng)帶領(lǐng)過(guò)很多成功的項目,這些項目現在給公司貢獻了上百億美金的收入。

從第一天上班,到第一版產(chǎn)品上線(xiàn),我們花了大概3-4周時(shí)間。之后我們又等了3周的時(shí)間,才有了第一個(gè)新加坡的注冊用戶(hù)。同年10月份,我們收到了第一筆用戶(hù)付款,雖然只有幾美金,但確是一個(gè)非常重要的里程碑。

03

什么是民主化的A/B實(shí)驗

1.一個(gè)親身經(jīng)歷的小故事

我們曾經(jīng)在Facebook做一款小游戲,一個(gè)項目經(jīng)理提出要花時(shí)間去優(yōu)化游戲的加載速度,從而提高玩家的轉化率。這聽(tīng)起來(lái)理所當然,沒(méi)有任何問(wèn)題,當天就開(kāi)會(huì )討論具體要做什么。討論出來(lái)的方案幾乎都是大工程,估計需要好幾個(gè)月才能完成。

其中有個(gè)成員就提出了一個(gè)大膽的想法,減少加載時(shí)間很困難,但人工增加游戲加載時(shí)間很簡(jiǎn)單,我們可以先測一下增加游戲加載時(shí)間對用戶(hù)帶來(lái)的影響,然后用這個(gè)結果來(lái)評估要不要投入幾個(gè)月時(shí)間去減少。最后的結論是這個(gè)優(yōu)化帶來(lái)的增益,遠遠不值得投入這么大的精力,然后我們就用這個(gè)時(shí)間去做更有效的事情了。

花了幾個(gè)小時(shí)工作量,省下了團隊幾個(gè)月的時(shí)間,這件事情讓我深刻地認識到,每個(gè)公司都應該有這樣的實(shí)驗平臺和文化,這也是我們后來(lái)創(chuàng )業(yè)的初衷。

2.民主化實(shí)驗的四個(gè)特點(diǎn)

實(shí)驗的門(mén)檻和開(kāi)銷(xiāo)要低。這是所有人都能夠去測試他們各種想法的必要條件,非常重要。 實(shí)驗數據要容易獲取且透明。數據容易獲取,可以降低實(shí)驗的門(mén)檻;數據透明,實(shí)驗結果才可以讓大家信服。 決策結構去中心化。在民主的實(shí)驗文化下,任何意見(jiàn)都會(huì )被考慮,用實(shí)驗一一去測試可行性,然后再用數據結果來(lái)做決定。 能夠自我學(xué)習和優(yōu)化的團隊。當結果和預期不一致時(shí),這種看似失敗的實(shí)驗,往往能帶來(lái)更多的思考價(jià)值。

3.民主化實(shí)驗對不同的崗位帶來(lái)的好處

工程師

他們能夠放心地去發(fā)布新的功能,不需要很多的反復測試流程。如果你有自助化的數據,就可以觀(guān)察新功能是否達到預期,APP閃退頻率以及用戶(hù)延時(shí)的變化情況。各種內部SDK的升級,在我們的實(shí)驗平臺都可以輕易做到。

數據科學(xué)家

一方面減少了他們寫(xiě)SQL取數和驗算實(shí)驗結果的時(shí)間,這種事情往往繁瑣枯燥;另一方面由于實(shí)驗結果都是自助化的,也省去了團隊其他成員,因為不愿意相信實(shí)驗結果所帶來(lái)的一些沖突和麻煩。他們可以把這些省下的時(shí)間和精力花在更有意義的事情上,比如通過(guò)數據去幫助團隊尋找產(chǎn)品發(fā)展的方向,或者是推薦更有用的實(shí)驗目標之類(lèi)的事情。

項目經(jīng)理

用數據結果說(shuō)話(huà),可以減少一些非常主觀(guān)的辯論。當大家對于一個(gè)新的想法意見(jiàn)不統一時(shí),就跑一個(gè)實(shí)驗,讓結果說(shuō)話(huà)。這樣還可以鼓勵團隊去嘗試更多未知冒險的想法,這些想法往往可以帶來(lái)出其不意的回報。

/B實(shí)驗的現狀

好的實(shí)驗運作應該像流水線(xiàn)一樣,是每天工作的一部分,可以讓員工的工作效率翻倍。但大部分公司做實(shí)驗更像是科學(xué)研究,從實(shí)驗設計實(shí)現到數據采集解讀,端到端做一個(gè)完整實(shí)驗是一種奢侈,不可能作為日常工作的一部分。造成這種情況主要有以下三個(gè)原因:

大部分實(shí)驗平臺的功能不全。比如只能支持后端的實(shí)驗,或者只能支持用戶(hù)登錄以后跑的實(shí)驗等等,這樣就很大程度限制了實(shí)驗普及的可能性。 實(shí)驗數據需要數據科學(xué)團隊手動(dòng)計算。很多公司的實(shí)驗瓶頸就出在這里,計算花費大量人力,不是每個(gè)公司都可以有一個(gè)大的數據科學(xué)團隊。導致大家對A/B實(shí)驗缺乏主觀(guān)的意愿,一般做實(shí)驗都是因為領(lǐng)導要求。 實(shí)驗平臺不提供端到端的完整性。導致一個(gè)團隊里面只有全都不出錯,才能夠得到正確的實(shí)驗結果。這樣會(huì )導致成員之間互相指責,不利于團隊和睦,尤其是新人很容易遭到打擊。

5.市面上的其他產(chǎn)品

市面上的產(chǎn)品沒(méi)有真正為產(chǎn)品團隊打造,具體如下: 大多數時(shí)候都是為營(yíng)銷(xiāo)或者市場(chǎng)團隊打造功能,偏向于無(wú)代碼實(shí)驗,主要是因為這些部門(mén)比較愿意花錢(qián)。 實(shí)驗結果經(jīng)常是在黑匣子里面,導致用戶(hù)很難自己算出同樣的結果,實(shí)驗平臺也不愿意給出具體計算邏輯。 在跑實(shí)驗之前就要求把測試的2-3個(gè)指標確定好,然后實(shí)驗開(kāi)始跑以后就不讓加了,這也是非常有局限性的一面。 很多公司提供的客服團隊沒(méi)有實(shí)戰經(jīng)驗,并不能指導用戶(hù)進(jìn)行最佳實(shí)踐,所以也很難讓用戶(hù)去建立起一個(gè)好的實(shí)驗文化。 還有一些非常低級的錯誤,比如分組不穩定等等。

03

Statsig如何推進(jìn)A/B實(shí)驗民主化

現在企業(yè)對數據分析方面的需求,可以用下圖中的需求金字塔來(lái)描述, Statsig的重點(diǎn)在上面兩層:

第一層是無(wú)所不在的實(shí)驗。簡(jiǎn)單來(lái)說(shuō)就是每個(gè)新功能都可以當做實(shí)驗來(lái)做,用實(shí)驗的結果來(lái)決定下一步干什么,很少有公司能做到這一點(diǎn),目前只有比較大的一些科技公司才行,而我們的目標是普及到所有的公司。 第二層就是大家普遍理解的 A/B 實(shí)驗,我們產(chǎn)品提供給用戶(hù)最基本的這個(gè)功能,就是能夠讓用戶(hù)全方面的了解這次產(chǎn)品改動(dòng)所帶來(lái)的影響,以及包括長(cháng)期指標在內的一個(gè)整體畫(huà)面。 下面兩層是市面上其他產(chǎn)品提供的一些解決方案,我們也在這些方面有一些功能,比較常見(jiàn),在這里就不展開(kāi)細講了。

推動(dòng)A/B實(shí)驗民主化,最重要的就是實(shí)驗的極簡(jiǎn)化,Statsig在這方面下了非常大的功夫。從UI到SDK的設計,都盡量做到極簡(jiǎn),下圖展示的就是我們產(chǎn)品里面的一個(gè)功能開(kāi)關(guān)。你做任何的新功能,只要一個(gè)功能開(kāi)關(guān),把功能放到這個(gè)開(kāi)關(guān)里面,然后寫(xiě)基本的一個(gè)如果從句,就可以把它變成一個(gè)實(shí)驗。

這個(gè)功能開(kāi)關(guān)只要設置到0-100之間的百分比,我們就會(huì )自動(dòng)把這個(gè)做成A/B 實(shí)驗,給你分析這個(gè)功能的存在與否,對用戶(hù)行為上面產(chǎn)生的一些影響。只要把功能放到這個(gè)開(kāi)關(guān),就可以看到你所關(guān)心的所有指標。不需要數據科學(xué)家做任何額外的工作,就可以一目了然,看到這個(gè)產(chǎn)品或功能產(chǎn)生的效果。

對于稍微復雜一點(diǎn)的場(chǎng)景,也可以把實(shí)驗的變量做成參數。我們的SDK可以讓你在一個(gè)參數上跑不同的實(shí)驗,可以同時(shí)也可以不同時(shí),這樣顯而易見(jiàn)的好處就是,測一個(gè)參數的不同數值,不需要再改動(dòng)代碼,不需要移動(dòng)端開(kāi)發(fā)的等待時(shí)間,直接在UI界面上改就生效了,就可以直接開(kāi)始新的實(shí)驗。

至于實(shí)驗的數據收集,不管是從我們的 SDK 直接發(fā)過(guò)來(lái),還是通過(guò)數據采集器或者數據倉庫,我們的宗旨就是數據存在哪里都可以兼容。而且無(wú)論是記錄原始事件,還是預先設計好的計算指標,我們也都可以用。換而言之,數據在哪,實(shí)驗結果就可以在哪。

逐步揭示數據的復雜性(Progressive Disclosure of Complexity),就是希望讓我們的平臺能夠適用于不同崗位、不同背景的用戶(hù),而不僅僅是數據科學(xué)家。我們的實(shí)驗結果面板,基本上都可以看懂。紅色的就是顯著(zhù)的不好,綠色就是顯著(zhù)的提升,灰色就是沒(méi)有顯著(zhù)性。這里面數據指標含義,也都是顧名思義、一目了然。所以普通的工程師和項目經(jīng)理也可以通過(guò)數據面板來(lái)讀懂實(shí)驗結果。

我們的平臺還支持更多深層次的需求,比如指標的具體計算邏輯,在實(shí)驗中某個(gè)指標每天的變化等等。還可以從平臺里面導出計算結果的原始數據,不少用戶(hù)都會(huì )這樣來(lái)驗算顯示數據的正確性,或者拿到他們自己的數據倉庫里面去做更多的分析。

很多用戶(hù)煩惱的問(wèn)題就是不知道怎么證明一個(gè)團隊跑很多實(shí)驗,是不是值得的,給公司帶來(lái)了怎么樣的業(yè)績(jì)??梢栽囈幌挛覀兤脚_內置的這個(gè)實(shí)驗保留功能,可以隨機選擇一小部分用戶(hù),讓他們不參與任何的一個(gè)產(chǎn)品實(shí)驗。然后會(huì )自動(dòng)計算這一段時(shí)間以來(lái)你們產(chǎn)品里面所有的實(shí)驗,所有的功能產(chǎn)生的總體影響。很多用戶(hù)用這個(gè)來(lái)當作他們整個(gè)團隊一段時(shí)間的業(yè)績(jì)面板。

再來(lái)著(zhù)重介紹下我們企業(yè)工程團隊,我們與其他平臺最大的不同可以總結為四點(diǎn),這也是我們能夠推動(dòng)A/B 實(shí)驗民主化一個(gè)非常重要的因素:

我們團隊有非常豐富的實(shí)戰經(jīng)驗,會(huì )對所有的用戶(hù)進(jìn)行實(shí)驗基礎、最佳實(shí)踐的培訓和答疑。 我們甚至會(huì )參與到實(shí)驗的設計評審當中,幫客戶(hù)去建立一個(gè)比較好的實(shí)驗體系。 我們會(huì )跟客戶(hù)一起計劃實(shí)驗文化上面想要達到一些目標,并且把這個(gè)當成我們自己的目標來(lái)評測是否成功。 我們也會(huì )負責公司的一些定制化實(shí)驗需求,然后進(jìn)行考量,評估是否可以迭代到我們的標準產(chǎn)品中。

最后介紹兩個(gè)民主化實(shí)驗推行的成功案例:

Rec Room,這是一個(gè) VR 游戲公司。他們現在就是把每個(gè)新功能都做在一個(gè)功能開(kāi)關(guān)后面,然后把它跑成一個(gè)實(shí)驗。有一次升級了UX,原本以為會(huì )大大增加用戶(hù)粘性,結果發(fā)現這個(gè)用戶(hù)發(fā)消息的指標卻下降了。然后他們仔細看了下界面設計,發(fā)現在新版上面發(fā)消息這個(gè)按鈕確實(shí)是有點(diǎn)被隱藏起來(lái)了,以前是比較明顯的一個(gè)按鈕。于是他們把這個(gè)按鈕放到了上面,可以看到這個(gè)發(fā)消息指標有了顯著(zhù)的提升。如果他們沒(méi)有每一個(gè)功能都來(lái)做實(shí)驗這個(gè)習慣的話(huà),是不會(huì )發(fā)現這樣一個(gè)問(wèn)題的。 ancestry,這是一個(gè)做 DNA 檢測的公司。他們現在也把所有的功能都放在一個(gè)功能開(kāi)關(guān)之后,用Statsig把它跑成一個(gè)實(shí)驗。下面這個(gè)圖說(shuō)明了在用了 Statsig 以后,實(shí)驗數量的變化?,F在跑實(shí)驗的頻率大概是一個(gè)月 50 個(gè),但他們之前用內部的實(shí)驗平臺,頻率基本上是一年 50 個(gè)。這也證明了我們公司平臺和其他產(chǎn)品的對比優(yōu)勢。

今天的分享就到這里,謝謝大家。

▌2023數據智能創(chuàng )新與實(shí)踐大會(huì )

? 時(shí)間 :/22 9:00-17:00

地點(diǎn) :北京朝陽(yáng)悠唐皇冠假日酒店

購票 :18301441917

會(huì )議亮點(diǎn):

1. 4大體系,專(zhuān)業(yè)結構數據智能

2. 16個(gè)主題論壇,覆蓋當下熱點(diǎn)與趨勢

3. 70+演講,兼具創(chuàng )新與最佳實(shí)踐

4. 1000+專(zhuān)業(yè)觀(guān)眾,內行人的技術(shù)盛會(huì )

點(diǎn)擊下方鏈接即可報名

免責聲明:本文不構成任何商業(yè)建議,投資有風(fēng)險,選擇需謹慎!本站發(fā)布的圖文一切為分享交流,傳播正能量,此文不保證數據的準確性,內容僅供參考

關(guān)鍵詞:

相關(guān)內容

熱門(mén)資訊

最新圖文

国产福利萌白酱精品一区|国产成人久久精品流白浆|国产一级A级免费视频|久久综合亚洲鲁鲁五月天欧|欧美黑人巨大视频HD