每日干货分享

數據分析篇之產品經理如何推斷數據趨勢?


 

 

Hi,各位看官老爺們好O(∩_∩)O~,在前兩篇<<數據分析-初識數據埋點(一)>><<數據分析-初識數據埋點(二)>>中已經對實戰應用中的數據埋點的基礎認知、基本分類、定義規範、流程以及詳細的應用場景與大家做了全面的討論,第三篇也就是本篇將在數據埋點的基礎之上深入討論後續數據分析的一些問題,達到真正的把握客觀數據的核心!

 

背景:

 

經過產品經理詳細且周密的埋點準備工作以及產品線上各個環節童鞋的齊心協力,需求以及埋點方案終於上線啦。部分看官認為上線了即代表大頭的活都完成了,實際上,上線后才是埋點剛剛開始收集數據的開端,這才剛剛開始~

收集了數據緊接著面臨的問題就是怎麼分析才是最精準的、嚴謹的?理想情況下從埋點上線那一刻起一直到產品退市,取全量所有時間點的數據進行分析時,數據才最準確。那在實際工作中也要用此方法嗎?顯然不行~

其次相信大家在日常工作中或多或少都聽說過以下的問題:

場景一:某產品的需求上線后,隔了一天,從後台取出埋點數據一看,效果很好,有大量的用戶在使用這個功能。並且推動了轉化率的提升,最終提升了核心指標。安奈不住心中的喜悅,拿著一天的數據去跟領導彙報,結果卻被領導大罵一場~~

場景二:產品需求A(詳情頁X功能優化)剛上線3天,還沒有分析需求A所涉及的所有主要評估埋點,以及輔助評估埋點,以及後續的流程,緊接著在同一個頁面:詳情頁上線需求Y。領導得知此事後,然後、然後產品經理被領導叫去喝茶了…

場景三:某產品經理說,自己負責的產品已經處於產品生命周期的中後期了,不求快速迭代增長,只求穩定,減緩數據下跌速度。需求少,幾個月都沒有一個需求上線。等上線需求以及埋點方案后,我等上3個月,3個月時間夠長!數據一定具備代表性,一定能反應客觀真相。領導得知此事後,大家懂得,產品經理被領導叫去喝茶了…

 

在不同的場景中各產品經理是因為什麼原因導致被請喝茶呢,下面做下初步的問題拆解:

1、  場景一中顯然取數的周期太短,樣本數據不具備代表性,不能代表整體趨勢。例如:新上線的功能,用戶趨於好奇去點了下,看看好用不好用,怎麼用,而不是需求驅動的功能使用。

2、  場景二不僅3天的數據周期並不具備代表性不能代表整體趨勢。而且在X功能沒有輸出分析結論的前提下在同一個頁面上線需求Y。帶來的結果就是無論數據漲跌,都無法產出分析結論,X功能與Y功能相互影響,無法判定數據漲跌的原因。最壞的結果就是:雖然X功能導致數據下降,但是由於判斷兩個功能之間的影響關係,只能一刀切,兩個功能一起下線。

3、  場景三雖然取數的周期足夠長,但是由於外部因素影響,也可能使數據有偏移客觀事實的趨向。例如在二手車行業,大的節日,不同的月份,以及新車發布會等等外部事件都會對產品數據的波動產生較大的影響。

 

問題匯總:

1、  上線后數據取幾天才能進行推斷分析? 為什麼幾天的局部數據能代表整體?

2、  同一份數據,不同的人給出了不同的結論?怎麼把握了問題的核心抓住數據的趨勢?

 

帶著疑問,與大家一起利用統計學上的理論與方法進入今天的正文,幫我們找到真相!

 

 

引言:

數據分析篇之產品經理如何推斷數據趨勢?

 在數據統計中研究現象的總體數量關係時,需要了解的總體對象的範圍往往是很大的,有時甚至是無限的,而由於各項目進度、時間和精力等各種原因,以致有時在客觀上只能從中觀察部分數據或有限數據進行計算和分析,根據局部觀察結果來推斷總體。

並且根據局部觀察結果來推斷總體時,其中把握局部問題的核心才是當務之急。從一大堆數字中看出模式和趨勢可能頗為不易,而求出平均數往往是把握全局的第一步。有了平均數就能迅速找出數據中最具代表性的數值,得出重要結論,在本篇中將與大家討論幾種方法,幫助計算最重要的統計量均值、中位數,基於以上有效的匯總數據,達到得出簡練、有用的結果的目的。

 

 

正文:

為什麼幾天的局部樣本數據能代表整體趨勢?首當其衝則需要用到的就是統計學上的辛欽大數定律,討論定律前首先需要了解以下名詞:

 

名詞解釋:

相互獨立:獨立就是每次抽樣之間是沒有關係的,不會相互影響。

例如:本汪拋一枚骰子,第一次拋骰子的結果是1點,第二次拋骰子的結果是6點,第一次投中1點的結果並不影響第二次投中6點的結果,互不影響,相互獨立

同分佈:同樣例如本汪拋骰子,每次投中任意點數的概率均為1/6,這就是同分佈的。

意味著變數和變數之間具有相同的分佈形狀和相同的分佈參數,對離散隨機變數具有相同的分佈律,對連續隨機變數具有相同的概率密度函數

獨立同分佈:在概率統計理論中,指隨機過程中,任何時刻的取值都為隨機變數,如果這些隨機變數服從同一分佈,並且互相獨立,那麼這些隨機變數是獨立同分佈。獨立同分佈最早應用於統計學,隨著科學的發展,獨立同分佈已經應用數據挖掘,信號處理等不同的領域。

均值:為了求出一批數字的均值,我們會將這些數字加起來,然後除以這些數字的個數。均值是應用最廣泛的統計量之一。由於使用如此頻繁,統計師專門給了他一個符號:μ。這是一個希臘字母(讀作「謬」)。記住這只是表示均值的一種簡介方法。

數學期望E(X):通俗一點,各位看官老爺可以理解為我們生活中說的平均值(在統計學上叫均值μ,不過當前為了便於通俗,可暫理解為E(X)=平均值,後面涉及數學期望E(X)時會單獨展開討論)。

 

基於以上名詞解釋后,下面介紹關鍵的辛欽大數定律:

設X1,X2,…是相互獨立,服從同一分佈的隨機變數序列。且具有數學期望E(Xk)=μ.(k=1,2,…)。作前N個變數的算數平均

數據分析篇之產品經理如何推斷數據趨勢?

註釋:讀作「西格瑪」各位看官老爺可以理解為「將所有的變數加起來的意思」

上圖中即代表,K從1到N所有變數加起來/n

則對於任意ε>0,有

數據分析篇之產品經理如何推斷數據趨勢?

公式的證明過程此處不再展開。

上圖即代表當外面lim下面的N趨近於無窮大前置條件下,K從1到N所有變數加起來/n

的結果減去平均值μ取絕對值后的結果小於任意大於0的變數的概率為1。

對於獨立同分佈且具有相同均值μ的隨機變數X1,X2,…XN,當N很大時,他們的算數平均數

數據分析篇之產品經理如何推斷數據趨勢?

很接近於μ,由此推導出以下結論:

可以用樣本的均值去估計總體均值。

 

所以,綜上所述,利用得出的結論,基於業務和實際樣本情況評估數據埋點時,我們就可以用每個埋點局部樣本數據推斷總體趨勢,這樣看似基於直觀的經驗得出的結論便具備了數學意義的理論支撐。

其中樣本數據在取數時在儘可能保證其他因素變數不變的前置條件下,取1周~2周之間的數據作為樣本進行數據評估為宜。最好是1周后取一次查看數據表現並形成初步結論,2周后再取一次數據查看數據表現與第一周的數據在趨勢上是否吻合,是否存在較大的波動進行雙重驗證,並輸出分析結論,如2份數據差異較大,則有必要詳解的向下拆解,並持續重點關注數據變化~

本例中基於二手車行業產品,以及工作經驗給出1~2周的數據周期作為參考,各位看官可根據實際情況以及樣本數據的波動情況以及是否穩定來動態變化取數周期,靈活應對。

 

經過以上數據周期后,假設我們獲得以下數據,如圖所示:

 數據分析篇之產品經理如何推斷數據趨勢?

 

名詞解釋:

均值:可能以前有人讓你算過平均數,計算數據的平均數的一個方法是:將所有數字加起來然後除以數字的個數,在統計學中,這樣算出來的值叫做均值。

可能各位看官會問,我已經習慣了叫平均數了,這樣叫有什麼不妥嗎?

且聽我慢慢道來,因為在統計學上平均數不止一種,我們必須知道如何分別稱呼每一種平均數,才能方便的告訴別人你所說的是哪一種平均數,避免產生歧義,就像我們去買果汁,在果汁店要告訴售貨員要哪種果汁?蘋果汁?西瓜汁?還是梨汁?考慮到這一點,最好是明確指定所用的是哪一種平均數的計算方法。

首先介紹均值:為了求出一批數字的均值,我們會將這些數字加起來,然後除以這些數字的個數。均值是應用最廣泛的統計量之一。由於使用如此頻繁,統計師專門給了他一個符號:μ。這是一個希臘字母(讀作「謬」)。記住這只是表示均值的一種簡介方法。

 

數據分析篇之產品經理如何推斷數據趨勢?

 

頻數:在計算一批數據的均值時,我們常常會發現有些數字是重複的。例如上圖中有三天的數據都是100。

有一點確實很重要:在計算均值的時候,要把每個數的頻數考慮進去,為了確保不忽視這一點,我們可以把它寫入公式,用f代表頻數,就可以重新將均值表示如下:

 

數據分析篇之產品經理如何推斷數據趨勢?

 

這是表示均值的另一種方法,但這次明確指出了頻數,用這個方法計算的數據,得出:

 數據分析篇之產品經理如何推斷數據趨勢?

 

 

然後我們得出初步結論:X按鈕的典型值μ等於627,每天有627的點擊量!

此時可能部分看官提出了挑戰,任務這個典型值是錯誤的,因為沒有一個值等於或者近似於679.9這個典型值。

哪裡出現了問題?

我們需要查看數據,探明究竟,讓我們看看,繪製一個數據表格,看能否有助於幫助我們找到問題所在。

數據分析篇之產品經理如何推斷數據趨勢?

並繪製成直方圖如下:

數據分析篇之產品經理如何推斷數據趨勢?

 

通過直方圖看出點擊量形成了對稱的形狀,很容易看出點擊量的典型值。大部分的點擊量都在100上下,有2個值遠遠超過100,分別是3000和3002,像這樣的極值被稱作異常值。

 

通過直方圖可以看出,樣本中存在3000和3002這兩個異常值,那如果去除這兩個異常值,均值會是多少?與實際的均值進行對比會得出異常值的影響是什麼?

觀察數據的表格與直方圖,很容易看出點擊量在99.7左右,如果表格中不包含那2個異常值的話,99.7就是均值。這2個異常值扭曲了均值,使均值抬高了。一旦發生了這種情況,我們就說數據偏斜了。

偏斜的原因是異常值處於均值的右邊,我們稱這種情況為向右偏斜。

向右偏斜的數據有一條「尾巴」,這條尾巴由偏大異常值形成,偏大異常值扭曲了均值,使均值拉高了—即拉向了右邊。

 數據分析篇之產品經理如何推斷數據趨勢?

同理,以下圖為例解釋「向左偏斜」,下圖中近似出的數據分佈曲線向左偏斜了,表明存在異常值(極小值),這些異常值較低把均值拉向了左邊。在這種情況下,均值小於大部分值。

 數據分析篇之產品經理如何推斷數據趨勢?

 

在理想情況下,我們會希望看到通過直方圖近似出來的曲線為呈對稱形態。如果數據對稱,則均值位於中央。不會有任何異常值將均值拉向任何一側,中央位置兩側的數據形態大致相同。如下圖所示:

數據分析篇之產品經理如何推斷數據趨勢?

 

中位數:

當偏斜數據和異常值使均值產生誤導時,我們就需要用其他方式表示典型值。「中位數」閃亮登場,我們可以取中間值,這種做法是可行的,中間值其實就是另一種平均數,統計學上稱為中位數。

為了求出點擊量的中位數,首先將點擊量升序排列,取出中間數,如下所示:

 數據分析篇之產品經理如何推斷數據趨勢?

如果各位看官在計算時,數量為偶數的話,則只要將兩個中間數加起來,再除以2,即可,結果就是中位數。此處不再展開討論。

 

大多數場景下,我們會使用均值,因為均值的優勢遠勝於中位數,均值對於抽樣數據來說更穩定,但是如上文所述,均值也有缺點,當樣本數據中存在異常值時,均值會被異常值帶偏,在這樣的場景下則可以使用中位數來表示典型值,因為中位數總是穩穩的站在樣本數據的中間。此外除了我們討論的均值、中位數外,還有一個平均數:眾數,適用於一個樣本數據中存在兩種類型的數據時使用,因為在統計埋點時均為一類一類的統計,不存在眾數的應用場景,所以此處不再展開。

 

 

總結:

基於統計學上辛欽大數定律:可以用樣本的平均值去估計總體平均值,作為理論基礎,解決了為什麼能利用局部數據代表整體趨勢的問題,其次解釋了局部樣本數據取數周期的邏輯,為各位看官在自己實際工作中靈活取樣本數據的數據周期提供一些思路。並進一步通過利用統計學上均值與中位數找到樣本數據的典型值方法,解決在一份樣本數據中如何把握問題的核心抓住數據的趨勢的問題,防止因異常值的影響對數據做出錯誤解讀,使數據真正客觀真實的反應趨勢,進而解決業務問題,創造價值。

 

 

 

下篇預告:

 

通過前兩篇涉及埋點的討論加上本篇中對基於推斷統計學把握問題核心洞悉數據模式與趨勢的深入討論,默認各位看官從定義埋點到埋點數據分析把握客觀數據已經輕車熟路了,(^-^)V

下篇將與各位看官一起,創造一個新的階段性法寶「流量地圖」。

幫助各位看官在實際工作中把控整體產品的健康狀態,及時發現產品問題以及可優化點,調整迭代計劃,創造用戶價值,進而達到提升產品的核心指標的目的!!!