當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

數(shù)據(jù)分析的魅力和坑

 2017-07-13 17:59  來(lái)源: A5專欄   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

前言

說(shuō)實(shí)話,數(shù)據(jù)分析是人人都會(huì)的,只是沒(méi)有把它提升到是一個(gè)分析的過(guò)程,在每個(gè)人的腦子里都有不同的思考的方式。所以今天講“數(shù)據(jù)分析的魅力和坑”可能只是在各位原有的一些思維層面上,有一些不太注意的地方會(huì)變成坑,然后導(dǎo)致一些不太好的結(jié)果。今天主要把我遇到的坑和大家分享,以后在遇到同樣的情況下,也可以避開(kāi)那些坑的情況。我們先思考一個(gè)簡(jiǎn)單的邏輯題,讓我們的思維更快速一點(diǎn)。

珠寶店被盜,警察問(wèn)了4名嫌疑人,甲說(shuō)“不是我做的”,乙說(shuō)“是丁做的”,丙說(shuō)“丁沒(méi)有偷”,丁說(shuō)“肯定是乙偷的,”4個(gè)人里一個(gè)人說(shuō)一句話,誰(shuí)偷的?

“甲偷的”。為什么是甲偷的?因?yàn)檫@里面有兩個(gè)人說(shuō)話是矛盾的,一個(gè)是“丁偷的,”一個(gè)是“丁沒(méi)有偷”,兩個(gè)里面肯定有一個(gè)是真的,因?yàn)橹挥幸粋€(gè)人說(shuō)真話,其他兩個(gè)都是假話,所以甲說(shuō)“不是我做的,”那就是他做的,就是這樣。因?yàn)樗膫€(gè)人里只有一個(gè)人說(shuō)了真話,有兩個(gè)人說(shuō)了相反的一句話,那么其中有一個(gè)人肯定是真,有一個(gè)人肯定是假的。我不問(wèn)這兩個(gè)人誰(shuí)說(shuō)的真,誰(shuí)說(shuō)的假,另外兩個(gè)人說(shuō)的肯定是假,所以是甲做的。這就是邏輯上的關(guān)于矛盾的點(diǎn),一定要關(guān)注。其實(shí)數(shù)據(jù)分析也是這樣,當(dāng)你看數(shù)的時(shí)候,首先看到的有矛盾的數(shù)。應(yīng)該是甲大乙就大,但是現(xiàn)在甲大,乙小了,這兩個(gè)之間出現(xiàn)了矛盾,就要去關(guān)注它。

下面,我們接著來(lái)說(shuō)數(shù)據(jù)分析到底能做些什么。

第一、數(shù)據(jù)分析來(lái)源于生活,每個(gè)人在生活中都在解決數(shù)據(jù)分析的問(wèn)題。

第二、數(shù)據(jù)在很多地方呈現(xiàn)的時(shí)候都會(huì)誤導(dǎo)你,誤導(dǎo)你的時(shí)候是基于什么?你自己如果有一定的準(zhǔn)備你就會(huì)知道。

第三、職場(chǎng)發(fā)展的需要。

第一章:數(shù)據(jù)分析的作用——解決生活問(wèn)題

大家先思考兩個(gè)問(wèn)題(如圖一)。這兩個(gè)問(wèn)題相當(dāng)經(jīng)典,也是在數(shù)字思考中會(huì)出現(xiàn)的問(wèn)題。只是說(shuō)遇到的事不一樣,但是思維方式是一樣的。關(guān)于這兩個(gè)問(wèn)題,當(dāng)時(shí)我們老師在學(xué)校里上課的時(shí)候給了我們五分鐘的時(shí)間思考,當(dāng)時(shí)最快完全答對(duì)只有學(xué)財(cái)務(wù)的同學(xué)。

(圖一)

第一道題目,27元是三個(gè)人出的,服務(wù)員是他進(jìn)的(賬),所以這是兩個(gè)東西。進(jìn)(賬)的還有誰(shuí)?老板。所以出的是27元三個(gè)人,進(jìn)賬的是老板的25以及服務(wù)員2塊,所以沒(méi)有那個(gè)1塊錢。

第二道題目,出的是他的50塊,為什么只有50塊?因?yàn)檫@50塊是為了完成這一單交易,所以他所有的出就是這個(gè)50塊。但是他有入的,就是這一筆生意所賺的利潤(rùn),這個(gè)利潤(rùn)是4塊,所以就是46,因?yàn)樗蛄税苏邸?/p>

當(dāng)時(shí)我們很受啟發(fā)的原因在于,可能我們把很多東西都想得復(fù)雜。但是分析的過(guò)程應(yīng)該是把復(fù)雜的東西簡(jiǎn)單化,盡可能地用一到兩個(gè)概念來(lái)解決它。所以我們說(shuō)通過(guò)這些生活中的故事或者說(shuō)發(fā)生這些大家經(jīng)常討論的東西,我們會(huì)得到三個(gè)點(diǎn):

第一,聚焦在矛盾的地方上。如果兩個(gè)數(shù)值,比如說(shuō)注冊(cè)到充值、充值到首投是一個(gè)流程性的過(guò)程,常態(tài)來(lái)說(shuō)應(yīng)該是漏斗流失這樣的過(guò)程,如果中間出現(xiàn)了反向的,比如注冊(cè)量少,充值量大,它就是出現(xiàn)了矛盾,那么就要去關(guān)注引起這個(gè)矛盾的原因。

第二,避免偷換概念。剛才說(shuō)的那個(gè)一塊錢去哪了?那個(gè)一塊錢根本不存在,你去哪找那一塊錢?其實(shí)概念已經(jīng)被偷換了。

第三,要把復(fù)雜的過(guò)程想得簡(jiǎn)單一點(diǎn)。財(cái)務(wù)的同學(xué)當(dāng)時(shí)就是考慮兩個(gè)維度,一個(gè)是出,一個(gè)是入,所以他很快就能得出結(jié)果。而我們就會(huì)在過(guò)程中一而再再而三地反復(fù)地算,然后得不出正確的答案。

這就是我舉的例子想要跟大家分享的點(diǎn)了。數(shù)據(jù)分析除了要思考,你可能還要得出結(jié)論,如何得出結(jié)論?剛才講的是比較零散的點(diǎn),我們現(xiàn)在用一個(gè)我們生活中實(shí)際發(fā)生的案例來(lái)跟大家過(guò)一下一般是怎么樣的思維過(guò)程來(lái)形成完整的報(bào)告或者結(jié)論。

這道題目就叫“大姨媽與小表弟”。什么意思?過(guò)年的時(shí)候我回家,我大姨媽跑過(guò)來(lái)跟我媽聊天說(shuō)我小表弟快要中考了,然后這次期末考得不太好。大概是這樣的情況,她也很擔(dān)心,說(shuō)不知道要是考不起好的中學(xué)該怎么辦。因?yàn)槲以诜块g里,我也沒(méi)聽(tīng)太清楚,但是我出來(lái)的時(shí)候就接了一個(gè)工作,就是我媽給我的。我媽說(shuō)“快安慰安慰你大姨媽,幫幫你小表弟”。

對(duì)于我們來(lái)說(shuō),就等于是接了一個(gè)任務(wù)目標(biāo)了,這個(gè)任務(wù)目標(biāo)就是這兩句話。這其實(shí)是兩件事情,在場(chǎng)的同學(xué)會(huì)從哪些角度去考慮?當(dāng)然你可以問(wèn)問(wèn)題,因?yàn)槟愦笠虌尵妥莾?,你可以?wèn)她。她的目的也很清晰,她擔(dān)心的是小表弟能不能考上好高中。接著就是你媽說(shuō)讓你安慰一下她、幫一下你的表弟。大家遇到那種情況,一般會(huì)問(wèn)些什么或者說(shuō)會(huì)從哪些角度來(lái)考慮這件事情?在這里,我給大家說(shuō)一下我的思考方式。

首先,從趨勢(shì)上進(jìn)行分析。剛才也有同學(xué)談到,包括環(huán)境、行業(yè)、競(jìng)爭(zhēng)對(duì)手,就是說(shuō)小表弟本身的學(xué)校排名是什么樣的情況。如果他本身是在重點(diǎn)初中里的排名已經(jīng)很高,你安慰大姨媽肯定首先就是說(shuō)“這基本上上好一點(diǎn)的高中的問(wèn)題不大,只是說(shuō)我們要去哪一個(gè)”。好與更好,而不是說(shuō)好與能不能上,這是兩個(gè)概念。

另外,班級(jí)最近的氛圍怎么樣?是不是因?yàn)榄h(huán)境造成了小表弟這次考試可能沒(méi)考好?另外就是小表弟近期的情況,是不是身體原因或者怎么樣。

這些其實(shí)都是外圍的情況,看完外圍的情況就會(huì)多維分解一下小表弟自己的考試。比如說(shuō)他的分?jǐn)?shù)怎么樣、有沒(méi)有偏科、試卷結(jié)構(gòu)怎么樣、怎么樣制訂目標(biāo)。比如說(shuō)他有一科很強(qiáng),其他的很弱,很弱是因?yàn)槭裁?比如說(shuō)如果是語(yǔ)文很差,語(yǔ)文是哪一塊差?

你這些可以輔助來(lái)判斷。從安慰大姨媽到幫小表弟的過(guò)程應(yīng)該是更深度地聚焦在到底該怎么樣幫的點(diǎn)上,所以要更加往下細(xì)分。比如說(shuō)語(yǔ)文卷面是閱讀不好,閱讀該怎么辦?那就得往下分。

至于用戶細(xì)分的考慮這一塊其實(shí)只是一種運(yùn)用,可能不是特別恰當(dāng),但是只是說(shuō)有這種思維,你會(huì)去分析一下。比如說(shuō)你剛才已經(jīng)分析出假如小表弟是語(yǔ)文不太好,那么他們班上語(yǔ)文學(xué)習(xí)好的這些同學(xué)是有哪些特征或者他們是怎么樣去學(xué)語(yǔ)文的。比如說(shuō)大家都背詩(shī)詞或者都在看一些報(bào)刊,甚至是不是有老師開(kāi)小課?這些情況你有沒(méi)有了解清楚或者說(shuō)家長(zhǎng)知不知道?這些都需要去了解。

另外,除了本來(lái)就學(xué)得好的,還有那種排名上升特別快的同學(xué),這些同學(xué)是用了什么方法在這么短的時(shí)間內(nèi)有提升?這個(gè)方法是不是小表弟也可以學(xué)?這個(gè)也可以觀察。再下面,關(guān)于漏斗流失以及如何分析,按道理來(lái)說(shuō)應(yīng)該是一個(gè)路徑,這里不應(yīng)該這樣講。但是實(shí)際上可以把思路變化一下,而不是這樣的豎向的固定流失,而有可能是橫向的結(jié)構(gòu)問(wèn)題。我們就可以分析他試卷的以往錯(cuò)誤率,是因?yàn)檫@次沒(méi)考好考砸的,還是你本來(lái)這一科就一直不好?這也是需要去了解的。另外就是你錯(cuò)誤的板塊,到底是因?yàn)槭裁丛?是這次的原因還是歷史的原因?這是需要提前了解的。

最后,要快速嘗試一下。比如說(shuō)有些同學(xué)排名上升很快的學(xué)習(xí)方法適不適用?你總要去試一下。

不僅僅是這些維度,還可能有更多的維度。當(dāng)然因?yàn)閿?shù)據(jù)分析是一種思維,思維是沒(méi)辦法拘禁的。無(wú)論你經(jīng)過(guò)多少的思考,最后會(huì)有一個(gè)結(jié)論。這個(gè)結(jié)論一般會(huì)是什么樣的結(jié)構(gòu)?你已經(jīng)問(wèn)了大姨媽這么多問(wèn)題,最后怎么樣整體來(lái)回答她?

我們的目標(biāo)一個(gè)是安慰,一個(gè)是幫小表弟。我們最終得出的是這樣的結(jié)論。

首先安慰大姨媽。“大姨媽,你不要著急。從學(xué)校和班級(jí)的排名來(lái)看,小表弟怎么樣”,因?yàn)槭紫纫獙?duì)這次小表弟的排名情況或者說(shuō)考試情況作一個(gè)整體的判斷,看看這個(gè)程度到底去到什么程度,是真的慘不忍睹還是還有得救?你總得給大家一個(gè)心理準(zhǔn)備,是真的考不起要去花錢找關(guān)系,還是說(shuō)補(bǔ)一補(bǔ)花點(diǎn)錢也能夠讓他自己努力得了,或者說(shuō)其實(shí)也不要太在意,這次就只是一次小失誤。你首先要對(duì)大的這次的情況作一個(gè)判斷。老師對(duì)他怎么樣是定性?他本身是個(gè)什么樣的狀況?接著就說(shuō)這次沒(méi)考好主要是因?yàn)槭裁?,這是剛才我們說(shuō)的哪一個(gè)東西影響到他。也就是說(shuō)我們這次考試除了判斷他的事態(tài)和程度,還要找到他這次情況的現(xiàn)狀,并且分析是因?yàn)槭裁丛驅(qū)е碌?。然?ldquo;小表弟在這個(gè)考點(diǎn)上一直怎么樣,從以前的考試情況來(lái)看怎么樣”,其實(shí)是對(duì)歷史作一個(gè)總結(jié)。是一直就不怎么樣還是說(shuō)以前的考試還可以,這次不怎么樣,要對(duì)歷史作一個(gè)總結(jié)。接著就說(shuō)“他班上的誰(shuí)在這塊學(xué)得挺好的,主要是因?yàn)樵趺礃樱?rdquo;那你就要看一下競(jìng)品在這一塊上到底是怎么做的、有沒(méi)有借鑒意義?最后就說(shuō)“我們可以怎么樣,下一次考試的目標(biāo)就是怎么樣”,你要對(duì)整體作一個(gè)建議,以及對(duì)目標(biāo)進(jìn)行管理。你也不能讓大姨媽的期望值太高,要管理期望,不能直接說(shuō)“高中沒(méi)問(wèn)題,考個(gè)一中二中什么的”,那也不行,也得讓你小表弟喘口氣。

整體的回答就會(huì)是這樣的邏輯結(jié)構(gòu)。你從接到一個(gè)標(biāo)題或者你要分析的東西一直到它最后出結(jié)果,整個(gè)流程的輔助維度可能就是這些,其實(shí)還會(huì)有更多的維度來(lái)輔助。其實(shí)數(shù)據(jù)分析在生活中是很常見(jiàn)的,大家也都經(jīng)常使用它。

第二章:數(shù)據(jù)分析的作用——降低被誤概率

除了剛才那些問(wèn)題可能時(shí)不時(shí)會(huì)發(fā)生,但是更多出現(xiàn)的是一些容易被誤導(dǎo)的數(shù)據(jù)。我沒(méi)有說(shuō)被騙是因?yàn)樗膊荒芙凶鲵_,只是它誤導(dǎo)了你,而你選擇了相信。我們經(jīng)常在一些報(bào)刊雜志上看到很多數(shù)據(jù)就開(kāi)始傳播,我也希望這次聽(tīng)完這些之后,如果不是特別確定的還是不要傳播,容易引起恐慌。

如圖二,我們來(lái)看這些報(bào)刊雜志上是怎么樣描述這些數(shù)據(jù)的。首先是“情感專刊的專家通過(guò)讀者的反饋研究發(fā)現(xiàn),有80%的家庭表示后悔要小孩”。“人們一般認(rèn)為平均23度感覺(jué)舒適”。“當(dāng)今交通危險(xiǎn)日益增長(zhǎng),據(jù)不完全統(tǒng)計(jì),現(xiàn)在因?yàn)轱w機(jī)事故喪生的人數(shù)是20年前的15倍”。“北京2012年離婚率是39%,有點(diǎn)不敢結(jié)婚。居全國(guó)之首,預(yù)計(jì)到2017年將超過(guò)50%。”“甲同學(xué)期末五科總分450分,乙同學(xué)期末五科總分460分,乙同學(xué)比甲同學(xué)優(yōu)秀”。接下來(lái)這個(gè)是最常見(jiàn)的,“2015年,全國(guó)32個(gè)主要城市平均薪酬為6070元”。最后是參軍海報(bào)上寫的,“美國(guó)海軍的死亡率為千分之九,而同期的紐約死亡率為千分之十六。所以參軍更安全,鼓勵(lì)大家參軍”。這些都是摘自一些報(bào)刊雜志上或者說(shuō)平時(shí)經(jīng)常會(huì)出現(xiàn)的一些東西。至于為什么感覺(jué)不是騙了你,而是你被它誤導(dǎo)?我們講完這一章之后來(lái)回答,大家也可以想一下,大部分可能已經(jīng)知道在哪有有不對(duì)了。

(圖二)

我們已經(jīng)發(fā)現(xiàn)了很多生活中出現(xiàn)的“騙”或者說(shuō)被誤導(dǎo)的東西,我們?yōu)槭裁催€要統(tǒng)計(jì)。哈佛的統(tǒng)計(jì)學(xué)院的創(chuàng)始人莫斯特勒說(shuō)過(guò)“要用統(tǒng)計(jì)很容易,但是不用統(tǒng)計(jì)騙人就更容易了”。

什么叫做數(shù)據(jù)分析?數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來(lái)的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開(kāi)發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。里面包含兩個(gè)關(guān)鍵信息:第一,有用信息。第二,形成結(jié)論。

第一,有用信息。對(duì)于數(shù)據(jù)來(lái)說(shuō)什么是有用信息?主要是三個(gè)方面的東西:1、數(shù)值。2、比率。3、圖形。它還會(huì)有很多種,但是我們經(jīng)常接觸到的東西比較多的會(huì)是這三種類型。

1、數(shù)值

大家平時(shí)接觸得非常多,算術(shù)平均數(shù)、眾數(shù)、中位數(shù),平均數(shù)大家知道了,眾數(shù)就是一個(gè)數(shù)組里出現(xiàn)得最多次數(shù)的那個(gè)數(shù),中位數(shù)就是它的位置處于那一組數(shù)據(jù)的中間位置的數(shù)字。這三個(gè)數(shù)里面,只有眾數(shù)是真數(shù),它是不會(huì)改變數(shù)本身的任何特性的。中位數(shù)是半假數(shù),因?yàn)楫?dāng)數(shù)組出現(xiàn)偶數(shù)的時(shí)候,它是需要計(jì)算的。只要是你需要第二次計(jì)算的,就會(huì)出現(xiàn)人為操作上的或者是任何形式上的失誤,所以中位數(shù)叫半假數(shù)。而算術(shù)平均數(shù)實(shí)際上就是一個(gè)假數(shù),因?yàn)樗枰氵M(jìn)行二次計(jì)算,而且在計(jì)算的過(guò)程中會(huì)經(jīng)常出現(xiàn)不可意料的坑。

看圖三,三月份投資人數(shù)10個(gè),投資總金額1萬(wàn),平均客單價(jià)1000。到了四月份,投資人數(shù)漲了,投資金額翻一番,平均客單價(jià)是10倍。如果你是做數(shù)據(jù)分析的,一看到這個(gè)數(shù)第一時(shí)間估計(jì)就興奮得崩潰了,真的要這樣往上報(bào)嗎?

(圖三)

它上面寫的是平均客單價(jià),當(dāng)提到“平均”這兩個(gè)字的時(shí)候,需要去看一下數(shù)本身的情況,也就是說(shuō)里面有沒(méi)有異常值。如果說(shuō)你追回去,最后發(fā)現(xiàn)四月份雖然來(lái)了20個(gè)投資人,投資金額這么大,結(jié)果其中一個(gè)投資人自己就投了15萬(wàn)。你再一算,平均客單才2500。結(jié)果你把這個(gè)報(bào)上去,老板跟你說(shuō)“10倍的增長(zhǎng)不錯(cuò),下個(gè)月做平均客單12000吧”,你就把自己坑上了,結(jié)果實(shí)際才2500,也許整個(gè)部門都被你坑上了。

如果真的出現(xiàn)了這樣的數(shù)要往回追溯,我們說(shuō)有坑就要埋,怎么樣來(lái)埋這個(gè)坑?首先你要看整個(gè)數(shù)組里有沒(méi)有異常值,有異常值是不能用平均值的,必須把異常值剔除掉再來(lái)看。

其次,按道理來(lái)說(shuō)數(shù)組里應(yīng)該是看方差,但是實(shí)際工作中我不建議引入更多的數(shù)據(jù)概念。因?yàn)槟軌虻贸鼋Y(jié)論并不是說(shuō)你用的工具越復(fù)雜、越高端越好,而是越能快速、精準(zhǔn)地定位到問(wèn)題并得出結(jié)論越好。所以我會(huì)建議直接用最大、最小值以及中位數(shù)就能看出是否異常,這樣比算方差或者再去理解的標(biāo)準(zhǔn)差的概念更方便,所以我會(huì)建議直接用大家都理解的東西去得出結(jié)論。

2、比率

大家用百分比的更多,可能比看絕對(duì)值看得更多。大家都會(huì)說(shuō)“環(huán)比是什么情況,同比是什么情況”。我們先對(duì)同比和環(huán)比作一個(gè)概念上的區(qū)分。同比是指相同時(shí)間點(diǎn)進(jìn)行比較,比如說(shuō)2015年3月和2016年3月。環(huán)比就是時(shí)間點(diǎn)的比較,比如說(shuō)2015年3月和2015年4月是一個(gè)前后沿的關(guān)系。并不是說(shuō)比例就是我這個(gè)月的比上個(gè)月的,這就是值,沒(méi)什么坑好出現(xiàn)。但是不然,還是有的。我們?cè)賮?lái)挖一個(gè)坑。

看圖四,這是模擬的投資金額數(shù)。這是2015年2月1日到7日,以及2016年2月1日到7日的投資金額分布情況。老板看了這個(gè)數(shù),他就看著你,你就看著圖。如果是這樣的情況,既然有坑,我們就應(yīng)該把坑埋了。特殊日期節(jié)點(diǎn)是不能單純從絕對(duì)日期上進(jìn)行比對(duì)的,最好是以特殊日期本身作為對(duì)比的基準(zhǔn)。比如說(shuō)“春節(jié)前一周的投資金額的比對(duì)”,在這個(gè)時(shí)候尤其要區(qū)分周六和周日的情況,在你看波動(dòng)性的時(shí)候有沒(méi)有周期性波動(dòng)。周六、周日屬于周期性波動(dòng),而這種是屬于特殊日期的節(jié)點(diǎn)性波動(dòng),所以這兩個(gè)在看圖和做圖的時(shí)候都要很小心,一不小心就把自己坑了。

(圖四)

3、圖

這些大家都非常清楚,平時(shí)也用得比較多,包括柱形、餅圖、折線和條形圖。這些圖形有很多是以組合圖的形式出現(xiàn),這里只需要區(qū)分一點(diǎn)就是柱形圖和條形圖用得比較混,可能條形圖主要是區(qū)分類別,而柱形圖更偏向于區(qū)分時(shí)段。所以條形圖有一個(gè)很大的特征在于它的任何軸之間是可以變換位置的,而柱形圖一般不太可以。圖形其實(shí)很容易誤導(dǎo),因?yàn)槿嗽诘谝粫r(shí)間看的時(shí)候是很容易受圖形影響的,我們就來(lái)看看圖的坑在哪?如圖五,如果單純從圖上看大家可以得出什么結(jié)論?

(圖五)

先看上半部分,其實(shí)只是因?yàn)樗臄?shù)標(biāo)軸不一樣,所以在看圖的時(shí)候,尤其是兩個(gè)月的圖形進(jìn)行比對(duì)的時(shí)候,先看的是大情況,基準(zhǔn)線很重要。一個(gè)是0起點(diǎn),一個(gè)是400起點(diǎn),那么400起點(diǎn)的波動(dòng)看上去肯定會(huì)更大。

再看下半部分,看起來(lái)感覺(jué)增長(zhǎng)都是一樣的,但是這個(gè)會(huì)看得比較清楚一點(diǎn)。其實(shí)這兩個(gè)表達(dá)的是同一個(gè)意思,因?yàn)橐粋€(gè)是增量,一個(gè)是基礎(chǔ)量,這個(gè)是兩周期之間的差值,但是看上去一個(gè)增長(zhǎng)明顯,一個(gè)增長(zhǎng)緩慢。這并不是坑,而是說(shuō)你該如何從圖形上表述你的觀點(diǎn)以及該用什么樣的圖形來(lái)表達(dá)這個(gè)事情是怎么樣一個(gè)情況和趨勢(shì)。

剛才已經(jīng)說(shuō)了有用的信息是數(shù),三種數(shù)——真數(shù),半假數(shù)和假數(shù),我現(xiàn)在問(wèn)一下還記得假數(shù)是哪個(gè)數(shù)嗎?平均數(shù),平均數(shù)必須要考慮什么?考慮異常值。

接下來(lái)我們會(huì)形成結(jié)論,對(duì)剛才的信息進(jìn)行判斷之后,我們要形成結(jié)論用什么樣的方法?會(huì)說(shuō)到四種方法:1、對(duì)比。2、拆分。3、增維和減維。4、假設(shè)。

在這里,只會(huì)講一下對(duì)比和拆分,為什么?因?yàn)樵鼍S和減維是在你實(shí)際需要的過(guò)程中主要為了輔助你判斷使用的,而假設(shè)是你需要根據(jù)你得出的結(jié)果或者說(shuō)你得不出結(jié)果的時(shí)候去進(jìn)行一次假設(shè),這個(gè)相對(duì)而言是比較抽象的,而對(duì)比和拆分就是我們平時(shí)使用得最多的兩種方法。

1、對(duì)比

對(duì)比的定義不需要過(guò)多解釋,因?yàn)樵谧耐瑢W(xué)應(yīng)該對(duì)于對(duì)比都比較清楚,平時(shí)也經(jīng)常使用,但是我在這里強(qiáng)調(diào)需要關(guān)注的四個(gè)點(diǎn):

(1)對(duì)比的對(duì)象要一致。什么意思?就是兩個(gè)值之間進(jìn)行比對(duì)的時(shí)候,它基本對(duì)象是一致的。這個(gè)可以回憶一下剛才我們看的報(bào)刊雜志里有些會(huì)誤導(dǎo)你的其實(shí)就是因?yàn)樗谋葘?duì)對(duì)象不一致造成的。

(2)時(shí)間屬性要一致。比如說(shuō)有兩家企業(yè),一家企業(yè)跟你說(shuō)“我的離職率是12%。”你大概心里有數(shù),然后問(wèn)到下一家企業(yè)的時(shí)候,他說(shuō)“你不要去那個(gè),那個(gè)12%不行,我這邊很穩(wěn)定,我才4%。”然后你說(shuō)“不錯(cuò),那就去他那吧”。結(jié)果回頭一問(wèn),一個(gè)是年度的,一個(gè)是月度的,這坑就大了。所以你在時(shí)間屬性上一定要問(wèn)清楚是否一致,當(dāng)然剛才那個(gè)數(shù)只是打個(gè)比方,月度和年度不可能差那么小。

(3)定義和計(jì)算方式一致。這就真的要非常注意,我在以前遇到過(guò),當(dāng)時(shí)是做一個(gè)報(bào)告,要定位的人群是青年人。世界衛(wèi)生組織定義青年人的時(shí)間是從14歲到44歲。國(guó)家統(tǒng)計(jì)局定義青年人為15歲到34歲。所以再一次強(qiáng)調(diào),定義很重要。你說(shuō)的青年人跟我說(shuō)的青年人壓根就不是同一波人,所以在這塊上,定義非常重要。

(4)數(shù)據(jù)源要一致。這與剛才的定義是一樣的,你從國(guó)家統(tǒng)計(jì)局拿數(shù),我從世界衛(wèi)生組織拿數(shù),也許我們倆的數(shù)永遠(yuǎn)都對(duì)不上。所以你的數(shù)也是對(duì)的數(shù),我的數(shù)也是對(duì)的數(shù),我們倆的數(shù)就是對(duì)不上的數(shù)。所以這就是數(shù)據(jù)源的問(wèn)題,一定要很清晰。

2、拆分

拆分是用來(lái)快速定位為有問(wèn)題的字段的,比如說(shuō)成交額出現(xiàn)了異常波動(dòng),你就要把成交額這個(gè)字段進(jìn)行拆分,拆成成交用戶×客單價(jià)。成交用戶又被拆分成訪問(wèn)數(shù)以及轉(zhuǎn)化率。A有問(wèn)題了,B有沒(méi)有問(wèn)題?B和C哪個(gè)有問(wèn)題?B下面的D和E哪個(gè)有問(wèn)題?拆分是為了最快地找到出現(xiàn)異常問(wèn)題的那個(gè)數(shù),也可以用排除法從下到上排。就是說(shuō)哪一個(gè)出現(xiàn)了問(wèn)題就可以快速地解決它,拆分是最大程度地快速定位到需要解決的那一個(gè)模塊上,它是一個(gè)聯(lián)動(dòng)的過(guò)程,每一個(gè)數(shù)值的變化后面可能是有原因的,這個(gè)原因是什么就能快速地找到。所以這是平時(shí)就要建立的一個(gè)邏輯問(wèn)題,這邊也是單獨(dú)拿出來(lái)跟大家講,拆分這個(gè)東西真的非常重要,這個(gè)功課平時(shí)就要做,出現(xiàn)的時(shí)候才能夠找到是哪塊出現(xiàn)問(wèn)題,而不是一到出現(xiàn)問(wèn)題的時(shí)候再去找。

這就是我們先前看到的那些報(bào)刊雜志里的問(wèn)題,我們?cè)賮?lái)回溯一下到底這些數(shù)值誤導(dǎo)了我們什么。

1、有80%的家庭表示后悔要小孩。這就是剛才我說(shuō)的你的統(tǒng)計(jì)對(duì)象必須要一致,為什么不一致?你得出的這個(gè)結(jié)論是情感??膶<彝ㄟ^(guò)讀者的反饋,比如說(shuō)平時(shí)喜歡看一些情感專家的情感多少都有點(diǎn)問(wèn)題,那么他有80%的家庭表示后悔要小孩似乎也能接受了,因?yàn)橐话闶钦l(shuí)有問(wèn)題誰(shuí)吐槽。

2、這還是一個(gè)平均值的問(wèn)題,更確切的表述應(yīng)該是“體感”吧,23度感覺(jué)會(huì)舒適,而不是平均,因?yàn)槟隳_踩火盆頭頂冰同樣也是平均23度,但是那樣會(huì)非常不舒服。所以“平均”這個(gè)詞的使用是要很小心的。

3、現(xiàn)在飛機(jī)喪生的人數(shù)是20年前的15倍,貌似很嚇人,但是它對(duì)比的是絕對(duì)值。從時(shí)間屬性上來(lái)說(shuō),20年前才多少人坐飛機(jī)?才有幾輛飛機(jī)對(duì)吧?其實(shí)這就是要考慮時(shí)間的問(wèn)題,如果是這樣的表述,應(yīng)該是百分比,是說(shuō)當(dāng)年的坐飛機(jī)人數(shù)和喪生的人數(shù)和與現(xiàn)在坐飛機(jī)的人數(shù)和喪生的人數(shù)的比,而不是用絕對(duì)值去直接比。

4、關(guān)于離婚率的問(wèn)題。北京2010年的離婚率是39%,預(yù)計(jì)到2012年要超過(guò)50%?,F(xiàn)在超了嗎?我也沒(méi)關(guān)注。反正這個(gè)數(shù)當(dāng)時(shí)辟謠了幾個(gè)月,最后得出的是統(tǒng)計(jì)方法上的問(wèn)題。按結(jié)婚的跟離婚的比率就是39%。可能更科學(xué)的算法就是離婚的占總?cè)丝诘?,因?yàn)樗撬汶x婚率,所以離婚率應(yīng)該是按人口數(shù)來(lái)算的。

5、甲同學(xué)期末五科的總分是450分,乙同學(xué)期末五科的總分是460分,得出乙同學(xué)比甲同學(xué)優(yōu)秀。這其實(shí)是定義問(wèn)題,就是優(yōu)秀怎么判斷的問(wèn)題。優(yōu)秀是指分?jǐn)?shù)這句話可能問(wèn)題不大,但是比如說(shuō)中間有一個(gè)是特長(zhǎng)生,他在他特長(zhǎng)的那一塊,你也可以說(shuō)他優(yōu)秀。這就是關(guān)于優(yōu)秀的定義不一樣。

6、平均薪酬不用說(shuō),出來(lái)的時(shí)候大家每年都吐槽,都是被馬云爸爸坑了,都是“被平均”的那個(gè)。

7、關(guān)于海軍死亡率的問(wèn)題就是剛剛提到的關(guān)于統(tǒng)計(jì)對(duì)象的問(wèn)題,海軍的死亡率雖然是千分之九,但是死的都是身體健康青壯年。而同期紐約死亡率雖然為千分之十六,它有可能是因?yàn)榻煌ㄊ鹿?、病、老等各種原因。本身的統(tǒng)計(jì)對(duì)象都不一樣,所以你要得出“參軍更安全”的結(jié)論本身就是誤導(dǎo),所以大家都不會(huì)相信。

第三章:數(shù)據(jù)分析的作用——職場(chǎng)發(fā)展需要

當(dāng)然,也不是說(shuō)數(shù)據(jù)分析那么神乎其神,而是如果有這樣的數(shù)據(jù)分析的思維方式,會(huì)使工作更加便捷,就像得出結(jié)論或者說(shuō)反饋一些信息的時(shí)候不至于誤導(dǎo)別人或者說(shuō)被別人誤導(dǎo)。相對(duì)于職場(chǎng)發(fā)展的需要,前面兩塊幾乎都是一個(gè)基礎(chǔ),因?yàn)椴荒苷f(shuō)數(shù)據(jù)分析是一個(gè)工具,而只能說(shuō)是一種能力,這種能力需要經(jīng)常去培養(yǎng)。我講到職場(chǎng)發(fā)展的需要是在中間單獨(dú)拎出一塊來(lái)說(shuō),平時(shí)大家也遇到比較多的就是關(guān)于怎樣提數(shù)據(jù)需求。因?yàn)楹芏嗤瑢W(xué)不會(huì)直接接觸到數(shù)據(jù)庫(kù),可能會(huì)提很多需求給提數(shù)據(jù)的那個(gè)人,中間會(huì)產(chǎn)生很多溝通成本,可能得出的結(jié)論也不是自己需要的。其實(shí)提數(shù)據(jù)的需求就是從Word轉(zhuǎn)成Excel的過(guò)程。

接下來(lái)我們說(shuō)幾個(gè)點(diǎn),不說(shuō)完全能覆蓋,但是這幾個(gè)點(diǎn)平時(shí)忽視得比較多,需要關(guān)注。就是Word的這句話如何拆分、如何定義、目的是什么、限制條件是什么,很多同學(xué)會(huì)問(wèn)“目的難道不是應(yīng)該排在數(shù)據(jù)分析得第一位嗎?沒(méi)有目的怎么提數(shù)”但是有時(shí)候你想分析一個(gè)東西的時(shí)候,你是模糊的,你是不太知道你到底是為了干嘛,但是我就想知道,很多人會(huì)有這樣的想法。你在拆分和定義這句話的時(shí)候,你的目的會(huì)越來(lái)越清晰,所以我才把你最核心的目的放在第三塊,那么到了第三塊的時(shí)候,對(duì)于為什么要提這個(gè)數(shù),你已經(jīng)非常清晰了。

舉個(gè)簡(jiǎn)單的例子,這是一個(gè)初步的想法,他就說(shuō)“我想知道近期有短標(biāo)投資行為的用戶的復(fù)投行為”??赡芫褪呛芎?jiǎn)單,就是說(shuō)我想知道這個(gè)東西。然后我們對(duì)它進(jìn)行拆分,它的核心字段是定語(yǔ)后面的主語(yǔ),他就是想看復(fù)投行為。它的定語(yǔ)是什么樣的復(fù)投行為?是近期的、買過(guò)短期的、有過(guò)投資行為的用戶的復(fù)投行為。那么就是把這樣一個(gè)Word的文字表達(dá)變成了字段的形式,這是第一步拆分。

然后我們要定義它。什么叫做復(fù)投?

(1)復(fù)投是指單筆到期之后再投還是說(shuō)這個(gè)用戶第二次再投資了?這是要區(qū)分的。

(2)“復(fù)投”、“行為”是核心,行為是指質(zhì)還是量?我要的是復(fù)投的金額占比還是復(fù)投的次數(shù)?你到底是要分析什么?這個(gè)投資的行為到底是什么行為?

然后再是近期,近期是一個(gè)月、三個(gè)月還是半年?如果說(shuō)你是單筆到期復(fù)投之后,你的近期就要和它的投資標(biāo)的相關(guān)。如果近一個(gè)月,你要說(shuō)單筆到期再?gòu)?fù)投根本就不會(huì)有數(shù)。所以這需要考慮清楚。

然后就是短標(biāo)。短標(biāo)是15天還是30天的?你是怎么界定它的?這個(gè)標(biāo)包不包括新手標(biāo)?

然后就是投資行為。因?yàn)槟闵厦嬲f(shuō)的是近期有短標(biāo)投資行為,是首次投資短標(biāo)行為還是只要近期有過(guò)投資的行為?

最后就是用戶。用戶好像也很容易界定,它是首投用戶還是復(fù)投用戶?當(dāng)然復(fù)投用戶在這里應(yīng)該是不存在,但是你還是要對(duì)用戶本身進(jìn)行界定,因?yàn)樗獙?duì)象清晰。

只有你自己把這些都理清楚了之后,你就知道你的目的是什么、你會(huì)得出什么結(jié)論,當(dāng)你把你的這句話拆成這樣的核心內(nèi)容以及定義完之后,你就會(huì)知道你這個(gè)數(shù)提出來(lái)會(huì)得到什么結(jié)論,那么你就知道你的目的是什么。像很多時(shí)候提數(shù)之前我會(huì)問(wèn)“你要什么數(shù)你想清楚了沒(méi)有?”其實(shí)這就是想清楚的過(guò)程。

至于限制條件就是有些條件需要特別清晰,比如說(shuō)短標(biāo)包不包括新手標(biāo),這是作為限制條件。如果你要的復(fù)投行為只是說(shuō)他有沒(méi)有過(guò),那么限制條件只要判斷他是否有復(fù)投行為,而不需要提到他復(fù)投了多少次、多少錢。

所以在提數(shù)據(jù)需求的時(shí)候,我當(dāng)時(shí)有幾個(gè)建議:不是非常必要的字段越少越好。因?yàn)橐粋€(gè)人能分析的字段是有限的,不可能一個(gè)人覆蓋到七、八個(gè)或者九、十個(gè)詞,這樣兩兩關(guān)聯(lián)會(huì)很難判斷,因?yàn)橹虚g的因素太多了,最好就是兩到三個(gè)詞,能聚焦到核心內(nèi)容。

其實(shí)這些就是實(shí)際工作中可能會(huì)涉及到的一些內(nèi)容,今天總共作了三個(gè)方面的分享:

第一、數(shù)據(jù)分析在生活中的一些情況。

第二、會(huì)誤導(dǎo)你的一些數(shù)。

第三、從實(shí)用的角度談?wù)勌釘?shù)據(jù)需求所關(guān)注的一些點(diǎn)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦