首頁>鋸齒觀點>掀開你對大數據的一切幻想
返回上級

掀開你對大數據的一切幻想

發布:2016-1-29來源:中國統計網點擊:4973

現在一提互聯網,10個人里面一定會有8個人和你談到大數據,那么,什么才是大數據,大數據到底是用來做什么的?

是Hadoop那頭玩具小象?是千萬級別的用戶信息還是動輒XXXTB的數據量?

其實,大數據在我的眼里,不是一門技術,而是一種技能,從數據中去發現價值挖掘價值的技能。

一.大數據的四大誤區

誤區一 大數據就是數據大

“光大是不夠的!”當我擲地有聲用這句話開場時,正好一個妹子推門而入,聽到這句話,微微一怔,低頭坐下。

如今在很多場合,一提起大數據,基本都會說“日處理數據量XXGB,上傳圖片XXGB,并發數XXX”“Hadoop集群擁有XXXX節點,總存儲XXPB”……諸如此類的技術語言。但是不是數據大了,就可以達到大數據的境界,可以一起達到人生的大和諧了?

數據再大,不去使用,呆在機房里偏安一隅,那絕不是大數據,而是敗家子。在這個問題上,傳統的門戶網站基本上就屬于坐擁金山卻無錢上青樓。無論搜狐新浪網易,每天的用戶數以億計,但是除了簡單的廣告呈現,并沒有通過對數據的分析產生更多的價值。之所以沒有提企鵝,是因為他們手里有最龐大的QQ用戶,沒推廣但不代表沒有做,例如當年推出QQ圈子的那種驚艷感,現在想起來還觸目驚心。

而對于中小網站來說,不用盲目追求先進技術牛逼架構。首先需考慮的是商業運作和推廣,只有用戶量飆升見紅的情況下,再去考慮技術升級。給君一個雙選題,A.日登陸用戶1000人,架構完全參照美國亞馬遜從不宕機,B.日登陸用戶10萬人,每天因為高并發不得不宕機三次。你會選什么?

你不覺得“我那個網站因為用戶太多太熱情又宕機了”這句話又驕傲又裝逼么?

誤區二 懂大數據就必須要懂技術

“我不懂技術,我能學會大數據嗎?”

大數據更多的是一種能力,而非技能,這種能力能從無盡的數據里看出商機看出價值。諸葛亮懂兵法,他知道該在哪里伏兵該在哪里生火,他不必知道關羽是如何耍大刀,也不必知道張飛殺人時,蛇矛是扎還是砍。

誤區三 所有公司都必須懂大數據

我承認如果賣煎餅果子的大媽能開發一個APP,拿到客戶對煎餅里薄脆是否爽口,辣椒醬是否夠味的直接意見,那么很有利于產品的改進。但是你會為一個3元錢的煎餅去下載一個8M的APP嗎?

而在移動互聯網大會上,Evernote的CEO Phil Libin明確說自己產品的商業模式就是向用戶收費,讓他們甘心為產品體驗付費,而不玩當下流行的大數據那一套。 知道自己能玩什么很常見,而知道自己不能玩不必玩什么更可貴。

誤區四 數據越多越好

從陳冠希到楊宗瑞,無不透露出濃濃的收藏癖。那些被大家藏在硬盤深處的姑娘們,真的有重見天日的一天嗎?無論東京熱還是加勒比,由來只有新人亞買碟,有誰聽得舊人COME ON?

而搜一搜“存款 貶值”的關鍵詞,從“五十年前的百萬變13塊”,到“一萬元存一年賠19元”都可以看出,錢必須要用才有價值,數據也是一樣。

只有不停的使用數據,挖掘數據背后的關系和價值,才能如滾雪球一般,使數據之間的相互關系更豐富更完善。

二.大數據的核心思想

1.有什么不重要,怎么用才重要

在會上,無奈的發現每當舉男女之間的例子,眾人理解能力就飆升,而講偏產品技術方面時,下面就一臉木然昏昏欲睡。(諸位!!!你們是來聽色情講座呢?)

Netflix公司利用大數據來拍《紙牌屋》的勵志故事大家都聽過無數遍。Netflix是美國最大的DVD與網絡視頻租賃網站,他們在國內有27萬用戶,全球有33萬。他們從29萬的流媒體視頻用戶處收集到的數據是異常驚人的,每一次搜索,每一次暫停,每一次積極或者消極的評價,還有自己的位置數據設備數據社交媒體數據,在分析完這些數據之后,發現自己的這些觀眾都喜歡演員凱文-史派西,還喜歡導演大衛-芬奇,并且喜歡1990年的英國同名電視劇。三項綜合在一起,Netflix就下定決心拍攝《紙牌屋》,并將數據分析運用得淋漓盡致。在Netflix的觀影頁面上,提供暫停后截圖的功能,他們就依靠這種數據來判斷觀眾更喜歡哪種布景和畫面。

當然,這三個因素其實都有不穩定性,例如凱文-史派西也曾拍過只被評了4.2分的《弗雷德圣誕老人》,大衛-芬奇首次執導的《異形3》也成系列中口碑最差的一部。但是從概率上來說,這三個成功因素都包括的劇集更靠譜。

另外國政通推出的“同名同姓”應用,雖然看起來比較偏娛樂化實用性不強,但是這背后的那些身份數據是可以進行各種二次利用。每次看到類似應用,我總會把前同事“操瑞士”的奇葩名字輸進去,現在只有這款應用準確的找到了全國只有1個操瑞士,并且是安徽人。呼叫瑞士大使館迅速鎖定他的位置吧!

所以大數據的核心并不是擁有數據,而是拿數據去做了什么。也就是說你不能僅僅占有人家的身子,也要占據人家的心靈。

2.對數據的容錯性更強,來源更加多樣化

一個500M的用戶數據excel表算不算大數據?曾經在做某款產品的用戶篩選時,這么一個excel成功拖死我電腦三次,我當時憤怒的說:“KAO,這SB大數據!”現在想起來,我冤枉了大數據君,您受苦了。

真正的大數據,應該是從不同維度,不同途徑過來的各種格式數據碎片,并不限于文字/視頻/聲音/位置/圖片等。只有將不同維度的數據放在一起判斷,得出來的趨勢才有可能更真實。雷同的數據積累的再多,超過某一個限度之后,我們再從新樣本上獲得的有用信息就越來越少,就如同經濟學上的邊際效應遞減一樣。而用簡單點兒的話解釋就是如果你已經交往過五個IT碼農,那么第六個其實也不會新鮮到哪里去,倒不如重新調整方向,換個高富帥找點兒不同的刺激。

多樣化的來源同樣可以避免陷在一個死胡同里出不來。例如以前經常說的“三年自然災害”,如果僅僅去查詢這三年的天氣狀況和死亡人數的關系。那么可能最后得出結論是“晴朗天氣比陰天更容易致人死亡”。但實際上如果去結合《人民日報》畝產十萬斤的相關翔實公正報道再加上那些年中國糧食對外進出口情況,那么就會得出更有建設性的結論。在一90后妹子的追問下,只說了四個數字。1958年,中國出口糧食288.34萬噸,進口22.35萬噸。困難時期第一年,1959年,中國出口415.75萬噸,進口0.20萬噸,那年,聽說大家都好餓。別不多說,免得喝茶。

再舉個例子,這兩天淘寶首頁給我推送的個性化廣告除了情趣用品就是“花花公子”服飾大優惠,我不就是為了找素材和配圖搜了一下“情趣用品”么?你們沒完沒了的給我推送這個,節操何在?如果你們能拿到我小學老師的評語,初中老師的評語和操行評定,高中老師的評語和操行評定,通過對多個來源不同的數據源分析,那么你們給我推送的一定會是《鋼鐵是怎么煉成的》《雷鋒日記》等好書。(大學老師的評語就算了,那廝打CS被我蹂躪了太久容易懷恨在心。)

3.擁有大數據的身,也要有大數據的心

以往的數據分析,更多的是精確的樣本/深度的數據挖掘,“精確”就是其代名詞。不符合規格的樣本過濾掉,然后再深度挖掘數據字段間的關系,得出幾個精確無比數字去做PPT,或者從一系列數據里精準的找到某個正一臉猥瑣偷拍姑娘的人。

但是大數據更多的是通過對各種數據分析得出某種趨勢,這種趨勢不必過于精確,但是能讓相關決策人有底氣去做某項決定。大數據不重要,重要的是使用大數據的人。

因為哪怕面向完全相同的數據源,不同的人得出的結論或者決定也可能是截然不同的。三國赤壁大戰,當龐統獻計“若以大船小船各皆配搭,或三十為一排,或五十為一排,首尾用鐵環連鎖,上鋪闊板,休言人可渡,馬亦可走矣”時,同時聽到這話的兩個人,曹操下席而謝,“非先生良謀,安能破東吳耶!”,而徐庶卻私下里扯住龐統“你好大膽,只恐燒不盡絕。”由此可見,“以人為本”是多么精辟的一句廢話啊!

無論你NB還是SB,數據總在那里,不離不棄。

4.強調趨勢和未來

大數據,更多的應該是分析過去,提醒現在,展望未來。無法用到實踐中去的大數據都是耍流氓,無論這個結果是造福了全人類,還是幫助網站提高1%轉化率,這都是有用的。 當年冷戰期間美國和蘇聯研發的高速列車,他們將轟炸機上的渦輪直接裝在了火車頂上。其中美國的M-497號在1966年俄亥俄州的鐵軌上跑出了295.54公里/小時。雖然幾十年后,才有了現代高速鐵路,但是如果沒有最初的這種野蠻實驗,恐怕現在自主研發的高鐵也沒有那么充足的底氣。

談趨勢談大數據,怎么能不提谷歌的流感趨勢呢?谷歌分析自己上億次的搜索查詢,近乎實時的提供全球許多國家和地區的流感疫情評估,從截圖可以看出,谷歌的趨勢曲線跟美國官方公布的數據重合度非常高,但是后者在時間和效率上完全無法比擬谷歌趨勢。

如果你在準備出差的時候,發現你要去的地方正爆發鼠疫,我想大部分人肯定就哭著喊著辭職不去了。

再例如2012年美國某著名避孕套品牌發布校園性健康報告,報告表明在美國大學生中,25%得了性病,其中排名第一的是尖銳濕疣,得病率最高的學校是位于科羅拉多州的美國空軍學院(U.S. AIR FORCE ACADEMY)。然后緊接著,無聊的我又從學院官網中看到學校男生占比78.1%,女生占比21.9%。

從這些數據至少我們可以分析出一個結果:跟海歸一夜情之前,請查一下學位證。

三.大數據應用瞎想

1.醫療服務

通過一系列的病歷等數據,得出某一類人的健康趨勢,例如“做IT8年”“每天加班6小時”“病中還堅持工作”“每天吃盒飯”“每天一包煙提神”“每天一杯咖啡提神”將這些標簽具體到某一群人,然后個性化的推送一條如上圖的信息。

還有人要加班嗎?

2.罪案預警

通過對全市的歷史罪案以及出警紀錄得出城市各種罪案高發區域,例如剁手區/掏包區/性侵區……等等,每天發布提醒,推送到市民的手機/平板等所有終端。我相信性侵區的流氓早晚會不堪重負而投案自首的。

3.大齡青年相親

此想法如果搭配上類似Google Glass的可穿戴設備就更棒了,在上百人的男女相親大會上,你帶著功能齊全的眼鏡四處看妞,系統自動分析各種數據,幫你找到最搭配的另一半,按照匹配度自動走在一起。當然,如果那時紅外線透視功能很發達,能加入匹配度最高可以付費看裸體的VIP功能就更棒了。

四.小結

“刀老師,聽了你的大數據分享,我是否可以這么理解?大數據就是系統根據一個屌絲的年齡/身高/體重/穿衣風格/購物傾向等基本資料,加上以前看A片的頻率/主演/風格/時長/快進次數,并且綜合參考跟我一樣的屌絲群體的女神/播放格式/地區等因素,當我打開電腦,自動給我推薦一部最合適我的A片?”

我看了這段話,久久不能平靜。只有一首歌可以表達我此刻的心情。

“啊~~~~~~~多么痛的領悟!”

你可能喜歡

我們可以幫助您,請聯系我們 0431-86887640

為您提供最專業的售前咨詢,及最優質的售后服務。

宝石女王头奖游戏