×
支持199IT發展可加入知識交流群(8K+用戶),最有價值數據分享和討論!
點擊即可加入!
關閉
title_temp-食色软件app下载

騰訊QQ大數據 :從“增長黑客”談數據驅動的方法

食色APP對于增長黑客(Growth Hacker),行業里有一個很清晰的定義就是數據驅動營銷,以市場指導產品,通過技術化手段貫徹增長目標的人。所以這里有一個很核心的理念就是數據驅動營銷和增長,這個也是數據團隊的核心價值所在。經過多年的實戰經驗積累,我們沉淀了一套適用于自身業務的數據驅動方法,希望能夠拿出來跟大家做個分享,歡迎大家關注。

1. 背景

近兩年來,隨著“增長黑客”的概念從大洋彼岸的硅谷傳入國內,相關的理念和方法開始在互聯網技術圈流行起來。2015年,《增長黑客》一書的出版和流行更是把“增長黑客”這個名詞正式帶入了大眾的視野。“增長黑客”近年來興起于美國互聯網創業圈,指的是一種新型的職業或團隊角色,主要是依靠技術和數據的力量來達成營銷目標,而非傳統意義上靠砸錢來獲取用戶的市場推廣角色。因此,增長黑客有一個很重要的理念就是“數據驅動”,也就是通過對數據的分析挖掘來發現有價值的數據洞察,并推動線上的落地應用,再通過A/B test來不斷的迭代優化,最后找到最有效的策略方案,幫助業務實現持續增長。

作為公司歷史最悠久的數據團隊之一,SNG數據中心早在2008年就開始建設專門的數據團隊,9年來一直致力于大數據的分析和挖掘,通過數據來支持SNG業務的發展。在這個過程中,我們也積累了不少的理論方法和實戰經驗,希望能夠拿出來跟大家做個分享。我們的分享計劃分批展開,涉及的內容包括數據基礎能力建設、大盤指標預測、用戶增長分析、營收增長分析、產品優化分析等。后面我們會有相關系列文章陸續發出,這篇文章算是一篇開篇的綜述,旨在讓大家能夠對我們的經驗方法有個整體的了解。當然,數據涉及到的知識體系和領域太過龐大,我們的分享也只是冰山一角,希望能夠給大家帶來一些啟發,歡迎大家關注。

2. 基礎能力建設

問渠那得清如許,為有源頭活水來。數據行當里面有一句老話叫做“Garbage in,garbage out(垃圾進,垃圾出)”,指的就是要從源頭上確保數據的及時和準確,以保證上層的分析和挖掘能夠得出正確的、有價值的結論。SNG的數據異構現象突出,業務上包含了即時通訊(QQ)、社交平臺(QQ空間)、增值產品(QQ會員、黃鉆等)、游戲(手Q游戲、空間頁游)等龐雜的業務體系,而且個個都是海量的數據,不僅如此,隨著公司組織架構的調整我們還經歷過大范圍的PC數據和移動端數據的整合,有大量的歷史遺留問題要解決,復雜程度可想而知。這一節將為大家介紹我們為了管理和維護這么多紛繁復雜的業務數據是如何建設基礎的數據能力的。

2.1 數據上報通道建設

對于大部分的數據挖掘工程師來說,對數據的理解和應用都是從數據倉庫開始的,殊不知,用戶在產品上的每一次操作行為要上報到數據倉庫成為某個庫表中的一行記錄都要經過Agent部署、埋點、上報、轉發、清洗、調度入庫等多個步驟,每一個步驟都需要嚴格保證數據的一致和穩定。在數據量小、數據結構簡單的情況下,這或許不是一件太難的事情,但是面對SNG海量異構的復雜數據環境,要保證好數據的一致、穩定、實時,絕不是一項容易的工作。為了更好的應對海量復雜的數據上報問題,早在2012年,我們就開始了新一代數據上報通道DataCollector(簡稱DC)的建設。經過4年多的持續迭代優化,DC現在每天要支持1P+大小,1萬億+記錄條數的數據的穩定上報,為SNG的底層數據建設立下了汗馬功勞。DC通道的架構可以參考圖1:

食色APP圖1:DC數據上報通道架構圖

食色APP按照DC數據上報通道的架構,我們只需要六步即可完成一次新的數據上報:

食色APP第一步:安裝及檢查DCAgent版本

第二步:按照API文檔進行數據上報埋點

食色APP第三步:創建新的數據接口

第四步:檢查上報通道

第五步:查詢流水數據

第六步:查看入庫情況

2.2 數據體系建設

完善的數據上報通道的建設解決了數據來源的問題,但是海量的數據在上報到數據倉庫的過程中以及上報之后如果沒有科學有效的治理,后果將是災難性的,就像洪水來襲時沒有防洪工程,任由洪水泛濫一樣恐怖。比如在日常的數據工作中,我們經常遇到這樣的情況:數據庫表沒有說明文檔,字段定義和統計邏輯不清晰,業務核心指標口徑不統一,庫表搜索難度大,等等。這些問題都是由于缺乏科學合理的元數據管理和數據體系導致的。SNG在多年的數據工作中也是深受這些問題的困擾。痛定思痛,我們通過規范數據上報、建立標準化接口、規范數據字典等一系列優化措施的執行,針對即時通訊、社交平臺、包月增值等業務,沉淀了一套適合SNG業務特點的數據體系建設的方法。

以社交平臺為例,我們總結了一套適用于社交產品用戶寫操作行為的數據體系如表1以及寫操作維表如表2:

寫操作時間 QQ號碼 寫操作來源 一級操作ID 二級操作ID 寫操作次數
20170313 123456 1(PC) 5 822 5
20170313 123456 2(iOS) 5 823 10
20170313 123456 3(Android) 5 36 15

表1:社交平臺寫操作行為數據體系示例

 

一級操作ID 一級操作名 二級操作ID 二級操作名
5 UGC操作 822 原創
5 UGC操作 823 轉發
5 UGC操作 36 評論回復

表2:社交平臺寫操作維表示例

食色APP該數據體系及維表體系建設起來之后,縱使業務變幻,萬變不離其宗,有新的寫操作功能特性發布之后,只需要按照約定好的數據體系進行埋點上報,同時在維表里添加新的寫操作ID的映射關系,報表即可自動生成,不需要數據分析師再額外開發,可見一個科學的數據體系的重要性,可以大大減少人力成本,提升開發效率。

???????2.3 指標體系建設

曾經聽一個從鵝廠出去創業的同事講過他自己親身經歷的一個創業故事。在他們的產品上線初期,公司最大的目標就是獲取更多的安裝用戶。為了達成這個目標,他組建了一個龐大的線下團隊在各個網點做地推,同時線上也在購買各種渠道和廣告,進行品牌宣傳。一段時間的運營下來,成效顯著,安裝用戶數每天都在成倍甚至十幾倍的增長。就在整個公司上下都在為安裝用戶數的大漲而歡呼雀躍的時候,他自己卻陷入了極大的恐慌之中。因為他發現,在龐大的安裝用戶里,日均活躍用戶數(DAU)非常少,也就是說公司花費了巨大的精力和成本獲取來的用戶,最終卻沒有在產品中留存下來。在接下來的時間里,他迅速調整了公司目標,開始以提升DAU為導向指導運營思路,最終成功的提高了用戶的留存,DAU也隨之改變了之前的頹勢,開始穩步上漲。

同樣的故事在硅谷也發生過。早在?Facebook?成立之前,美國社交網絡的老大是MySpace。MySpace?歷史久,用戶多,還有東家加大金主新聞集團撐腰,從任何一個角度看都應該可以輕易碾壓由幾個大學輟學生創辦的?Facebook,最終卻輸得一敗涂地。其中的原因當然不只一個,但是有一個有趣的區別是:MySpace?公司運營的主要指標是注冊“用戶數”,而?Facebook?在?Mark?的指引下,在成立的早期就把“月活躍用戶數”作為對外匯報和內部運營的主要指標。

食色APP相比之下,從“用戶數”到“月活躍用戶數”,看起來只是多了三個字,卻確保了?Facebook?內部的任何決策都是指向真實持續的活躍用戶增長。

這樣的故事背后,其實考驗的是一家公司或者一個產品的指標體系規劃和建設能力。在“增長黑客”的理念當中,有一個“北極星指標(North Star Metric)”的概念,指的就是有一個唯一重要的的指標,像北極星一樣掛在天空中,指引著全公司上上下下,向著同一個方向邁進。當然,不同的產品形態會有不同的北極星指標,平臺產品關注的是活躍用戶數、活躍留存率這類指標,營收產品關注的是付費用戶數、付費滲透率等等。在不同的產品發展階段,指標體系的規劃也會有所不同。我們對不同的產品形態及產品發展階段的指標體系進行多年的研究之后,針對產品從灰度上線到穩定期的各個階段總結了一套適用于大多數產品的不同發展階段的指標體系,如圖3:

圖3:產品各發展階段的指標體系規劃

3. 用戶增長分析

前面介紹了我們在數據上報、數據體系、指標體系等方面做的基礎建設工作。面對每天上報的1P+大小,1萬億+記錄條數的海量數據,我們當然不會止步于報表開發層面,更加不會讓這些有巨大價值的數據躺在倉庫里面睡大覺。特別是在人口紅利衰減,業務增長乏力的大環境下,如何從海量的數據中挖掘出對用戶、對產品有價值的信息助力業務增長,成了我們數據團隊每天都在思考的問題,這也是“增長黑客”的核心使命。在本節中,我將通過用戶生命周期管理(CLM)和用戶分群兩個在數據精細化運營中經常用到的方法來介紹我們是如何通過數據來驅動業務增長的。

???????3.1?用戶生命周期管理(CLM)

食色APP任何一名產品運營人員,每天思考的無非是這三個哲學上的終極問題:用戶是誰,用戶從哪里來,用戶要到哪里去。為了解決好這三個問題,用戶生命周期管理(Customer Life-Cycle Management)方法應運而生。傳統的用戶生命周期管理基本上包含五個階段:獲取、提升、成熟、衰退、離網,用戶在不同的生命周期階段會有不同的訴求,產品運營上也會有不同的方案和側重點:

圖4:用戶生命周期

食色APP這里有很多數據可以發揮巨大價值的地方,以新用戶獲取為例,通過對歷史新進用戶的特征進行分析和數據建模,我們能夠建立一個預測用戶轉化概率的精準拉新模型,在推廣資源有限的情況下,鎖定高轉化概率的潛在用戶進行資源投放,大大提升投放效率。從我們實際應用的情況來看,通過模型篩選出來的潛在用戶,在轉化率上往往比通過人工經驗判斷篩選出來的用戶有20%-60%的提升,比隨機篩選出來的用戶更是有成倍甚至幾倍的提升。

我們對CLM方法的研究和應用,最早始于2012年,當時跟麥肯錫的駐場團隊一起封閉開發,以新用戶獲取為切入點,整理了8億用戶的近千個特征字段,進行了詳細的數據分析,近十輪的模型迭代,在多個渠道進行了200多次的活動投放試點,試驗用戶群+渠道+文案+活動形式的各種組合,期間還陸陸續續邀請了近百個QQ用戶參加深度訪談調研,驗證我們的數據結論,最終使得實驗組的點擊率比對照組的提升穩定在40%-110%以上。隨后,我們又把在新用戶獲取項目中沉淀下來的經驗和方法復用到了活躍用戶流失預警以及流失用戶拉回的運營活動中,效果都有了顯著的提升,數據在增長分析中的價值得到了有利的驗證。自此,整套的用戶生命周期管理方法就此打磨成型。接下來,我們把這套方法先后在QQ會員游戲聯運項目、空間頁游項目、手Q游戲運營項目中進行了推廣和復用,進一步放大了數據的價值。到今天,CLM的方法和理念已經滲透到了SNG的多個重要業務中,并且還在持續的探索和優化。以手Q游戲運營為例,我們每天都會通過QQ手游公眾號投放數以億計的精準拉新、拉付費、關懷等類型的CLM消息,并且能夠自動采集數據進行效果監控,徹底改變了以前“產品經理提號碼包需求->數據團隊提包(排期)->產品經理上傳號碼包->投放->產品經理提效果統計監控需求->數據團隊開發報表(排期)”的傳統而又痛苦的模式,不僅大大提高了資源使用效率,也幫助業務大大減少了運營成本。

在推廣CLM方法,拓展業務場景的同時,為了更好的服務業務,我們自身的能力建設也沒有停下腳步,特征庫、算法庫、AB test工具等已經日趨完善和成熟,另外值得一提的是,我們近期上線的lookalike功能使得需求的響應速度又有了進一步的提升。以前業務有一個拉新的需求,需要先跟我們溝通需求,我們了解需求之后要經過數據準備、采樣、模型訓練/驗證/部署等過程,這么一個過程下來,快則一兩個星期,慢則一個月,模型才能上線使用,這個對于需求緊急、心情急迫的運營同學來說顯然是不能忍的。現在,運營同學只需要上傳一個種子用戶號碼包就可以通過lookalike功能進行人群擴散,返回跟種子用戶相似的其他用戶進行運營活動的投放,前后只需要一個小時左右,速度有了質的飛躍,當然這也得益于我們投入了很多精力進行基礎特征庫的建設。

???????3.2?用戶分群

食色APPCLM模型建立之后,我們可以通過模型找到更加精準的目標用戶,但是為了把運營活動做的更加精細,我們還需要考慮這些問題:我們的目標用戶的人群屬性怎樣?有什么行為特點和興趣愛好?根據這些應該怎樣設計運營活動。這就要用到用戶分群了。用戶分群從語義上理解就是對用戶群進行細分,不同的用戶群有不同的特征,好的分群能夠幫助業務充分認識群體用戶的差異化特征,從而找到正確的營銷機會、運營方向。所以在數據分析行業里,有一句老話叫做“不細分,毋寧死”,講的就是這個道理。既然用戶分群這么重要,那我們要怎么做呢?用戶分群常見的維度包括以下幾個:

食色APP1.????統計指標:年齡,性別,地域

食色APP2.????付費狀態:免費,試用,付費用戶

3.????購買歷史:未付費用戶,一次付費用戶,多次付費用戶

4.????訪問位置:用戶使用產品的區域位置

5.????使用頻率:用戶使用產品的頻率

食色APP6.????使用深度:輕度,中度,重度用戶

食色APP7.????廣告點擊:用戶點擊了廣告?vs?未點擊廣告

在維度少的情況下,用戶分群是很好做的,比如年齡維度,我們經常會按照人生不同的生命階段進行劃分,再比如活躍維度,我們可以劃分成低活躍、中活躍、高活躍用戶群體。但是當維度增加到幾十個甚至幾百個維度時,人腦就完全處理不過來了,這個時候無監督聚類的方法就派上用場啦。舉個例子,我們采集了以下10幾個維度的數據,需要對用戶進行分群。

圖5:用戶特征維度

食色APP就算經驗再豐富的運營同學,面對這十幾個復雜的數據維度,相信也很難對用戶群進行準確的劃分。而我們借助無監督聚類分析的方法,可以很快的把用戶分成以下幾類:

圖6:用戶無監督聚類結果

食色APP當然這里的結果都是數值信息,還不能直接指導運營方向和思路。但是結合業務理解對數據進行提煉和解讀,我們很容易將數據轉化成人可以理解的用戶分群:

食色APP聚類1特征:年齡未知或低齡,好友少,活躍度和使用粘性都極低【低端低齡群體】

聚類2特征:年齡偏小,前臺在線和消息活躍均比較高【學生活躍群體】

聚類3特征:平均27歲左右,PC端和手機端活躍度均非常高??【職場高粘性群體】

聚類4特征:平均28歲左右,前臺在線和消息活躍都極低【職場低粘性群體】

聚類5特征:年齡較高,手機在線時長高,但消息溝通極少???【高齡低活躍群體】

當運營同學拿到這樣一個科學、可理解的用戶分群結果時,就可以針對不同用戶群體的特征設計符合該群體特點和需求的文案、道具和活動形式。運營活動也必將取得事半功倍的效果。

4. 總結

正如文章開頭所說,數據涉及到的知識體系和領域太過龐大,這里的介紹只是冰山一角,海量的數據中蘊含著豐富的金礦還等著我們去開采。回顧這些年的數據工作,我們在數據類型上,從結構化的用戶行為數據挖到LBS軌跡數據,從關系鏈的圖數據挖到文本數據,在系統架構上,我們也在不斷完善和優化我們的數據系統及架構,為業務提供更好的數據服務。我們一直相信,通過數據驅動來幫助業務增長是數據團隊最大的使命和價值,我們會在這條道路上持續探索,不忘初心,砥礪前行。

來源:

感謝支持199IT
我們致力為中國互聯網研究和咨詢及IT行業數據專業人員和決策者提供一個數據共享平臺。

要繼續訪問我們的網站,只需關閉您的廣告攔截器并刷新頁面。
滾動到頂部