如果在大數據時代進行完美的網絡數據分析
2016-12-12閱讀量:

1、多來源地收集數據;
2、對數據做初步的清洗整理;
3、著重注意一些可能會造成偏差的數據類型。
一、數據的來源
多來源地收集數據是盡可能地保證數據的全面性,從而能從更多角度地分析問題。一般來說,數據的來源類型主要有點擊流數據、業務運營數據、實驗測試數據、用戶調研數據、行業發展數據、競爭對手數據。1)點擊流數據
點擊流數據主要是解釋 “What” 的問題。一般有以下幾種收集方式。1.通過網站日志的形式獲取得到;
2.通過百度統計等第三方工具獲取;
3.通過對網站埋點的方式獲取;
例如:訪問數、頁面瀏覽數、停留時長等都屬于點擊流數據。
2)業務運營數據
業務運營數據主要解釋”How much”的問題。主要是一些存放在前臺數據庫的數據,這些數據可以直接衡量網站的績效和目標。一般可通過查詢后臺數據獲取。例如:銷售額、訂單量、購買用戶數等指標。3)實驗測試數據
實驗數據主要解釋“Which”的問題。實驗測試數據一般都是臨時采集的,功能是為了某些專題的分析,比如網站改版、用戶體驗的優化等。網站分析中最常見的實驗測試就是A/B測試,即從兩個方案中選擇更優的方案。4)用戶調研數據
用戶調研數據功能主要是去找到“Why”的結果。直接詢問用戶無疑是最有效的,最常見的用戶調研方式是問卷調查,讓用戶直接回答問題來解釋問題的原因。當然,用戶調研屬于典型的定性分析,如果結合定量分析一起進行會更準確。5)行業發展數據
行業發展數據與自身的數掘進行比較,往往可以看到自身存在的不足。很多第三方咨詢分析機構會定期出一些行業的數據報告,可以從這些報告中發掘一些有用的行業信息。6)競爭對手數據
與行業數據一樣,對競爭對手的分析也是發現自身優劣勢的最好方法。而且網站本身為了讓用戶了解到一些信息也會展現一些數據,而這些數據也是分析競爭對手的一種途徑。二、對數據的初步清洗與整理
數據的清洗與整理是為了保證數據的完整性、一致性和準確性。1)數據的完整性
保證數據的完整性就需要盡量減少數據源的缺失值對數據分析帶來的影響。為了之后的統計和分析的需要,一般通過均值、中位數、眾數,或者根據指標的變化趨勢使用回歸分析進行擬合后算出預測值,如果與其他的指標存在相關性,也可以結合其他的指標進行估算。2)數據的一致性
要保證數據的一致性,就要保證整個數據采集階段的描述一致性、記錄一致性、既定的規則一致性。1、描述的一致性:比如省份的細分數據,一個數據源記錄的是“京”,另外一個是“北京市”;這時候可以通過觀察省份字段的所有唯一值排序的結果,這樣類似的不一致的描述就會一目了然。
2、記錄一致性:記錄一致性一般是由于數據的重復錄入,如果發生在數據庫中,我們則可以使用主鍵約束或者唯一約束去避免類似情況的發生。
3、既定的規則一致性:這個要求采集到的數據在總體和細分上保持一致,如果不一致,很有可能就是數據模型的設計或者維表的結構存在問題。當然,也可能是某些指標的定義和計算規則沒有統一。
3)數據的準確性
要保證數據準確性則要提前識別出源數據中存在的異常數據。比如查詢頁面名稱、搜索關鍵詞等數據時,可通過排序(升序、降序)的方法排查異常數據;另外數值明顯過大或過小也是異常值的表現,比如網站某個頁面的訪問量一天一百多億,解決辦法一般是通過限定指標的取值區間,然后再進行查找;還有訪問量、頁面瀏覽量這些指標永遠應該是整數,這些數據如果異常可以使用數據的有效性檢驗去發現是否有非整數值的存在。下一篇:如何巧借心理學進行內容營銷