現在的走勢就是我們進入了一個大數據時代,有了數據我們該分析嗎?數據分析的方法是什么?
一、說明統計
描述性統計是統計方法的總結,揭示了數據分布的特性.主要包括數據頻率分析、數據集中趨勢分析、數據分散程度分析、數據分布和一些基本統計圖形.
1、缺失值填充:常用方法有去除法、平均法、決策樹法.
2、正態檢查:許多統計方法要求數值服從或接近正態分布,因此在進行數據分析前需要正態檢查.常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法.
二、回歸分析
回歸分析是應用極為廣泛的數據分析方法之一.根據觀測數據建立變量之間的適當依賴關系,分析數據的內在規律.
1.一元線性分析
只有一個自變量x與變量y有關,x和y必須是連續變量,變量y或其差異必須遵循正態分布.
2.多元線性回歸分析
使用條件:分析多個自變量x變量y的關系,x和y必須是連續變量,變量y或其差異必須遵循正態分布.
3.Logistic回歸分析
線性回歸模型要求變量為連續正態分布變量,自變量與變量為線性關系,但Logistic回歸模型對變量分布沒有要求,一般用于變量離散時的情況.
4.其他回歸方法:非線性回歸、秩序回歸、Probit回歸、加權回歸等.
三、方差分析
使用條件:各種樣品必須是相互獨立的隨機樣品,各種樣品來自正態分布的整體各個方差相等.
1.單因素方差分析:一個試驗只有一個影響因素,或者有多個影響因素時,只分析一個因素與響應變量的關系.
2.多因素有互動差異分析:一個實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系
3.多因素沒有互動差異分析:分析多個影響因素和反應變量的關系,但影響因素之間沒有影響關系或忽視影響關系
4.協助者的差距祈禱:傳統的差距分析有明顯的缺點,無法控制分析中存在的隨機因素,降低了分析結果的準確性.協調差分析主要是排除協調變量的影響后,對修正后的主要效果進行方差分析,結合線性回歸和方差分析的分析方法.