實(shí)驗(yàn)員需要掌握的統(tǒng)計(jì)知識(shí)

2022-10-13 17:51:09 admin

統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析的基石。學(xué)了統(tǒng)計(jì)學(xué)，你會(huì)發(fā)現(xiàn)很多時(shí)候的分析并不靠譜。比如很多人都喜歡用平均數(shù)去分析一個(gè)事物的結(jié)果，但是這往往是粗糙的，不準(zhǔn)確的。如果學(xué)了統(tǒng)計(jì)學(xué)，那么我們就能以更多更科學(xué)的角度看待數(shù)據(jù)。

大部分的數(shù)據(jù)分析，都會(huì)用到統(tǒng)計(jì)方面的以下知識(shí)，可以重點(diǎn)學(xué)習(xí)：

基本的統(tǒng)計(jì)量：均值、中位數(shù)、眾數(shù)、方差、標(biāo)準(zhǔn)差、百分位數(shù)等
概率分布：幾何分布、二項(xiàng)分布、泊松分布、正態(tài)分布等
總體和樣本：了解基本概念，抽樣的概念
置信區(qū)間與假設(shè)檢驗(yàn)：如何進(jìn)行驗(yàn)證分析
相關(guān)性與回歸分析：一般數(shù)據(jù)分析的基本模型

通過基本的統(tǒng)計(jì)量，你可以進(jìn)行更多元化的可視化，以實(shí)現(xiàn)更加精細(xì)化的數(shù)據(jù)分析。這個(gè)時(shí)候也需要你去了解更多的Excel函數(shù)來實(shí)現(xiàn)基本的計(jì)算，或者python、R里面一些對(duì)應(yīng)的可視化方法。

有了總體和樣本的概念，你就知道在面對(duì)大規(guī)模數(shù)據(jù)的時(shí)候，怎樣去進(jìn)行抽樣分析。

你也可以應(yīng)用假設(shè)檢驗(yàn)的方法，對(duì)一些感性的假設(shè)做出更加精確地檢驗(yàn)。

利用回歸分析的方法，你可以對(duì)未來的一些數(shù)據(jù)、缺失的數(shù)據(jù)做基本的預(yù)測(cè)。

了解統(tǒng)計(jì)學(xué)的原理之后，你不一定能夠通過工具實(shí)現(xiàn)，那么你需要去對(duì)應(yīng)的找網(wǎng)上找相關(guān)的實(shí)現(xiàn)方法，也可以看書。先推薦一本非常簡(jiǎn)單的：吳喜之-《統(tǒng)計(jì)學(xué)·從數(shù)據(jù)到結(jié)論》。

另外，如何精力允許，請(qǐng)掌握一些主流算法的原理，比如線性回歸、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析、聚類、協(xié)同過濾、隨機(jī)森林。再深入一點(diǎn)，還可以掌握文本分析、深度學(xué)習(xí)、圖像識(shí)別等相關(guān)的算法。關(guān)于這些算法，不僅需要了解其原理，你最好可以流暢地闡述出來，還需要你知曉其在各行業(yè)的一些應(yīng)用場(chǎng)景。如果現(xiàn)階段不是工作剛需，可不作為重點(diǎn)。

本文算是一個(gè)知識(shí)點(diǎn)匯總，不做細(xì)致展開，讓大家了解統(tǒng)計(jì)學(xué)有哪幾大塊，每一類分別用于什么樣的分析場(chǎng)景。后面幾篇會(huì)以實(shí)際案例的方式，細(xì)致講講描述性統(tǒng)計(jì)、概率分布等。

知識(shí)點(diǎn)匯總：

1.集中趨勢(shì)

2.變異性

3.歸一化

4.正態(tài)分布

5.抽樣分布

6.估計(jì)

7.假設(shè)檢驗(yàn)

8.T檢驗(yàn)

一、集中趨勢(shì)

實(shí)驗(yàn)員需要掌握的統(tǒng)計(jì)知識(shí)

1.眾數(shù)

出現(xiàn)頻率最高的數(shù)；

2.中位數(shù)

把樣本值排序，分布在最中間的值；

樣本總數(shù)為奇數(shù)時(shí)，中位數(shù)為第(n+1)/2個(gè)值；

樣本總數(shù)為偶數(shù)時(shí)，中位數(shù)是第n/2個(gè)，第(n/2)+1個(gè)值的平均數(shù)；

3.平均數(shù)

所有數(shù)的總和除以樣本數(shù)量；

現(xiàn)在大家接觸最多的概念應(yīng)該是平均數(shù)，但有時(shí)候，平均數(shù)會(huì)因?yàn)槟承O值的出現(xiàn)收到很大影響。舉個(gè)小例子，你們班有20人，大家收入差不多，19人都是5000左右，但是有1個(gè)同學(xué)創(chuàng)業(yè)成功了，年入1個(gè)億，這時(shí)候統(tǒng)計(jì)你們班同學(xué)收入的“平均數(shù)”就是500萬了，這也很好的解釋了，每年各地的平均收入數(shù)據(jù)出爐，小伙伴們直呼給祖國拖后腿了，那是因?yàn)榇蠹沂杖氡黄骄?，此時(shí)，“中位數(shù)”更能合理的反映真實(shí)的情況；

二、變異性

實(shí)驗(yàn)員需要掌握的統(tǒng)計(jì)知識(shí)

1.四分位數(shù)

上面說到了“中位數(shù)”，把樣本分成了2部分，再找個(gè)這2部分各自的“中位數(shù)”，也就把樣本分為了4個(gè)部分，其中1/4處的值記為Q1，2/4處的值記為Q2，3/4處的值記為Q3

2.四分位距 IQR=Q3-Q1

3.異常值

小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);

對(duì)于異常值，我們?cè)跀?shù)據(jù)處理的環(huán)節(jié)就要剔除；

4.方差

5.平方偏差

方差的算術(shù)平方根

6.貝塞爾矯正：修正樣本方差

實(shí)際在計(jì)算方差時(shí)，分母要用n-1，而不是樣本數(shù)量n。原因在于，比如在高斯分布中，我們抽取一部分的樣本，用樣本的方差表示滿足高斯分布的大樣本數(shù)據(jù)集的方差。由于樣本主要是落在x=u中心值附近，那么樣本如果用如下公式算方差，那么預(yù)測(cè)方差一定小于大數(shù)據(jù)集的方差（因?yàn)?span style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; letter-spacing: 0.544px;">高斯分布的邊沿抽取的數(shù)據(jù)也很少）。為了能彌補(bǔ)這方面的缺陷，那么我們把公式的n改為n-1，以此來提高方差的數(shù)值，這種方法叫貝塞爾矯正系數(shù)。

三、歸一化

實(shí)驗(yàn)員需要掌握的統(tǒng)計(jì)知識(shí)

1.標(biāo)準(zhǔn)分?jǐn)?shù)

一個(gè)給定分?jǐn)?shù) 距離平均數(shù) 多少個(gè)標(biāo)準(zhǔn)差？

標(biāo)準(zhǔn)分?jǐn)?shù)是一種可以看出某分?jǐn)?shù)在分布中相對(duì)位置的方法。

標(biāo)準(zhǔn)分?jǐn)?shù)能夠真實(shí)的反映一個(gè)分?jǐn)?shù)距離平均數(shù)的相對(duì)標(biāo)準(zhǔn)距離。

四、正態(tài)分布

實(shí)驗(yàn)員需要掌握的統(tǒng)計(jì)知識(shí)

1.定義：隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ，方差為σ⊃2;的正態(tài)分布，記為N(μ,σ⊃2;)

隨機(jī)取一個(gè)樣本，有68.3%的概率位于距離均值μ有1個(gè)標(biāo)準(zhǔn)差σ內(nèi)；

有95.4%的概率位于距離均值μ有2個(gè)標(biāo)準(zhǔn)差σ內(nèi)；

有99.7%的概率位于距離均值μ有3個(gè)標(biāo)準(zhǔn)差σ內(nèi)；

五、抽樣分布

實(shí)驗(yàn)員需要掌握的統(tǒng)計(jì)知識(shí)

1.中心極限定理

設(shè)從均值為μ，方差為σ⊃2;的任意一個(gè)總體中抽取樣本量為n的樣本，當(dāng)n充分大時(shí)，樣本均值的抽樣分布近似服從均值為μ、方差為σ⊃2;/n的正態(tài)分布

2.抽樣分布

設(shè)總體共有N個(gè)元素，從中隨機(jī)抽取一個(gè)容量為n的樣本，在重置抽樣時(shí)，共有N·n種抽法，即可以組成N·n不同的樣本，在不重復(fù)抽樣時(shí)，共有N·n個(gè)可能的樣本。每一個(gè)樣本都可以計(jì)算出一個(gè)均值，這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現(xiàn)實(shí)中不可能將所有的樣本都抽取出來，因此，樣本均值的概率分布實(shí)際上是一種理論分布。數(shù)理統(tǒng)計(jì)學(xué)的相關(guān)定理已經(jīng)證明：在重置抽樣時(shí)，樣本均值的方差為總體方差的1/n。

舉個(gè)例子：

48盆MM豆，計(jì)算出每盆有幾個(gè)藍(lán)色的MM豆，48個(gè)數(shù)據(jù)構(gòu)成了總體樣本。然后隨機(jī)選擇五盆，計(jì)算五盆中含有藍(lán)色MM豆的平均數(shù)，然后反復(fù)進(jìn)行了50次。這就是n為5的樣本均值抽樣。