2014年11月1日

[研究生入門] 平均數的假設檢定到底在做什麼?

自己一開始在學平均數的假設檢定時,常常被許多莫名奇妙的眾多公式給搞得烏煙瘴氣暈頭轉向的,從一開始看一堆公式像在看天書,到後來大概知道什麼時間要用哪個公式,到最後終於弄通原來所有的檢定幾乎都是在講同一回事也是花了不少的時間,今天就來講講平均數的假設檢定到底在做什麼吧!




說穿了,平均數的假設檢定想要告訴我們的就是A和B到底有沒有不同,更具體來說是平均數A和平均數B有沒有不同,你可能會說一個平均數是50,一個是52當然不同啊!不過統計並不是這麼回事的,再更確切的說,應該是要問A組的平均數50和B組的平均數51有沒有不同,從數值上來說,我們當然知道50和51是不同的(應該沒有疑問吧!?),但是在推論統計的時候,我們想要知道的是回推母群的情況下,A組和B組的平均數是不是不同呢?因此回推母群的時候,A組的平均數會是一個區間(例如,45-55),B組的平均數又是一個區間(例如,46-56),當這兩個區間重疊的程度太多,區隔的不夠開來的時候,我們就沒有辦法說這兩組是不同的了。

讓我們用兩顆蘋果的例子做一個比方:

一開始兩個蘋果分很開的時候,我們一眼就可以判斷「啊~這裡有兩顆不同的蘋果」


可是當這兩顆蘋果越來越靠近


越來越靠近


甚至靠在一起的時候


我們就無法區別這到底是兩顆蘋果還是只是一顆蘋果了,回到剛剛平均數假設檢定的例子,若兩個樣本的平均數差很遠,我們比較容易就可以判斷這兩組平均數是不同的機率比較大,可是當這兩組的平均數越來越接近的時候,我們就越來越難判斷這兩組的平均數是不是真的有區別了,到他們幾乎相等的時候,我們會說,這兩組幾乎不可能(沒有機率)是不同的。

所以簡單來說,平均數的假設檢定,就是想要幫我們檢定這兩顆蘋果到底是不是一樣的(嘎!應該是檢定這兩組樣本的平均數是不是一樣的)。

聽到這我們可能會很高興,因為這樣我們就只要看兩組平均數相減,就可以大概推斷這兩組是不是不同的了!但是事情並沒有這麼簡單。

以最常見的t檢定來說,分子的部分很好理解,其實就是兩組平均數相減的差值,也就是這兩組平均數距離多遠的意思,但是為什麼下面還要除一組看不懂得東西呢?



這裡我們又要回到原初蘋果的例子,但是這時候多了「毛毛蟲」


我們知道如果兩顆蘋果越近的話,毛毛蟲從一顆爬到另一顆只要一下下就可以了,但是兩顆蘋果如果距離越來越遠的話,毛毛蟲就要爬比較久。這麼聽起來似乎很合理,但是等等,我們少考慮了一個東西,那就是「毛毛蟲的大小」

兩顆蘋果的距離雖然一樣,但是比較大隻的毛毛蟲吃完一顆蘋果後很容易就可以走到另一顆



相較之下,小隻的毛毛蟲就要比較辛苦,爬比較遠才到的了另一顆

所以,我們知道,雖然兩顆蘋果的距離一樣,但是因為毛毛蟲的大小不同,所以對他們而言,這兩蘋果的距離也不同,為了要客觀地了解對這兩隻不同的毛毛蟲而言,這兩顆蘋果的距離到底是近還是遠,我們就要考慮毛毛蟲的大小問題,所以我們可能會用兩顆蘋果的距離除上毛毛蟲的大小來當作衡量兩顆蘋果主觀距離的指標。

也就是


等等等,這好像扯遠了,這和我們這裡談的平均數的假設檢定有什麼關係呢?
其實阿!剛剛t檢定下面那一坨,我們可以稱作標準誤,誤差越大,表示我們越難判斷這兩者間的差距到底夠不夠遠。你可以把它想像成是考慮了毛毛蟲的長度的意思,而假設檢定真正在做的就是想要知道這兩者間對毛毛蟲而言從A蘋果走到B蘋果需要多遠。

整理一下,任何的假設檢定其實都是在檢驗兩組平均數到底差了多遠(毛毛蟲從A蘋果到B蘋果要走多遠),分子的部分都是在算兩組平均數數值差了多少(也就是蘋果距離有多遠),分母的部分都是在算標準誤有多大(也就是毛毛蟲的長度)。

幾乎任何的假設檢定都是在做這件事,讓我們來看看一些例子:

單一樣本t檢定


Z檢定


兩獨立樣本t檢定


相依樣本t檢定

用這樣的觀念來了解樣本平均數的假設檢定,你會發現,其實不管公式長怎樣,它代表的意義都是一樣的,也就是平均數A和平均數B之間的距離有幾個標準誤(蘋果A和蘋B之間的距離有幾隻毛毛蟲),只是每個公式裡面毛毛蟲長的樣子不一樣罷了,有了這樣的概念,就不用看到一坨一坨的數字就先感到害怕而不知所措了!



0 意見:

張貼留言