前言:
當(dāng)產(chǎn)品、流程或系統(tǒng)須進(jìn)行改善時(shí),負(fù)責(zé)人員常須判斷改善前后數(shù)據(jù)的不同,是由改變的效應(yīng)所造成,或只是單純來(lái)自實(shí)驗(yàn)誤差(experimental error)的結(jié)果,其實(shí)并無(wú)顯著差異。
以多層陶瓷電容器﹙Multilayer Ceramic Capacitors﹚為例,內(nèi)部電極厚度﹙inner electrode thickness﹚是網(wǎng)版印刷﹙screen printing﹚製程中相當(dāng)重要的的品質(zhì)特性,在“相同”的製程條件設(shè)定與生產(chǎn)環(huán)境下,不同生產(chǎn)批次所量測(cè)的內(nèi)部電極厚度數(shù)據(jù)自然就有不同程度的差異。因此當(dāng)製程工程師須比較供應(yīng)商所提供的新型網(wǎng)版與現(xiàn)行網(wǎng)版對(duì)內(nèi)部電極厚度是否有不同的效果,進(jìn)而安排并進(jìn)行實(shí)驗(yàn)后,緊接著就要面臨如何分析實(shí)驗(yàn)數(shù)據(jù),才能合理推斷兩種網(wǎng)版在印刷製程中對(duì)內(nèi)部電極厚度所造成的效果有顯著差異,或是實(shí)驗(yàn)觀察的結(jié)果只是來(lái)自實(shí)驗(yàn)誤差的決策問(wèn)題。
此時(shí),顯著性檢定(significance testing),又稱為假設(shè)檢定(hypothesis testing),就在協(xié)助我們針對(duì)類似上述的效果比較問(wèn)題,選擇適當(dāng)?shù)臋z定統(tǒng)計(jì)量及運(yùn)用對(duì)應(yīng)的抽樣分配,在可容忍的錯(cuò)誤機(jī)率前提下,判斷實(shí)驗(yàn)因子水準(zhǔn)(如新型網(wǎng)版與現(xiàn)行網(wǎng)版)改變后的結(jié)果,是否存在值得我們注意的顯著性差異。
實(shí)驗(yàn)誤差:
在正式介紹顯著性檢定的程序之前,先說(shuō)明實(shí)驗(yàn)中產(chǎn)生誤差的必然性。
當(dāng)實(shí)驗(yàn)在盡可能相同的條件下重複進(jìn)行,其實(shí)驗(yàn)結(jié)果的數(shù)據(jù)不會(huì)完全相同,這種在重複實(shí)驗(yàn)情形下所產(chǎn)生的波動(dòng)稱為實(shí)驗(yàn)誤差。實(shí)驗(yàn)誤差是由系統(tǒng)的機(jī)遇變異原因(chance cause)所造成,是無(wú)法避免的,比如:量測(cè)儀器和實(shí)驗(yàn)設(shè)備有限的精度、環(huán)境溫度與濕度的細(xì)微變化、材料本身的純度問(wèn)題、以及操作人員的技術(shù)等都可能是造成實(shí)驗(yàn)誤差的因素。
因此實(shí)驗(yàn)者必須認(rèn)知實(shí)驗(yàn)誤差的存在,對(duì)實(shí)驗(yàn)誤差與相對(duì)應(yīng)的機(jī)率理論,﹙根據(jù)中央極限定理,實(shí)驗(yàn)誤差會(huì)近似常態(tài)分配﹚,要有基本的了解,才能建立將來(lái)學(xué)習(xí)實(shí)驗(yàn)設(shè)計(jì)與分析所必備的扎實(shí)基礎(chǔ)。但在這里要特別注意實(shí)驗(yàn)“誤差”不同于實(shí)驗(yàn)“錯(cuò)誤”,比如:實(shí)驗(yàn)條件設(shè)定錯(cuò)誤、看錯(cuò)或記錯(cuò)量測(cè)數(shù)據(jù)、操作程序或量測(cè)程序錯(cuò)誤、用錯(cuò)材料等。
統(tǒng)計(jì)量﹙statistic﹚與抽樣分配﹙sampling distribution﹚:
因?yàn)閷?shí)驗(yàn)誤差的存在,實(shí)驗(yàn)的反應(yīng)變數(shù)(response variable),如內(nèi)部電極厚度,是一個(gè)隨機(jī)變數(shù)(random variable),其機(jī)率結(jié)構(gòu)可用機(jī)率分配(probability distribution)來(lái)表示。實(shí)務(wù)上,隨機(jī)變數(shù)機(jī)率分配的平均值﹙μ﹚或變異數(shù)﹙σ2﹚等母體參數(shù)(population parameter)的真值是未知的,必須利用隨機(jī)樣本觀測(cè)值,透過(guò)樣本平均值﹙﹚或樣本變異數(shù)﹙s2﹚的公式,計(jì)算得到樣本平均值或樣本變異數(shù)來(lái)推估平均值或變異數(shù)等母體參數(shù)的真值。
統(tǒng)計(jì)量定義為隨機(jī)樣本觀測(cè)值的函數(shù),用來(lái)推論未知母體參數(shù),因此, 和s2均是統(tǒng)計(jì)量。而統(tǒng)計(jì)量的機(jī)率分配稱為抽樣分配,常態(tài)分配、t分配、卡方分配、F分配等都是常見的抽樣分配。(只要知道隨機(jī)樣本是來(lái)自何種類型的母體分配,通常就能夠決定統(tǒng)計(jì)量是屬于哪一種類型的抽樣分配,細(xì)節(jié)可參閱相關(guān)的統(tǒng)計(jì)推論書籍﹙1﹚。)
新型與現(xiàn)行印刷網(wǎng)版的簡(jiǎn)單比較實(shí)驗(yàn):
在不影響多層陶瓷電容器相關(guān)電性與內(nèi)部電極連續(xù)性的前提下,製程工程師希望其內(nèi)部電極厚度可以愈薄愈好,如此便可以減少內(nèi)電極膏的單位使用量,進(jìn)而降低產(chǎn)品單位成本。因此當(dāng)供應(yīng)商提供聲稱可以有效降低內(nèi)部電極厚度的新型網(wǎng)版時(shí),製程工程師便針對(duì)現(xiàn)行網(wǎng)版與新型網(wǎng)版安排并進(jìn)行完全隨機(jī)實(shí)驗(yàn)﹙completely randomized design﹚,分別蒐集10批內(nèi)部電極厚度數(shù)據(jù),如表1。
表1:新型網(wǎng)版與現(xiàn)行網(wǎng)版內(nèi)部電極厚度的實(shí)驗(yàn)數(shù)據(jù)﹙um﹚
這種單純比較兩種條件﹙新型網(wǎng)版與現(xiàn)行網(wǎng)版﹚的實(shí)驗(yàn),通常稱為簡(jiǎn)單比較實(shí)驗(yàn)。
分別計(jì)算兩種不同種類網(wǎng)版其內(nèi)部電極厚度樣本平均值︰
新型網(wǎng)版內(nèi)部電極厚度樣本平均值
現(xiàn)行網(wǎng)版內(nèi)部電極厚度樣本平均值
因?yàn)樵谡5纳a(chǎn)過(guò)程中,批與批之間的數(shù)據(jù)本身就有不同程度的差異,即使兩種網(wǎng)版內(nèi)部電極厚度平均值之間有差異,但是否大到足以顯示兩種網(wǎng)版所造成的效果確實(shí)有差異,或是實(shí)驗(yàn)觀察的差異只是來(lái)自實(shí)驗(yàn)誤差,也許兩種網(wǎng)版其實(shí)效果相同。顯著性檢定便是可以幫助工程師回答此問(wèn)題的一種統(tǒng)計(jì)推論方法。
顯著性檢定(significance testing):
西元1933年,由波蘭人奈曼(Jerzy Neyman, 1894-1981),及英國(guó)人皮爾生(Egon Pearson, 1895-1980),提出著名的奈曼-皮爾生引理(Neyman - Pearson lemma), 奠定了一套假設(shè)檢定的架構(gòu)。
基本上顯著性檢定可以按照以下的步驟進(jìn)行
1. 陳述虛無(wú)假設(shè)與對(duì)立假設(shè)
2. 選擇顯著水準(zhǔn)
3. 隨機(jī)抽取樣本
4. 計(jì)算檢定統(tǒng)計(jì)量與相對(duì)應(yīng)的p值
5. 決定“拒絕”或“接受” 虛無(wú)假設(shè)
現(xiàn)在就簡(jiǎn)要的介紹每一個(gè)步驟
陳述虛無(wú)假設(shè)與對(duì)立假設(shè)︰
以本文個(gè)案為例,雖然供應(yīng)商宣稱在相同的製程條件下,使用新型網(wǎng)版可以降低內(nèi)部電極厚度,但我們先假設(shè)兩種網(wǎng)版對(duì)內(nèi)部電極厚度的效果沒有差異,再蒐集隨機(jī)樣本,從隨機(jī)樣本中判斷是否有“不尋常的證據(jù)”足以“拒絕”原先的假設(shè),否則便“接受”原先的假設(shè)。
現(xiàn)在把它轉(zhuǎn)換成統(tǒng)計(jì)假設(shè)問(wèn)題,首先須陳述虛無(wú)假設(shè)(null hypothesis),以Ho表示,通常虛無(wú)假設(shè)表示無(wú)差異,而對(duì)立假設(shè)(alternative hypothesis)則表示有差異,以Ha表示。正式的陳述方式如下:
雖然我們想證明Ha是真的,然而除非證據(jù)夠強(qiáng),否則不輕易“拒絕”虛無(wú)假設(shè),因?yàn)?ldquo;拒絕”虛無(wú)假設(shè)時(shí),通常就代表要改變現(xiàn)狀,也就是要採(cǎi)用新型網(wǎng)版取代現(xiàn)行網(wǎng)版,當(dāng)然在作決策前須考慮得更周全。因此要從樣本中判斷是否有“不尋常的證據(jù)”足以“拒絕”原先的假設(shè),只是尋常與不尋常要如何區(qū)隔呢?而其中的關(guān)鍵就在于機(jī)率。
選擇顯著水準(zhǔn):
顯著水準(zhǔn)﹙α﹚就是以機(jī)率值來(lái)表達(dá),用來(lái)量化需要多幺“不尋常的證據(jù)”,才能拒絕虛無(wú)假設(shè),也就是當(dāng)隨機(jī)抽樣樣本出現(xiàn)的機(jī)率值小于α時(shí),便可以拒絕虛無(wú)假設(shè),常用的顯著水準(zhǔn)有0.1,0.05,及0.01等,顯著水準(zhǔn)愈小,代表需要愈“不尋常的證據(jù)”,才能否定虛無(wú)假設(shè)。
在本案例中,製程工程師指定顯著水準(zhǔn)α=0.01,表示隨機(jī)抽樣樣本出現(xiàn)的機(jī)率值小于0.01的事件,可以被視為是機(jī)率理論中的小機(jī)率事件,也就是長(zhǎng)期而言,這樣的事件應(yīng)該在100次試驗(yàn)中平均最多出現(xiàn)一次,因?yàn)槌霈F(xiàn)的機(jī)率相當(dāng)?shù)停韺?shí)際上不太可能會(huì)發(fā)生,而如果在一次的隨機(jī)抽樣中就出現(xiàn)了,便是“不尋常的證據(jù)”,因此懷疑原先假設(shè)的合理性,進(jìn)而“拒絕”虛無(wú)假設(shè)。
隨機(jī)抽取樣本
顯著性檢定假設(shè)實(shí)驗(yàn)觀測(cè)值是獨(dú)立隨機(jī)變數(shù)﹙independent random variables﹚,只要以隨機(jī)方式安排實(shí)驗(yàn)進(jìn)行順序,通常就可以滿足此一假設(shè)。本文案例的實(shí)驗(yàn)順序便是以隨機(jī)方式安排進(jìn)行,如表2。
表2:以隨機(jī)方式安排實(shí)驗(yàn)進(jìn)行順序
計(jì)算檢定統(tǒng)計(jì)量與相對(duì)應(yīng)的p值:
如圖1所示的盒鬚圖﹙box-and-whisker plot﹚,可以讓實(shí)驗(yàn)者輕易快速的看出兩種網(wǎng)版的內(nèi)部電極厚度數(shù)據(jù)的變異程度大致上是相同的。(兩母體的變異數(shù)是否有顯著性差異,可以利用F統(tǒng)計(jì)量進(jìn)行檢定,細(xì)節(jié)可參閱相關(guān)的統(tǒng)計(jì)推論書籍﹙1﹚。)
圖1:新型網(wǎng)版與現(xiàn)行網(wǎng)版內(nèi)部電極厚度的盒鬚圖
如果新型網(wǎng)版與現(xiàn)行網(wǎng)版內(nèi)部電極厚度的變異數(shù)無(wú)顯著性差異,便可以利用to統(tǒng)計(jì)量來(lái)比較兩母體平均數(shù)。
其中和是樣本平均值,n1和n2是樣本數(shù), 是共同變異數(shù)(common variance) 的估計(jì)量,其公式為
其中和是樣本變異數(shù),利用表1的實(shí)驗(yàn)數(shù)據(jù),可以得到檢定統(tǒng)計(jì)量
如果Ho為真時(shí),則to檢定統(tǒng)計(jì)量的抽樣分配就是符合自由度為n1+n2-2的t分配,也就是利用t分配,可以描述to檢定統(tǒng)計(jì)量的機(jī)率規(guī)律行為。
因?yàn)閠o=-6.14,自由度為18,運(yùn)用EXCEL軟體內(nèi)建的t分配統(tǒng)計(jì)函數(shù),TDIST(x,degrees_freedom,tails),{ 其中x=to=-6.14,degrees_freedom=自由度=18,tails=1表示回傳單尾分配,tails=2表示回傳雙尾分配,本例為雙尾檢定,因此選擇tails = 2 },依序輸入函數(shù)內(nèi)所需之?dāng)?shù)值后,可以輕易計(jì)算得到比出現(xiàn)to=-6.14更極端值的累積機(jī)率值,也就是p值=0.000008。{ 因?yàn)閠ails = 2,TDIST 以 TDIST = P(|X| > x) = P(X > x or X < -x) 來(lái)計(jì)算 }。
決定“拒絕”或“接受”虛無(wú)假設(shè)
在本案例中,指定顯著水準(zhǔn)α=0.01,因?yàn)橛?jì)算得到p值=0.000008小于α,根據(jù)上述小機(jī)率事件不應(yīng)該在一次試驗(yàn)中就出現(xiàn)的原理,也就是說(shuō),如果Ho為真時(shí),不應(yīng)該會(huì)出現(xiàn)這樣“不尋常”的實(shí)驗(yàn)結(jié)果,因此懷疑原先假設(shè)的合理性,進(jìn)而“拒絕”虛無(wú)假設(shè),所以推論新型網(wǎng)版與現(xiàn)行網(wǎng)版內(nèi)部電極厚度的平均值有顯著性差異。
{ 另一種情形,如果根據(jù)實(shí)驗(yàn)結(jié)果計(jì)算得到p值大于α,則代表樣本未能提供顯著的證據(jù),不能“拒絕”虛無(wú)假設(shè),只好“接受”虛無(wú)假設(shè) }。
兩種錯(cuò)誤類型
依據(jù)實(shí)驗(yàn)數(shù)據(jù)所推論顯著性檢定的結(jié)果,不論是接受或拒絕虛無(wú)假設(shè)都有可能會(huì)犯錯(cuò)誤,以誤判的類型而言,事實(shí)上有兩種可能錯(cuò)誤的機(jī)率,如表3,一種是當(dāng)虛無(wú)假設(shè)為真時(shí),應(yīng)該接受它,卻拒絕它,稱為第一類型錯(cuò)誤,另一種則是虛無(wú)假設(shè)不為真時(shí),應(yīng)該拒絕它,卻接受它,稱為第二類型錯(cuò)誤。
表3:第一類型錯(cuò)誤與第二類型錯(cuò)誤
第一類型錯(cuò)誤,以希臘小寫字母α表示,就是前述檢定的顯著水準(zhǔn),因?yàn)樵跈z定的程序中可以事先指定,所以是我們可以直接控制的錯(cuò)誤風(fēng)險(xiǎn)。當(dāng)檢定計(jì)算所得的p值小于α值時(shí),因?yàn)檎J(rèn)定如果虛無(wú)假設(shè)為真時(shí),不應(yīng)該會(huì)出現(xiàn)這樣的抽樣結(jié)果,所以便決定“拒絕”虛無(wú)假設(shè),但是當(dāng)我們做這樣的決策時(shí),必須理解雖然發(fā)生的機(jī)率相當(dāng)?shù)?,仍?ldquo;有可能”會(huì)發(fā)生,因此有可能我們做了錯(cuò)誤的決策,這就是所謂的第一類型錯(cuò)誤。為儘量避免造成這種錯(cuò)誤,因此要採(cǎi)取較保守的α值,也就是0.1,0.05,或0.01,當(dāng)考量第一類型錯(cuò)誤所衍生的負(fù)面后果可能愈嚴(yán)重時(shí),就要指定愈小的α值。
第二類型錯(cuò)誤,則是以希臘小寫字母β表示。而當(dāng)虛無(wú)假設(shè)不為真時(shí),可以正確的“拒絕”虛無(wú)假設(shè)的能力則稱為檢定力﹙power of test﹚,也就是1減去發(fā)生第二類型錯(cuò)誤的機(jī)率,亦即檢定力=1-β,一般建議檢定力至少為0.8。在指定顯著水準(zhǔn)﹙α﹚后,在相同的樣本數(shù)下,β值會(huì)直接受到檢定對(duì)象的效果差異量﹙effect size﹚的影響,效果差異量愈大,愈容易被發(fā)現(xiàn)其存在顯著差異,β值就愈低,檢定力也就愈高,﹙因?yàn)闄z定力與β兩者機(jī)率值互補(bǔ)正好為100%﹚,如表4。
表4:雙尾t檢定,顯著水準(zhǔn)﹙α﹚=0.01,樣本數(shù)n1=n2=10,在相同的樣本數(shù)下,效果差異量愈大,發(fā)生第二類型錯(cuò)誤的機(jī)率愈低,檢定力也就愈高。
因此,為確保有足夠的檢定力可以發(fā)現(xiàn)檢定對(duì)象特定的效果差異量,就要先計(jì)算需要抽取的隨機(jī)樣本數(shù)大小,方能避免β值過(guò)高,如圖2。
圖2︰雙尾t檢定,顯著水準(zhǔn)﹙α﹚=0.01 ,為確保檢定力至少為0.8,預(yù)期偵測(cè)的效果差異量﹙﹙μ1-μ2﹚∕σ﹚與樣本數(shù)之關(guān)係。
結(jié)語(yǔ):
在真實(shí)的隨機(jī)世界中所提出的統(tǒng)計(jì)假設(shè)是否為真,通常都無(wú)法百分百確定,只能在現(xiàn)實(shí)的條件中,儘可能的減少誤判的機(jī)率。雖然理想狀況是希望兩種錯(cuò)誤機(jī)率皆為0,但通常不存在這種情形,所以進(jìn)行假設(shè)檢定時(shí),要事先考慮可以容忍的推論錯(cuò)誤機(jī)率,以做為判定“拒絕”或“接受”虛無(wú)假設(shè)的準(zhǔn)則。
而顯著性檢定是以保護(hù)虛無(wú)假設(shè)為原則,因此欲“拒絕”虛無(wú)假設(shè),必須掌握“不尋常的證據(jù)”,也就是不應(yīng)該在一次試驗(yàn)中就出現(xiàn)的小機(jī)率事件,i.e. p值<顯著水準(zhǔn)α,發(fā)生的機(jī)率要夠小才能稱為顯著,除非有顯著的差異,否則寧可維持現(xiàn)狀。
當(dāng)“拒絕”虛無(wú)假設(shè),認(rèn)定有顯著性差異時(shí),還要分辨統(tǒng)計(jì)顯著性﹙statistical significance﹚與實(shí)務(wù)顯著性﹙practical significance﹚之間的區(qū)別。如果觀測(cè)的的差異效果,大到某種程度,單純靠機(jī)遇或?qū)嶒?yàn)誤差產(chǎn)生這種結(jié)果的機(jī)率很小,也就是差異效果的發(fā)生并非偶然時(shí),就稱此差異效果有統(tǒng)計(jì)顯著性。而實(shí)務(wù)顯著性則是指差異效果在真實(shí)的世界中是可以產(chǎn)生實(shí)際效用。
因?yàn)橹灰獦颖緮?shù)足夠大,即使是沒有實(shí)務(wù)效益的微小差異也會(huì)造成統(tǒng)計(jì)顯著性。因此當(dāng)檢定結(jié)果有統(tǒng)計(jì)顯著性差異時(shí),還要特別注意其差異在真實(shí)的世界中是否有實(shí)質(zhì)意義,也就是要可以反映技術(shù)或應(yīng)用上的具體改善效益等。
參考文獻(xiàn):
1. Montgomery, D. C. ,and Runger, G.C. ﹙2003﹚. Applied statistics and probability for engineers,Wily, New York.