在分類資料統(tǒng)計(jì)分析中我們常會(huì)遇到這樣的資料,如兩組大白鼠在不同致癌劑作用下的發(fā)癌率如下表,問兩組發(fā)癌率有無差別?
處理 | 發(fā)癌數(shù) | 未發(fā)癌數(shù) | 合計(jì) | 發(fā)癌率% |
甲組 | 52 | 19 | 71 | 73.24 |
乙組 | 39 | 3 | 42 | 92.86 |
合計(jì) | 91 | 22 | 113 | 80.33 |
52 19
39 3
是表中最基本的數(shù)據(jù),因此上表資料又被稱之為四格表資料??ǚ綑z驗(yàn)的統(tǒng)計(jì)量是卡方值,它是每個(gè)格子實(shí)際頻數(shù)A與理論頻數(shù)T差值平方與理論頻數(shù)之比的累計(jì)和。每個(gè)格子中的理論頻數(shù)T是在假定兩組的發(fā)癌率相等(均等于兩組合計(jì)的發(fā)癌率)的情況下計(jì)算出來的,如第一行第一列的理論頻數(shù)為71*91/113=57.18,故卡方值越大,說明實(shí)際頻數(shù)與理論頻數(shù)的差別越明顯,兩組發(fā)癌率不同的可能性越大。
利用統(tǒng)計(jì)學(xué)軟件分析結(jié)果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
統(tǒng)計(jì)量 | 自由度 | 值 | 概率 |
卡方 | 1 | 6.4777 | 0.0109(有統(tǒng)計(jì)學(xué)意義) |
似然比卡方 | 1 | 7.3101 | 0.0069 |
連續(xù)校正卡方 | 1 | 5.2868 | 0.0215 |
Mantel-Haenszel 卡方 | 1 | 6.4203 | 0.0113 |
Phi 系數(shù) | -0.2394 | ||
列聯(lián)系數(shù) | 0.2328 | ||
Cramer 的 V | -0.2394 |
假設(shè)有兩個(gè)分類變量X和Y,它們的值域分另為{x1, x2}和{y1, y2},其樣本頻數(shù)列聯(lián)表為:
y1 | y2 | 總計(jì) | |
x1 | a | b | a+b |
x2 | c | d | c+d |
總計(jì) | a+c | b+d | a+b+c+d |
若要推斷的論述為H1:“X與Y有關(guān)系”,可以利用獨(dú)立性檢驗(yàn)來考察兩個(gè)變量是否有關(guān)系,并且能較精確地給出這種判斷的可靠程度。具體的做法是,由表中的數(shù)據(jù)算出隨機(jī)變量K^2的值(即K的平方)
K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d為樣本容量
K^2的值越大,說明“X與Y有關(guān)系”成立的可能性越大。
當(dāng)表中數(shù)據(jù)a,b,c,d都不小于5時(shí),可以查閱下表來確定結(jié)論“X與Y有關(guān)系”的可信程度:
P(K^2≥k) | 0.50 | 0.40 | 0.25 | 0.15 | 0.10 |
k | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 |
P(K^2≥k) | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
k | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
例如,當(dāng)“X與Y有關(guān)系”的K^2變量的值為6.109,根據(jù)表格,因?yàn)?.024≤6.109<6.635,所以“X與Y有關(guān)系”成立的概率為1-0.025=0.975,即97.5%。