Tải bản đầy đủ (.pdf) (9 trang)

Tài liệu Kiểm định giả thiết thống kê và ý nghĩa của trị số P(P-value) pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (274.7 KB, 9 trang )


1
7
Kim đnh gi thit thng kê
và ý ngha ca tr s P (P-value)



7.1 Tr s P

Trong nghiên cu khoa hc, ngoài nhng d kin bng s, biu đ và hình nh,
con s mà chúng ta thng hay gp nht là tr s P (mà ting Anh gi là P-value). Trong
các chng sau đây, bn đc s gp tr s P rt nhiu ln, và đi đa s các suy lun phân
tích thng kê, suy lun khoa hc đu da vào tr s P. Do đó, trc khi bàn đn các
phng pháp phân tích thng kê bng R, tôi thy cn phi có đôi li v ý ngha ca tr s
này.

Tr s P là mt con s xác sut, tc là vit tt ch “probability value”. Chúng ta
thng gp nhng phát biu đc kèm theo con s, chng hn nh “Kt qu phân tích
cho thy t l gãy xng trong nhóm bnh nhân đc điu tr bng thuc Alendronate là
2%, thp hn t l trong nhóm bnh nhân không đc cha tr (5%), và mc đ khác bit
này có ý ngha thng kê (p = 0.01)”, hay mt phát biu nh “Sau 3 tháng điu tr, mc đ
gim áp sut máu trong nhóm bnh nhân là 10% (p < 0.05)”. Trong vn cnh trên đây,
đi đa s nhà khoa hc hiu rng tr s P phn ánh xác sut s hiu nghim ca thuc
Alendronate hay mt thut điu tr, h hiu rng câu vn trên có ngha là “xác sut mà
thuc Alendronate tt hn gi dc là 0.99” (ly 1 tr cho 0.01). Nhng cách hiu đó
hoàn toàn sai!

Trong “T đin toán kinh t thng kê, kinh t lng Anh – Vit” (Nhà xut bn
Khoa hc và K thut, 2004), tác gi đnh ngha tr s P nh sau: “P – giá tr (hoc giá
tr xác sut). P giá tr là mc ý ngha thng kê thp nht mà  đó giá tr quan sát đc


ca thng kê kim đnh có ý ngha” (trang 690). nh ngha này tht là khó hiu! Tht ra
đó cng là đnh ngha chung mà các sách khoa Tây phng thng hay vit. Lt bt c
sách giáo khoa nào bng ting Anh, chúng ta s thy mt đnh ngha v tr s P na ná
ging nhau nh “Tr s P là xác sut mà mc đ khác bit quan sát do các yu t ngu
nhiên gây ra (P value is the probability that the observed difference arose by chance)”.
Tht ra đnh ngha này cha đy đ, nu không mun nói là … sai. Chính vì s mù m
ca đnh ngha cho nên rt nhiu nhà khoa hc hiu sai ý ngha ca tr s P.

Tht vy, rt nhiu ngi, không ch ngi đc mà ngay c chính các tác gi ca
nhng bài báo khoa hc, không hiu ý ngha ca tr s P. Theo mt nghiên cu đc
công b trên tp san danh ting Statistics in Medicine [1], tác gi cho bit 85% các tác gi
khoa hc và bác s nghiên cu không hiu hay hiu sai ý ngha ca tr s P. c đn đây
có l bn đc rt ngc nhiên, bi vì điu này có ngha là nhiu nhà nghiên cu khoa hc
có khi không hiu hay hiu sai nhng gì chính h vit ra có ngha gì! Th thì, câu hi cn
đt ra mt cách nghiêm chnh: Ý ngha ca tr s P là gì?  tr li cho câu hi này,

2
chúng ta cn phi xem xét qua khái nim phn nghim và tin trình ca mt nghiên cu
khoa hc.

7.2 Gi thit khoa hc và phn nghim

Mt gi thit đc xem là mang tính “khoa hc” nu gi thit đó có kh nng
“phn nghim”. TheoKarl Popper, nhà trit hc khoa hc, đc đim duy nht đ có th
phân bit gia mt lí thuyt khoa hc thc th vi ngy khoa hc (pseudoscience) là
thuyt khoa hc luôn có đc tính có th “ b bác b” (hay b phn bác – falsified) bng
nhng thc nghim đn gin. Ông gi đó là “kh nng phn nghim” (falsifiability, có
tài liu ghi là falsibility). Phép phn nghim là phng cách tin hành nhng thc
nghim không phi đ xác minh mà đ phê phán các lí thuyt khoa hc, và có th coi đây
nh là mt nn tng cho khoa hc thc th. Chng hn nh gi thit “Tt c các qu đu

màu đen” có th b bác b nu ta tìm ra có mt con qu màu đ.

Có th xem qui trình phn nghim là mt cách hc hi t sai lm! Tht vy, trong
khoa hc chúng ta hc hi t sai lm. Khoa hc phát trin cng mt phn ln là do hc
hi t sai lm mà gii khoa hc không ai chi cãi. Sai lm là đim mnh ca khoa hc.
Có th xác đnh nghiên cu khoa hc nh là mt qui trình th nghim gi thuyt, theo các
bc sau đây:

Bc 1, nhà nghiên cu cn phi đnh ngha mt gi thuyt đo (null hypothesis),
tc là mt gi thuyt ngc li vi nhng gì mà nhà nghiên cu tin là s tht. Thí d
trong mt nghiên cu lâm sàng, gm hai nhóm bnh nhân: mt nhóm đc điu tr bng
thuc A, và mt nhóm đc điu tr bng placebo, nhà nghiên cu có th phát biu mt
gi thuyt đo rng s hiu nghim thuc A tng đng vi s hiu nghim ca placebo
(có ngha là thuc A không có tác dng nh mong mun).

Bc 2, nhà nghiên cu cn phi đnh ngha mt gi thuyt ph (alternative
hypothesis), tc là mt gi thuyt mà nhà nghiên cu ngh là s tht, và điu cn đc
“chng minh” bng d kin. Chng hn nh trong ví d trên đây, nhà nghiên cu có th
phát biu gi thuyt ph rng thuc A có hiu nghim cao hn placebo.

Bc 3, sau khi đã thu thp đy đ nhng d kin liên quan, nhà nghiên cu dùng
mt hay nhiu phng pháp thng kê đ kim tra xem trong hai gi thuyt trên, gi
thuyt nào đc xem là kh d. Cách kim tra này đc tin hành đ tr li câu hi: nu
gi thuyt đo đúng, thì xác sut mà nhng d kin thu thp đc phù hp vi gi thuyt
đo là bao nhiêu. Giá tr ca xác sut này thng đc đ cp đn trong các báo cáo
khoa hc bng kí hiu “P value”. iu cn chú ý  đây là nhà nghiên cu không th
nghim gi thuyt khác, mà ch th nghim gi thuyt đo mà thôi.

Bc 4, quyt đnh chp nhn hay loi b gi thuyt đo, bng cách da vào giá
tr xác sut trong bc th ba. Chng hn nh theo truyn thng la chn trong mt

nghiên cu y hc, nu giá tr xác sut nh hn 5% thì nhà nghiên cu sn sàng bác b gi
thuyt đo: s hiu nghim ca thuc A khác vi s hiu nghim ca placebo. Tuy
nhiên, nu giá tr xác sut cao hn 5%, thì nhà nghiên cu ch có th phát biu rng cha

3
có bng chng đy đ đ bác b gi thuyt đo, và điu này không có ngha rng gi
thuyt đo là đúng, là s tht. Nói mt cách khác, thiu bng chng không có ngha là
không có bng chng.

Bc 5, nu gi thuyt đo b bác b, thì nhà nghiên cu mc nhiên tha nhn gi
thuyt ph. Nhng vn đ khi đi t đây, bi vì có nhiu gi thuyt ph khác nhau.
Chng hn nh so sánh vi gi thuyt ph ban đu (A khác vi Placebo), nhà nghiên cu
có th đt ra nhiu gi thuyt ph khác nhau nh thuc s hiu nghim ca thuc A cao
hn Placebo 5%, 10% hay nói chung X%. Nói tóm li, mt khi nhà nghiên cu bác b
gi thuyt đo, thì gi thuyt ph đc mc nhiên công nhn, nhng nhà nghiên cu
không th xác đnh gi thuyt ph nào là đúng vi s tht.


7.3 Ý ngha ca tr s P qua mô phng

 hiu ý ngha thc t ca tr s P, tôi s nêu mt ví d đn gin nh sau:

Ví d 1. Mt thí nghim đc tin hành đ tìm hiu s thích ca ngi tiêu th
đi vi hai loi cà phê (hãy tm gi là cà phê A và B). Các nhà nghiên cu cho 50 khách
hàng ung th hai loi cà phê trong cùng mt điu kin, và hi h thích loi cà phê nào.
Kt qu cho thy 35 ngi thích cà phê A, và 15 ngi thích cà phê B. Vn đ đt ra là
qua kt qu này, các nhà nghiên cu có th kt lun rng cà phê loi A đc a chung
hn cà phê B, hay kt qu trên ch là do ngu nhiên mà ra?

“Do ngu nhiên mà ra” có ngha là theo lut nh phân, kh nng mà kt qu trên

xy ra là bao nhiêu? Do đó, lí thuyt xác sut nh phân có phn ng dng trong trng
hp này, bi vì kt qu ca nghiên cu ch có hai “giá tr” (hoc là thích A, hoc thích
B).

Nói theo ngôn ng ca phn nghim, gi thit đo là nu không có s khác bit v
s thích, xác sut mà mt khách hàng a chung mt loi cà phê là 0.5. Nu gi thit này
là đúng (tc p = 0.5, p  đây là xác sut thích cà phê A), và nu nghiên cu trên đc lp
đi lp li (chng hn nh) 1000 ln, và mi ln vn 50 khách hàng, thì có bao nhiêu ln
vi 35 khách hàng a chung cà phê A? Gi s ln nghiên cu mà 35 (hay nhiu hn)
trong s 50 thích cà phê A là “bin c” X, nói theo ngôn ng xác sut, chúng ta mun tìm
P(X | p=0.50) =?

 tr li câu hi này, chúng ta có th ng dng hàm rbinom đ mô phng vì
nh nói trên thc cht ca vn đ là mt phân phi nh phân:

> bin <- rbinom(1000, 50, 0.5)

Trong lnh trên, chúng ta yêu cu R mô phng 1000 ln nghiên cu, mi ln có 50 khách
hàng, và theo gi thit đo, xác sut thích A là 0.50.  bit kt qu ca mô phng đó,
chúng ta s dng hàm table nh sau:

> table(bin)

4
bin
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
1 1 2 11 16 24 47 60 83 94 107 132 114 98 65 44 44 26 14 12

34 35
2 3


Qua kt qu trên, chúng ta thy trong s 1000 “nghiên cu” đó, ch có 3 nghiên cu mà
s khách hàng thích cà phê A là 35 ngi (vi điu kin không có khác bit gia hai loi
cà phê, hay nói đúng hn là nu p =0.5). Nói cách khác:

P(X ≥ 35 | p=0.50) = 3/1000 = 0.003

Chúng ta cng có th th hin tn s trên bng mt biu đ tn s nh sau:

Histogram of bin
bin
Frequency
15 20 25 30 35
0 50 100 150 200 250


Tt nhiên chúng ta có th làm mt mô phng khác vi s ln tái thí nghim là
100.000 ln (thay vì 1000 ln) và tính xác sut P(X ≥ 35 | p=0.50).

bin <- rbinom(100000, 50, 0.5)
> bin <- rbinom(100000, 50, 0.5)
> table(bin)
bin
11 12 13 14 15 16 17 18 19 20 21 22 23
4 17 40 83 197 462 946 1592 2719 4098 5892 7937 9733

24 25 26 27 28 29 30 31 32 33 34 35 36
10822 11191 10799 9497 7925 5904 4185 2682 1562 893 455 223 98

37 38 39 40

31 5 7 1

Ln này, chúng ta có nhiu kh nng hn (vì s ln mô phng tng lên). Chng hn nh
có th có nghiên cu cho ra 11 khách hàng (ti thiu) hay 40 khách hàng (ti đa) thích cà

5
phê A. Nhng chúng ta mun bit s ln nghiên cu mà 35 khách hàng tr lên thích cà
phê A, và kt qu trên cho chúng ta bit, xác sut đó là:

> (223+98+21+5+7+1)/100000
[1] 0.00355

Nói cách khác, xác sut P(X ≥ 35 | p=0.50) quá thp (ch 0.3%), chúng ta có bng
chng đ cho rng kt qu trên có th không do các yu t ngu nhiên gây nên; tc có
mt s khác bit v s thích ca khách hàng đi vi hai loi cà phê.

Con s P = 0.0035 chính là tr s P. Theo mt qui c khoa hc, tt c các tr s
P thp hn 0.05 (tc thp hn 5%) đc xem là “significant”, tc là “có ý ngha thng
kê”.

Cn phi nhn mnh mt ln na đ hiu ý ngha ca tr s P nh sau: Mc đích
ca phân tích trên là nhm tr li câu hi: nu hai loi cà phê có xác sut a chung
bng nhau (p = 0.5, gi thuyt đo), thì xác sut mà kt qu trên (35 trong s 50 khách
hàng thích A) xy ra là bao nhiêu? Nói cách khác, đó chính là phng pháp đi tìm tr s
P. Do đó, din dch tr s P phi có điu kin, và điu kin  đây là p = 0.50. bn đc có
th làm thí nghim thêm vi p = 0.6 hay p = 0.7 đ thy kt qu khác nhau ra sao.

Trong thc t, tr s P có mt nh hng rt ln đn s phn ca mt bài báo khoa
hc. Nhiu tp san và nhà khoa hc xem mt nghiên cu khoa hc vi tr s P cao hn
0.05 là mt “kt qu tiêu cc” (“negative result”) và bài báo có th b t chi cho công

b. Chính vì th mà đi vi đi đa s nhà khoa hc, con s “P < 0.05” đã tr thành mt
cái “giy thông hành” đ công b kt qu nghiên cu. Nu kt qu vi P < 0.05, bài báo
có c may xut hin trên mt tp san nào đó và tác gi có th s ni ting; nu kt qu P
> 0.05, s phn bài báo và công trình nghiên cu có c may đi vào lãng quên!


7.4 Vn đ logic ca tr s P

Nhng đng trên phng din lí trí và khoa hc nghiêm chnh, chúng ta có nên
đt tm quan trng vào tr s P nh th hay không? Theo tôi, câu tr li là không. Tr s
P có nhiu vn đ, và vic ph thuc vào nó trong quá kh (cng nh hin nay) đã b rt
nhiu ngi phê phán gay gt. Cái khim khuyt s 1 ca tr s P là nó thiu tính logic.
Tht vy, nu chúng ta chu khó xem xét li ví d trên, chúng ta có th khái quát tin
trình ca mt nghiên cu y hc (da vào tr s P) nh sau:

•  ra mt gi thuyt chính (H+)
• T gi thuyt chính, đ ra mt gi thuyt đo (H-)
• Tin hành thu thp d kin (D)
• Phân tích d kin: tính toán xác sut D xy ra nu H- là s tht. Nói theo
ngôn ng toán xác sut, bc này xác đnh P(D | H-).

×