Original Post มาจาก FaceBook ของผมนะครับ <link> ซึ่งถอดความมาจาก article เหล่านี้
“Understanding the Role of P Values and Hypothesis Tests in Clinical Research”, JAMA Cardiol. 2016;1(9):1048-1054
“การตีความผลการศึกษาที่ Positive : ช้าก่อน อย่าเพิ่งดีใจ !”, NEJM 375;10 Sep 8 2016
“result ไม่ sig อย่าเพิ่งร้องไห้กระซิกๆ นะคนดี”, NEJM 375;9: Sep 1 2016

เห็นว่าเป็นเรื่องเดียวกันเลยเอามารวมไว้ด้วยกัน + revise นิดหน่อยเพื่อความถูกต้อง


“Understanding the Role of P Values and Hypothesis Tests in Clinical Research”

ก็เป็นธรรมดาที่เราควรจะสนใจ เพราะเราใช้ p-value กันอยู่ทุกวันใช่ไหมครับ บทความนี้ก็เกริ่นได้น่าสนใจในการอธิบายถึงว่า ทำไม result ของการวิจัยจึงมี error (ค่าของ result ขึ้นกับ true effect size +
tabwhite1. selection of sample (ผมว่ามันเรียกได้ว่า inter-experimental variation)
tabwhite2. variation of each subject (inter-individual variation) ซึ่งซอยย่อยได้เป็น: natural course, previous treatment, competing risk, biological response หรืออีกนัยหนึ่ง ก็คือ confounder
tabwhite3. measurement error (intra-individual variation) หมายถึงความแปรปรวนของการวัดซ้ำๆ ใน subject เดิม เช่น เจาะน้ำตาลปลายนิ้วติดกันสองครั้ง ได้ไม่เท่ากัน

โดย true effect + (2) มีผลมากกับ magnitude ของ result (effect size)
ส่วน (2)+(3) มีผลมากกับ precision ของ study นั้นๆ
และ (1) คือเมฆหมอกรวมๆ ที่มีผลกับทุกสิ่งอัน

ถึงจุดนี้ article ชี้ให้เห็นประเด็นสำคัญว่า
tabwhiteก. p-value ไม่ได้สะท้อนถึง effect size เป็นหน้าที่ของคนอ่านต้องคิดตามว่า clinical sig รึเปล่า
tabwhiteข. p-value นั้น sample size sensitive การศึกษาที่ใหญ่พอ ทุกอย่างจะ sig (เคยเห็น cohort ใหญ่ๆ ที่อายุเฉลี่ยสองแขน = 64 กับ 65 แล้วมันต่างกันอย่าง sig p<0.001 ไหมครับ)
tabwhiteค. p-value ไม่ได้บอก “กลไกของความไม่แม่นยำ” เช่น เมื่อ RR = 0.6 (0.1-1.1) p > 0.05 คนจำนวนมากเมื่อเห็น large p value จะบอกว่า RR 0.6 นี้เกิดขึ้น by chance แต่ในความเป็นจริง มันเกิดจาก error ตรงไหนก็ได้ในข้อ (1)-(3) เราจึงต้องมาวิเคราะห์ methodology กัน อย่าเพิ่ง “reject alternative hypothesis” ไปเฉยๆ
=============================
ทั้งหมดนี้คือสิ่งที่ผมชอบและเข้าใจ(มั้ง)ในบทความ
ทีนี้ part ที่เหลือ จะพูดถึงสองค่ายทีืต่อสู้กันมาเกือบ 100 ปีคือ
A. Fisher’s significance test: p-value
B. Neyman-Pearson Hypothesis test: alpha & beta error
รวบรัด(มากกก)เท่าที่เข้าใจ แต่อาจจะผิด อยากฟังความเห็นผู้รอบรู้ท่านอื่นๆ

Fisher บอกว่า นักวิจัยทั้งหลายเธอจงสมมติ null hypothesis H0 ขึ้นมาว่าเป็นจริง และเมื่อทำการวิจัยได้ผลลัพธ์ออกมาแล้ว p-value ก็คือ ความน่าจะเป็นที่ได้ผลเช่นนั้น (เมื่อ H0 เป็นจริง)
ดังนั้น p-value ที่สูงไม่ได้เป็นการยืนยันว่า H0 is true
และ p-value ที่ต่ำ ก็อาจเกิดจาก H0 นั้นเป็นเท็จ หรือ!! ผลการศึกษานี้เป็นปรากฎการที่เกิดขึ้นได้ยาก (rare event) และควรทดลองซ้ำๆ ให้มั่นใจว่า H0 เป็นเท็จ หรืิอเราเจอของหายากเข้าจริงๆ

ส่วน Neyman บอกว่า ทำวิจัยแล้วต้องได้ข้อสรุปสิ ว่าจะเชื่อ H0 หรือ Alternative hypothesis (Hx) แต่ ok นะ ทุกอย่างมันก็ผิดพลาดกันได้ แต่ถ้าผิดพลาดน้อยๆ เราก็ยอมรับมันเถอะ ข้อผิดพลาดนั้นมี 2 แบบ คือ alpha และ beta error ผิดพลาดเท่าไรจะยอมรับได้น่ะเหรอ? คนทำก็คิดเองสิคุณ! ซึ่งเมื่อระบุ alpha beta แล้ว ก็จะออกแบบงานวิจัยเพื่อให้ได้ “ระเบียบวิธีวิจัย” ที่มีความผิดพลาด 2 ประเภทในระดับที่ยอมรับได้ และตัดสินได้เมื่อเห็นผลว่า เราจะ accept H0 หรือ Hx

สองค่ายนี้ทะเลาะกันหนักมาก ค่ายนึงเป็นนักสถิติ อีกค่ายเป็นนักคณิตศาสตร์ (มั้ง) ที่น่าขำข้อ 1 คือผู้เชี่ยวชาญมากมาย เอาสองค่ายมาปนกัน และพูดเหมือน p-value คือ actual alpha error ซึ่ง piss off ทั้ง Fisher และ Neman อย่างมาก
น่าขำข้อ 2 คือ แม้ alpha beta จะได้รับความนิยมอย่่างมาก (ก็มันช่วยในการคิด sample size ต่างๆ) แต่การแปลผลในปัจจุบัน ส่วนใหญ่จะแปลแบบ Fisher มากกว่า คือ p-value แค่ช่วย reject หรื not reject H0 เท่านั้น (ซึ่ง Fisher แม้จะไม่เห็นด้วยกับการตั้ง Hx แต่ก็เคยพูดไว้กลายๆว่า การ reject H0 ก็คือยอมรับความเป็นไปได้อื่นน่ะแหละ)

กล่่าวสั้นๆ แบบ Fisher ก็คือ
“จงอย่าพูดเรื่องงี่เง่าอย่างการ accept null hypothesis เลยเชียวนะ!”

สรุปว่าอ่านจนจบ ก็ได้ข้อสรุปเดิมกับที่บุรพคณาจารย์สั่งสอนกันมา
“absence of evidence is not an evidence of absence”


การตีความผลการศึกษาที่ Positive : ช้าก่อน อย่าเพิ่งดีใจ !

tabwhiteช่วงเดือนกันยายนที่ผ่านมา NEJM มี series ของบทความเกี่ยวข้องกับการวิเคราะห์วิจารณ์งานวิจัยออกมาชุดหนึ่ง ซึ่งน่าสนใจมากครับ ได้มีโอกาสอ่าน [NEJM 375;10 Sep 8 2016] และ [NEJM 375;9 Sep 1 2016] แล้วชอบมาก อยากให้ทุกคนได้ลองอ่านกัน แต่ก็คิดว่าคนส่วนใหญ่คงมีภาระเยอะ ไม่มีเวลาอ่านเอง ผมเลยจะลองถอดความให้อ่านกันที่นี้นะครับ
(อย่างไรก็ตามในบทความต้นฉบับนั้นจะใช้ paper ทาง cardio มายกเป็นกรณีตัวอย่าง ซึ่งผมว่าดีมาก ถ้าเป็น cardiologist น่าจะฟิน (มั้ง) ส่วนผมฟินกับการวิจารณ์ SPRINT trial ครับ ใจตรงกับคนเขียน 555)

คำว่า positive trial ในความหมายของคนทั่วไปก็คือ “intervention ดีกว่า control ใน primary outcome อย่าง significance” หรือก็คือ p-value ของ primary outcome < 0.05 นั่นเอง ทีนี้เราลองมาดูกันว่า มีประเด็นใดควรพิจารณาบ้าง

1. p-value <0.05 ดีพอไหม …
ขอทบทวนนิดนึง p-value 0.05 แปลว่า ถ้าสมมติให้ Null hypothesis เป็นจริงแล้ว จะมีโอกาสได้ผลงานวิจัยแบบนี้ 5% หรือ 1/20 ครั้ง ซึ่งตีความได้สองอย่างคือ Null hypothesis ไม่จริง หรือ เราโชคร้ายเจอผลลัพธ์ที่หายากพอดี ดังนั้น จะพอใจ p-value ต่ำขนาดไหน ก็ขึ้นกับเรายอมรับโอกาสสรุปผลผิดพลาดได้ขนาดไหน
สมมติว่าโรคที่เราสนใจ มีการรักษามาตรฐานอยู่แล้ว หรือการรักษาใหม่แพงมาก มีโอกาสเกิดผลข้างเคียง (เช่น เคมีบำบัด) แบบนี้เราอาจจะ accept p-value <0.01 หรือ 0.001 ก็ยังได้
กลับกัน ถ้ามียารักษา rabies ล่ะ มันไม่มีอะไรจะเสียแล้ว p-value 0.1 ก็อาจจะเป็นความหวังที่ดีพอ

2. magnitude ของ effect …
ข้อนี้ไม่ต้องอธิบายยาว ทุกคนคงรู้อยู่แล้ว คือ clinical significant นั่นเอง อย่าดูแค่ statistical significance นะครับ

3. primary outcome คืออะไร สำคัญไหม? …
outcomeที่ทุกคนชื่นชอบ แน่นอนว่าเป็น clinical outcome เป็นชิ้นเป็นอันครับ เช่น ตายน้อยลง MIลดลง แต่ด้วยเงื่อนเวลาและ trick ทางสถิติทำให้เกิด outcome แบบอื่นๆ
tabwhite-3.1 surrogate outcome เช่น HbA1C, LDL ข้อดีคือตรงไปตรงมาและเห็นผลเร็วซึ่งบางครั้ง (บ่อยครั้ง) พอติดตามไปนานๆกลับพบว่า clinical outcome เช่น ตาย MI มากขึ้นก็มี
tabwhite-3.2 composite outcome ก็เป็นที่นิยมมากขึ้นเรื่อยๆ จุดประสงค์หลักเลยที่ใช้ ผมคิดว่าคือการเพิ่ม event rate = power สูงขึ้น = ใช้ n น้อยลง ซึ่งต้องดูว่าเมื่อแยกดู outcome ย่อยๆแล้วผลเป็นอย่างไรยังมีแนวโน้มจะดีไหม และประกอบด้วยอะไรบ้าง บางทีรวมเอา outcome ที่ไม่ค่อยน่าสนใจมาด้วยหรือเปล่า
(composite outcome มีผลกับความsignificanceได้สองคมครับ ถ้าเลือกตัวที่ไม่ต่างกันสองกลุ่มมาเยอะๆจะทำให้significanceน้อยลง)

4. Secondary outcome ไปในทางเดียวกันไหม ? …
ส่วนใหญ่ secondary outcome กับ primary จะมี physiologic basis ไปในทางเดียวกัน และมักจะไปด้วยกัน (หรือบางที secondary ก็เป็นส่วนหนึ่งของ primary composite outcome อยู่แล้ว) เช่น ยาที่จุดประสงค์เพื่อลด MI ถ้าลดการตายได้ แต่พอไปดู MI ดันไม่ลดลง แบบนี้อาจมีอะไร fishy

5. ผลลัพธ์ไปทางเดียวกันในแต่ละ subgroup ? …
ในมุมมองของ geriatrics แล้วข้อนี้สำคัญครับ เพราะ trial ส่วนใหญ่มักม่ี extreme elderly เป็นส่วนน้อย ทำให้การนำไปใช้ในคนอายุมากๆๆ ต้องระมัดระวัง ทีนี้ พอซอยกรุ้ปย่อยแล้ว stat อาจไม่ sig เพราะมันทำให้ n น้อยลง แต่เราก็ยังพอดูแนวโน้มได้ และอาจเห็น side effect ที่จำเพาะกับ subgroup มากขึ้น

6. sample size มากพอ ? …
sample size ที่เล็กเกินไป นอกจากจะ power ลดลงแล้ว ในทางกลับกัน ก็อาจจะ exaggerate effect ได้ด้วย
ยกตัวอย่างที่ไร้สาระให้ฟังว่า เทียบโอกาสโยนเหรียญแล้วออกหัว ระหว่างโยนด้วยมือขวา กับโยนด้วยมือซ้าย แน่นอนครับ ถ้าโยนหลายที ผลควรออกมาเท่าๆกันใช่ไหมครับ แต่ถ้าโยนข้างละที อาจจะได้ผลว่า โอกาสออกหัวจากมือขวามากกว่ามือซ้ายเป็นอนันต์

7. Trial stopped early หรือเปล่า ? …
มักเกิดขึ้นในกรณีที่มี interim analysis แล้วใน positive trial ก็จะพบว่า primary outcome ไปถึง threshold ที่ตั้งไว้ คือพบว่า intervention ดีเลิศกว่า control อย่างมาก
ข้อควรระวังคือ ส่วนใหญ่แล้วการเก็บข้อมูลซ้ำๆๆๆ นั้น ผลลัพธ์มักจะค่อยๆเข้าใกล้ค่ากลาง (regression to the mean) ลองนึกถึงตัวอย่างโยนเหรียญเมื่อกี้ก็ได้ครับ จะเห็นได้ว่าถ้าเราตั้งเกณฑ์ไว้ แล้ว outcome ไปแตะเกณฑ์ เราจะมีแนวโน้ม terminate trial ตอนที่ outcome มัน exaggerate!
นอกจากนั้น การหยุด trial เร็วไปยังเสียโอกาสในการติดตามดู rare side effect และ secondary outcome ต่างๆ ด้วย

8. Safety concern …
พูดถึงในแง่ว่า ควรแจกแจง side effect ต่างๆออกมาให้ชัดเจน เพื่อให้ผู้อ่านนำไป balance risk/benefit ได้

9. Risk/Benefit balance นั้นมีความ specific กับ patient หรือไม่ …
ข้อนี้เป็นการรวม 5+8 ไว้ด้วยกัน และมีความซับซ้อนขึ้นหน่อย กล่าวคือเมื่อเราดู benefit กับ risk ในภาพรวมแล้ว พอเราจะเอามาใช้จริงๆ เราบอกได้ไหมว่าคนไข้ของเราในระดับ individual ที่อยู่ตรงหน้านี้ จะได้ risk benefit มากกว่ากัน

10. flaw?
11. applicability?
สองข้อนี้เราทำกันอยู่ทุกวัน(ใช่ไหมครับ) คงไม่ต้องพูดมาก

กล่าวโดยสรุป เมื่อเราเห็นผลที่ positive ขอให้ประเมินตามนี้ แล้วเราจะได้คำตอบสองอย่าง
– เชื่อถือและนำไปใช้ได้หรือยัง -> นำไปสู่ practice changing
– มีคำถามอะไรที่ยังคาใจไม่เคลียร์ -> further research

จะเห็นได้ว่าละทิ้งการอ่าน methods ไม่ได้นะครับ ใครเชื่อแต่หน้า result คือฐานของห่วงโซ่อาหาร และถ้าจะมีใครอยู่ฐานกว่านั้น ก็คือคนไข้ที่เราดูแลครับ อย่าเป็นอย่างนั้น


result ไม่ sig อย่าเพิ่งร้องไห้กระซิกๆ นะคนดี
ถ้า outcome ออกมา p-value > 0.05 จะทำอย่างไรต่อดี

ซึ่งบทความที่แล้วน่าจะเหมาะกับนักอ่าน end-user เพราะ trial ส่วนใหญ่มักเป็น positive trial อยู่แล้ว
ในขณะที่งานวิจัยมุ้งมิ้งที่ resident ทำ (ถ้ามีความอาจหาญพอจะทำ therapeutic trial) มักจะออกมาไม่ significance ด้วยเหตุผลหลายๆอย่าง ข้อคิดของบทความนี้จะช่วยให้เราพิจารณา “negative result” ของเราได้อย่างหล่อมากขึ้น

(โดยส่วนตัวอ่านบทความนี้แล้วรู้สึกเรียงหัวข้อกระจัดกระจายไปหน่อย เลยขอเรียบเรียงจัดหมวดหมู่ใหม่เล็กน้อย)

ก่อนอื่น เมื่อเราได้ผลลัพธ์ที่ไม่ sig (p value > 0.05, 95%CI คร่อมค่า null hypothesis) จะเป็นจากงานของเราเองก็ดี หรืออ่านงานชาวบ้านก็ดี เราควรวิเคราะห์เพื่อให้ได้ข้อสรุป 1 ใน 3 ทาง คือ
A. จริงๆ intervention มันมีประโยชน์นะ ดู…นี่สิ!
B. งานวิจัยอาจจะยังมีหวังนะ ถ้าลองปรับ design ซะหน่อย
C. ถ้ามันไม่ใช่ ก็ควรจะปล่อยวาง แล้วก้าวต่อไป เหมือนคบกับใคร ก็อาจจะให้โอกาสกลับตัวกลับใจแค่ครั้งสองครั้ง อย่าถลำลึกตามืดบอดด้วยความหลงผิด

ข้อสังเกตที่อาจแสดงถึง (A) มีดังนี้
– มี predefined secondary outcome ที่ significance เช่น การออกกำลังกายในคนแก่หง่อมๆ ลด falls ไม่ได้ แต่ลด fracture (injurious falls) ได้, เพิ่ม quality of life ได้เป็นต้น
– นอกจากนั้นยังมีกรณีที่เลือก primary outcome ไม่เหมาะสม เช่น ใช้ composite outcome เป็น primary outcome แล้วมีหลายอย่างเกินไป สิ่งที่เกิดขึ้นคือ “random noise” เช่น ศึกษายาเบาหวาน แล้วใช้ outcome เป็น composite ของ dead MI stroke PAD amputate CKD ฯลฯ ซึ่งบางอย่างย่อยๆ อาจจะ sig บางอย่างไม่ sig ทำให้อันที่ไม่ sig มา dilute ผลที่ sig (เหมือนเขียน CV/resume แล้วใส่ประวัติไร้สาระลงไปเยอะจนเจือจางความสำเร็จที่สำคัญซะงั้น)
– ใช้การ analysis แบบอื่นได้หรือไม่ เช่น เมื่อ intention-to-treat ไม่สำเร็จ ก็ลองไปดู per-protocol, as-treated analysis แทน ซึ่งในบางกรณีก็ดูสมเหตุสมผลมากกว่า ITT โดยเฉพาะเมื่อมีคนที่ผิดจาก ITT จำนวนมาก อนึ่ง analysis พวกนี้อาจจะดู safety profile ของ intervention ได้ดีกว่า ITT ด้วยนะครับ
subgroup และ adjust ตาม covariate ต่างๆ มีผลลัพธ์ที่เปลี่ยนไปหรือไม่ เช่น calcium/Vit D ได้ประโยชน์ในหญิงสูงอายุ แต่ถ้ารวมๆชายหญิงแล้วไม่ sig
เปลี่ยนวิธีนับ outcome สนใจความถี่แทนที่จะสนแค่ first event เท่านั้น เช่น กินน้ำแครนเบอรีแล้วไม่ได้ลดการเกิด UTI ครั้งแรก แต่ลดความถี่ในการเกิด UTI ได้ใน neurogenic bladder (ซึ่ง study ล่าสุดบอกว่าไม่มี benefit แล้วนะครับ)
บอก non-inferiority ได้หรือไม่; intervention ที่จะน่าสนใจเมื่อ “ไม่ด้อยกว่า” control ควรต้องมีข้อดีกว่าในแง่ ผลข้างเคียง ราคา ความสะดวก เช่น NOAC vs Warfarin เป็นต้น
*ทั้งนี้ ทุกข้อที่กล่าวถึงควรจะต้อง predefined คือวางแผนไว้ก่อนว่าจะวิเคราะห์แยกแบบนี้ด้วยจึงจะน่าเชื่อถือ ในกรณีที่เป็น RCT ใหญ่ๆ ผู้เสพควรไปดู protocol ที่ register ไว้ตั้งแต่แรกก่อนจะเชื่อ (เช่น https://clinicaltrials.gov) หลายๆงานวิจัยมีการดัดแปลง protocol ให้ต่างออกไปจากที่เขียนไว้ตอนแรกแบบเนียนๆ ซึ่งน่าสงสัยมาก
** ในกรณีที่ไม่ได้วางแผนไว้ก่อน แต่เราทดลองวิเคราะห์ (post-hoc) แบบนี้ก็ไม่ได้แปลว่าไม่น่าเชื่อ แต่ควรถือว่าสิ่งใดที่พบจาก post-hoc นั้นเป็น “hypothesis generating” และควรมีการศึกษาเพิ่มเติมในประเด็นเดียวกันอีกทีหนึ่ง

(B)ประเด็นที่อาจมองว่าควรปรับปรุงได้ในtrialถัดไปคือ
– underpower หรือเปล่า ซึ่งเกิดได้จาก n น้อยไป, follow up สั้นไป (เช่น ดู mortality แต่ติดตามแค่ปีเดียว), baseline risk ต่ำไป (เช่น อยากดูการลด MI ในคนที่ healthy ไม่มี risk เลยซักข้อ)
– นั่นแปลว่าการเปลี่ยน population, การตรวจติดตามการวัด outcome, อาจเห็น benefit ได้ดีกว่า
– ถ้าเป็นการศึกษายาใหม่ๆเลย เป็นไปได้ไหมว่า dosage ที่ใช้ควรจะปรับ วิธีนึงที่ทำได้คือทำ multi arm เลย แล้ว vary dosage หลายๆ dose
– มี flaw บางอย่างใน design เดิมที่ทำให้เกิด confounder ขึ้น, ผิดไปจาก protocol เดิม หรือไม่

(C) หรือจริงๆแล้วสมมติฐานที่เราพยายามอยากจะพิสูจน์นี้ เป็นเท็จ และเราควรขยำมันทิ้งถังขยะ? … ไม่ควรนะครับ ควรตีพิมพ์ทางใดทางหนึ่ง เพราะอย่างน้อยๆ ก็ให้ชนรุ่นหลังได้เห็นว่าเคยมีคนเดินทางนี้มาแล้ว แล้วล้มเหลว
ลองดูขนาดของ outcome เช่น ถ้า 2 trial มี RR ได้ 0.98 กับ 0.65 แล้วทั้งคู่คร่อม 1, trial ที่ได้ RR 0.65 ย่อมมีลุ้นจะ sig กว่าอีกอันมากๆ ถ้าเพิ่ม power ขึ้นก็อาจจะเห็นความ sig
– มีการศึกษาอื่นๆที่คล้ายของเรา แล้วผลลัพธ์เค้า significance หรือเปล่า ถ้าทุกคนที่มาสายนี้ล้มหมด เราก็อาจจะยอมล้มด้วย หรือไม่ก็พลิกวิกฤตเป็นโอกาส จับมาทำ Meta-analysis ซะเลย
ทบทวนแนวคิดตัวเองอีกทีนึงว่ามันมีความเป็นไปได้ในทาง physiology หรือเปล่า ถ้าคิดไปคิดมา มันดูไม่ค่อย strong แล้ว ก็ถึงเวลาที่จะ”ถอย”

ก็ขอจบบทความเพียงนี้ครับ ลองเอาแนวคิดเหล่านี้ไปใช้ในการ discussion ดู ผมว่าจะช่วยให้เรามองโลกใบนี้ได้รอบคอบมากขึ้น

(จะเห็นได้ว่าหลายๆข้อ เป็นมุมกลับจากบทความที่แล้วนั่นเอง)


จบการ Chronicle 3 article นะครับ, Read well and prosper !

Advertisements