ใน part 1 เราคุยกันเรื่อง concept ของ non-inferiority trial ไปแล้ววันนี้จะมาคุยกันเรื่องของวิธีการกำหนด non-inferiority margin (ขอเรียกสั้นๆว่า margin) และการคิด sample size นะครับ

เพื่อจะพิสูจน์ความ non-inferior ของยาใหม่เทียบกับยามาตรฐาน ผู้วิจัยจะต้องเลือกเส้นแบ่งเส้นหนึ่งขึ้นมา ซึ่งระบุถึง“ความด้อยกว่าที่ยอมรับได้” ก็คือ margin โดยเราจะนำ 95%CI ของผลการรักษา (เช่น RR) มาเทียบว่าทับ margin และเส้น RR=1 (หรือ 0 สำหรับพวก difference) หรือไม่ ส่วนการแปลผลก็ตรงไปตรงมา ไม่ต้องอธิบายนะครับ แต่ละลูกศรหัวขาวคือ95%CI ลองคิดดูเล่นๆ เฉลยไว้ท้ายบทความละกันครับ
ทีนี้โดยปกติแล้วเวลาทำ superiority trial เราจะไม่ตั้ง superiority margin ไว้ แต่ละไว้ให้ discuss กันเองว่าผลที่ stat sig นั้น clinical sig พอหรือเปล่า แต่ในกรณีของ NifT ถ้ามาตั้ง margin ทีหลังทราบผลการวิจัยแล้วก็คงไม่น่าเชื่อถือ พูดอีกอย่างหนึ่งก็คือ

   ทำ NifT โดยไม่มี superiority margin ไว้ก่อน ก็สามารถบอกความ superiority ได้ แต่ ถ้าทำ superiority trial โดยไม่มี margin ไว้ก่อน จะไม่สามารถอ้างความ non-inferiority ในภายหลังได้

  วิธีตั้ง margin
สมมติเราอยากทำ NifT เทียบการรักษาใหม่ (B) กับการรักษา standard (A) ซึ่ง A เนี่ยเคยชนะ Placebo(P) มาแล้วในอดีต concept ของการตั้ง margin ก็คือ
1.)B ไม่ด้อยกว่าAมากจนเกินไป มักจะกำหนดขึ้นมาว่า B ควรมี effect ประมาณกี่ % ของ A และ
2.)B ควรจะชนะ P ด้วย (ไม่สามารถทำการศึกษาขนาดใหญ่ระหว่าง B กับ P โดยตรงได้ เพราะ A เป็น standard เสียแล้ว ถ้าทำ arm P โดยไม่มี A จะผิด ethics)
ขอยกตัวอย่างตามรูปประกอบด้านล่างนะครับmargin.png

ส่วนใหญ่ข้อมูลในการศึกษาเก่าจะสรุปผลเป็น A เทียบกับ P แต่เนื่องจากในการศึกษาที่เรากำลังอ่าน(หรือจะทำ)นี้ เราเอา B มาเทียบกับ A ผมพบว่าจะง่ายกว่าถ้าเปลี่ยนผลการศึกษาเก่าให้เป็น P เทียบกับ A ด้วยจะได้ไปทิศทางเดียวกัน ในกรอบสีเขียวคือกำหนดให้ margin การันตีว่า B มีผลอย่างน้อย 50% ของ A เมื่อมี P เป็นตัวเทียบ หรืออีกนัยหนึ่งก็คือ ถ้าจริงๆแล้ว B แย่กว่า A อย่างน้อยๆ ควรแย่ไม่ถึงครึ่งของ P ซึ่งสามารถคำนวณได้จาก RR หรือ absolute risk ก็ได้ ดังภาพ ซึ่ง%ที่ใช้ นิยมตั้งราวๆ 50-80%
วิธีในกรอบเหลืองคือการใช้ขอบ 95%CI ของการศึกษาเก่ามาเป็น margin โดยขอบที่เลือกนั้นควรเป็นขอบที่ดีที่สุดของ P เพื่อให้เมื่อผลปรากฎว่า 95%CI ของ B ไม่แตะขอบนี้จะได้ยืนยันว่า B นั้นดีกว่า P ได้จริงๆ ถ้าพูดง่ายๆก็คือ” margin ต้องไม่เกินขอบล่างของ 95%CIของ RR ของ P ต่อ A” จริงๆแล้วเราจะคิดกลับกันเป็น RR ของ A:P ก็ได้นะครับ แต่ด้วยเหตุผลเดิมข้างต้น เราดู P:A จะแปลเป็น RR B:A ได้เข้าใจง่ายกว่า

ข้อจำกัดของทั้ง 2 วิธีก็คือจริงๆแล้วไม่มี placebo มาเทียบ ถ้าสมมติ B ไม่แย่กว่า A แล้วจะสรุปได้ว่า B เหนือกว่า P ด้วยนั้น เราต้องสามารถ assume ว่า “ถ้าการศึกษานี้มี P ด้วย ผลของ P (และ A)ควรจะเป็นเช่นเดิม” ดังนั้นทั้งคุณลักษณะของประชากร ระยะของโรคที่สนใจ ขนาดยาของ A การรักษาร่วมอื่นๆ ควรจะต้องคล้ายคลึงกับการศึกษาเก่า ซึ่งในความเป็นจริงมักไม่เป็นเช่นนั้นครับ
ถ้าอ่านแล้วยังงง ผมจะขอยกตัวอย่างสุดโต่งซักเล็กน้อย สมมติว่าในอดีตเราพบว่าการกิน metformin 1000 mg/d ในคนไข้เบาหวานอายุเฉลี่ย 45 ปีที่วินิจฉัยจากการ screening ช่วยลด MI ได้เมื่อเทียบกับการคุมอาหารออกกำลังกายอย่างเดียว ต่อมามีการศึกษาแบบ NifT เทียบ metformin 500 mg/d กับการนั่งสมาธิ ในคนไข้เบาหวานอายุเฉลี่ย 70 ปีที่เคยถูกตัดขาแล้วและรักษาด้วย insulin อยู่ โดยดูผลลัพธ์เป็น all-cause mortality พบว่าการนั่งสมาธิไม่ด้อยกว่า metformin เมื่อใช้ margin ที่คำนวณมาจากการศึกษาก่อน … คงพอเห็นภาพนะครับ

อีกประเด็นหนึ่งของ margin ก็คือ แม้เราจะคำนวณมาแล้ว แต่ถ้ารู้สึกว่า margin ที่ได้ยังไม่ค่อยน่ายอมรับในทางคลินิก margin นั้นก็ไม่ใช่ margin ที่ดี สรุปว่าควรใช้ทั้งข้อมูลเก่าและความน่ายอมรับในทางคลินิกร่วมกันครับ โดยส่วนตัวยิ่งเราคิด margin ให้แคบเข้าไว้ การศึกษาก็จะยิ่งน่าเชื่อถือครับ (และแน่นอนว่าต้องการ sample size มากขึ้นด้วย)
ลืมไปอีกเรื่องหนึ่ง คือถ้าใครคิดมากจะเห็นว่า non-inferiority เป็นการเปรียบเทียบ 1-tail ไม่ใช่ 2-tail ทำไมใช้ 95%CI ล่ะ? เรื่องนี้เคยโพสต์ไว้เมื่อนานมากแล้วครับ คือจริงๆการกำหนด confidence interval เนี่ยเป็นเรื่องของความมั่นใจในวงการ ในทางการแพทย์ส่วนใหญ่เรา accept 95%CI by 2-tail สอดคล้องกับ (p-value 0.05) ซึ่งเมื่อใช้ 1-tail และใช้ 95%CI ผลก็คือช่วง 95%CI ของ 1-tail จะแคบกว่า 2-tail และทำให้ significant ง่ายขึ้น ดังนั้นเพื่อให้ได้ความมั่นใจเท่าเดิม เราจะคิด 1-tail ที่ 97.5%CI ครับ เลยกลายเป็นข้อตกลงว่า ในทางการแพทย์เรา เพื่อไม่ให้เกิดความสับสนจะเปรียบเทียบอะไรก็อ้างถึง 2-tail เถอะ … ในความเป็นจริงก็มีคนเขียนทั้ง 2 แบบครับ เราต้องคิดตามให้ทันกันเอาเองนะครับ (ดูรูปประกอบในเรื่อง 95%CIกับค่าZ)

การคิด sample size
จะไม่ลงลึกถึงที่มาของการคำนวณ แต่จะขอยกตัวอย่างสูตรของการคิด superiority trial ปกติมาให้ดูเทียบกันครับ
1สูตรสำหรับ superiority trial, proportion
2.pngสูตรสำหรับ non-inferiority trial, proportion
จะสังเกตได้ไม่ยากว่าจริงๆแล้วคือสูตรเดียวกัน ต่างกันแค่ตัวหาร (สำหรับพวก mean difference ก็ทำนองนี้เหมือนกันครับ) จริงๆแล้วตัวหารจะเป็นอะไรนั้น ก็ขึ้นกับว่าเราต้องการ detect ความต่างจาก Null hypothesis อะไรเท่านั้นเอง ในกรณี superiority trial ต้องการหาว่า proportion ของ 2 กลุ่มต่างกันจริงหรือไม่ นั่นคือ margin เป็น 0 นั่นเองครับ ส่วนในกรณี NifT ก็แค่เลื่อนจาก 0 ออกไปหา margin เท่านั้นเอง
ข้อควรระวังเวลาเราใช้ sample size calculator ตามเว็บก็คือเครื่องหมายครับ ใส่ผิดชีวิตเปลี่ยนได้ อยากให้ระลึก concept ว่าตัวหารต้องเป็น “ระยะห่าง” จาก Null hypothesis แล้วลองคิดเอง double check ดูด้วยนะครับ

คำถามที่คนถามบ่อยก็คือ ทำไม sample size ของ NifT มักจะเยอะมากๆ ในเมื่อการพิสูจน์ว่ายา B ไม่ด้อยกว่ายา A (B จะชนะ เสมอ หรือด้อยกว่านิดหน่อยก็ได้)น่าจะง่ายกว่าการพิสูจน์ว่า B ชนะ A ด้วยซ้ำ นั่นก็เพราะ expected outcome ของ B ที่เอามาศึกษาใน NifT นั้นมักจะต่างจาก A นิดเดียว ถ้าเทียบกับสูตรข้างบนอาจจะต้องคิดว่า p2 = p1 และทำให้ตัวหารคือ margin กล่าวคือ
– ถ้าเราคาดว่า B เหนือกว่า A แล้วมาทำ NifT แบบเนี้ยจะใช้ sample size น้อยกว่า superiority trial
แต่ธรรมชาติของ NifT เราจะคาดว่า B ใกล้เคียงกับ A และ margin มักจะตั้งไว้แคบๆ เลยใช้ n เยอะ

ขอจบแต่เพียงเท่านี้ ถ้าใครอยากรู้อย่างละเอียดมันจะมีแนวทางการดำเนิน NifT ที่ออกโดย regulatory ของที่ต่างๆอยู่นะครับ สามารถศึกษาดูได้

เฉลยภาพข้างบน *ถ้าเติมอีก margin นึงเข้าไป จะแปล equivalence ได้ด้วย ในที่นี้ละไว้
A – claim superiority ได้เลย
B,C – เอามาสองอันเพื่อหลอกให้งง จริงๆก็คือ claim non-inferiority ได้ ส่วน superiority undeterminedD – claim non-inferiority ได้ และชัดเจนว่าไม่ superiority
E – non-inferiority undetermined แต่บอกได้ว่า ไม่ superiority
F – claim ได้ว่า ห่วยกว่า
G – undetermined everything jingle bell น่าจะมีอะไรซักอย่างผิดใน design แล้วล่ะ 95%CI กว้างซะ

Advertisements