Phân tích hồi qui logistic bằng phần mềm Medcalc
PGS.TS Lê Đình Vấn
1. Đại cương
Phân tích hồi quy có thể hiểu một cách nôm na là dự đoán một đại lượng chưa biết (Y) trên cơ sở các đại lượng đã biết (X), như khi biết chiều cao của cơ thể có thể dự đoán được trọng lượng cơ thể, phương trình dự đoán mối liên hệ trên gọi là phương trình hồi quy
(“Hồi quy (regression) là một từ được một nhà khoa học Anh, Francis Galton (1822 - 1911) sử dụng đầu tiên khi nghiên cứu mối liên hệ chiều cao của con cái và cha mẹ, nếu cha mẹ cao thì theo quan niệm chung thì con cái sẽ cao lên, và sau nhiều thế hệ chiều cao sẽ đến vô cực! Galton tìm ra quy luật ngược lại con sẽ không cao mà có khuynh hướng thấp lại để tiến về giá trị trung bình của nòi giống (hồi quy). Khái niệm hồi quy được Uday và Karl Pearson nghiên cứu và sử dụng trong thống kê).
Dạng đơn giản nhất là hồi quy tuyến tính cơ bản là:
y = ax + b
Trong đó y là biến phụ thuộc và x là biến độc lập, b là hằng số. Ví dụ các nhà nhân trắc khi nghiên cứu mối liên hệ giữa chiều cao và cân nặng đã tìm được phương trình hồi quy sau:
Cân nặng (kg) = 0.7 x chiều cao (cm) + 22.5
Phương trình trên chỉ áp dụng khi y là đại lượng liên tục (biến định lượng liên tục).
Nhưng trong y học ngoài biến số định lượng liên tục còn các loại biến số khác, trong đó có biến định tính nhị phân như chết/sống, mắc bệnh/không mắc bệnh, có/không...
Khi tìm hiểu mối liên hệ giữa biến phụ thuộc là biến nhị phân với các biến độc lập khác thì không thể sử dụng hồi quy tuyến tính trên, mà phải sử dụng phân tích khác là phân tích hồi qui logistic (logistic regression analysis).
Hồi quy logistic sử dụng phép biến đổi logarit (logit transformation) của xác suất xuất hiện một hiện tượng (p) (xác suất bị bệnh…) với logit (p) = Y = β0+ β1X1+ β2X2+ β3X3+… βiXi
Cơ sở lý thuyết
Gọi p: Xác suất bị mắc bệnh mạch vành
Như vậy: 1- p: Xác suất không bị bệnh là
Như vậy tỷ suất chênh (xác suất bị bệnh chia cho xác suất không bị bệnh) là:

Tính logarit tự nhiên của odds ta có

Trong đó: Y = β0+ β1X1+ β2X2+ β3X3+… βiXi
Đó là dạng của phương trình hồi quy logistic
Với: X0,…Xi à các biến số độc lập (các yếu tố: tuổi, hút thuốc, giới…)
Β0, Β1, β2..+ βi là hệ số hồi quy
Từ (1) và (2) ta có

Như vậy ta thấy nếu ví dụ X1 (tuôi) tăng thêm 1 đơn vị thì odds tăng lên eβ1 lần.
Các đại lượng eβ1, eβ2, …eβi là tỷ suất chênh (odds) của các biến số X1, X2, …Xi.
(Odds là gì: odds là một từ tiếng Anh xuất phát từ các trường đua ngựa, trong đó odds được sử dụng như là tỷ lệ chấp bao nhiều lần giữa các ngưới cá độ trong đua ngựa ví dụ khi nói “ngựa đỏ" (xích thố của Quan Vân Trường) chấp "ngựa trắng" (bạch mã của Kim dung) 9 ăn 1 có nghĩa là odds =9”).
2. Phân tích hồi quy logistic bằng phần mềm medcalc
Có nhiều phần mềm có thể dùng để phân tích hồi quy, ở đây tôi trình bày những kinh nghiệm bản thân cách sử dụng phần mềm Medcalc, là phần mềm đặc trưng cho thống kê y học.
Ví dụ: Một công trình nghiên cứu về mối liên quan giữa bệnh mạch vành với tuổi và tình trạng hút thuốc trên 76 người, có tập hợp dữ liệu như bảng 1

Các bước tiến hành
Bước 1. Nhập số liệu
Ta có bảng số liệu như hình 1

Bước 2. Nhấp chuột vào “statistics” ta sẽ có hộp thoại theo hình 2

Hình 2
Bước 3. Nhấp chuột vào “Logistic regression” ta sẽ có hộp thoại theo hình 3

Hình 3
Bước 4. Ở hộp thoài “Dependent varianle” nhấp chuột vào sẽ có hộp thoại như hình 4

Hình 4
Bước 5. Ở hộp thoài “Independent varianle” thực hiện tương tự để có được như hình 5

Hình 5
Nếu biến độc lập có biến định tính (hút thuốc ở ví dụ trên) thì phải thực hiện lệnh sau
Nhấp vào ô ta sẽ có hộp thoại hình 6:

Hình 6
Nhấp chuột vào mục HUTTHUOC để xác định đó là biến số định tính, nhấp vào ô “OK” sẽ có kết quả như hình 7

Hình 7
Kết quả ở bảng trên có nhiều phần, các bảng cần xét là:
- Overall model fit
+ Chú ý hàng significance level cho biết giá trị của p; nếu p <0.05, thì trong các biến số độc lập có ít nhất một biến ảnh hưởng đến biến độc lập.
- Coefficients and Standard Errors
Có hệ số hồi quy của tổi và hút thuốc:
+ βtuoi = 0.1078 với p = 0.0176 <0.05
+ βhutthuoc = 1.1398 với p = 0.033 <0.05
Hằng số = -4.6498
- Odds Ratios and 95% Confidence Intervals
Tỷ suất chênh của các biến số độc lập
+ OR tuổi = 1.1138 với KTC 95% (1.0190 - 1.2175).
+ OR hut thuoc = 3.1262 KTC 95% (1.0967 - 8.9115)
Có một số người sử dụng đường cong ROC để đánh giá mối liên quan, nên phần mềm medcalc có thêm phần kết quả của phân tích đường cong ROC.
Phương trình hồi quy logistic của bài tập này:
Y= -4.6498 + 0.1078*tuoi + 1.1398 *hutthuoc
(Hút thuốc có hai giá trị là 1 và 0)
Nếu một người 38 tuổi có hút thuốc, ta có thể tính logit (p) như sau
Y= - 4.6498 + 0.1078*38 + 1.1398 *1=0.5864 = 0.5864
Từ công thức (1) và (2) ta có thể tính p như sau:

P = 0.64
Có thể tra cứu giá trị p bằng cách tra cứu ở bảng sau với logit (p) = 0.5864 thì p = 0.64

Tài liệu tham khảo
1. Feinstein A.R. (2002). Principles of Medical Statistics. Copyright ©2002 by Chapman & Hall/CRC.
2. Penson D.F. (2006). Clinical Research Methods for Surgeons. © 2006 Humana Press Inc.
3. Dawson B., Trapp R. G. (2004). Basic & Clinical Biostatistics, 4th Edition Copyright ©2004 McGraw-Hill.
4. MedCalc Software (2010). MedCalc for Windows. Statistics for biomedical research, software manual.
5. Huguier M. (2000). Biostatistiques au quotidien. Elservier
6. D’Agostino R.B. 2004). Tutorials in Biostatistics, Volume 1: Statistical Methods in Clinical Studies. Edited by Boston University, USA, John Wiley & Sons Ltd.
7. Fawcett T. (2005). An introduction to ROC analysis. Institute for the Study of Learning and Expertise, 2164 Staunton Court, Palo Alto, CA 94306, USA. Available online 19 December 2005. Last Updated ( Saturday, 05 February 2011 19:44 )
|