// Penelitian Perawatan Kritis · MIMIC-IV · 2026

Memprediksi Kegagalan
Ekstubasi pada Pasien
Geriatri ICU

XGBoost vs Regresi Logistik — model prediktif untuk menghitung kegagalan ekstubasi pada pasien geriatri on ventilator di ICU.

Baca Penelitian ↓ Rencana Pengembangan

// Research Summary

XGBoost versus Regresi Logistik untuk Prediksi Kegagalan Ekstubasi pada Pasien Geriatri ICU: Studi Komparatif pada Database MIMIC-IV

XGBoostAlgoritma kecerdasan buatan yang membangun ratusan "pohon keputusan" secara berurutan. Setiap pohon baru fokus memperbaiki kesalahan pohon sebelumnya, sehingga prediksi akhir makin akurat. Ibarat ujian yang dikoreksi bertahap oleh banyak penguji. SHAPTeknik dari teori permainan untuk menjelaskan kontribusi setiap variabel terhadap prediksi. Setiap pasien mendapat "nilai SHAP" per variabel — positif berarti mendorong ke arah risiko tinggi, negatif berarti sebaliknya. MIMIC-IVDatabase rekam medis elektronik terbuka dari Beth Israel Deaconess Medical Center (Boston, AS). Berisi data terdeidentifikasi dari >364.000 pasien ICU dan UGD, tersedia gratis untuk penelitian. (Johnson et al., 2023) GeriatriPasien berusia di atas 60 tahun dengan kerentanan fisiologis (frailty). Populasi ini memiliki risiko komplikasi lebih tinggi akibat penurunan cadangan fisiologis. [Permenkes RI, 2014] Kegagalan EkstubasiKebutuhan reintubasi dalam rentang waktu 48 jam pasca-ekstubasi.

// 01 — Mengapa Pemelajaran Mesin?

Mengapa bantuan pemelajaran mesin itu penting?

Parameter tunggal tidak cukup

RSBI, P0.1, MIP, CROP — tidak ada satu pun yang terbukti akurat untuk memprediksi keberhasilan weaning secara individual pada level pasien.

[1] Thille et al., Am J Respir Crit Care Med 2013

Angka kegagalan stagnan

Meskipun protokol weaning terus disempurnakan, angka kegagalan ekstubasi tidak berubah secara dramatis selama bertahun-tahun.

[2] Osborne & Toner, EMJ Respir 2023

Data melebihi kapasitas manusia

ICU menghasilkan ratusan titik data per pasien per hari. Analisisnya melampaui kemampuan pemrosesan kognitif klinisi dan membutuhkan proses otomatis seperti AI.

[3] Celi et al., Am J Respir Crit Care Med 2013

Keterlambatan = komplikasi

Late weaning menyebabkan trauma jalan napas, disfagia, delirium pasca-ekstubasi, pneumonia ventilator, dan atrofi diafragma — semua meningkatkan mortalitas.

[4] Boles et al., Eur Respir J 2007

Penelitian ML di ICU bertumbuh eksponensial

Setiap tahun, jumlah publikasi tentang machine learning dan XGBoost di critical care bertambah — bahkan pertahun hingga 3× lipat. Tren ini menunjukkan bahwa komunitas medis global semakin mengadopsi pendekatan komputasional.

PubMed Trend ML XGBoost Critical Care 2020-2025

Data: PubMed, query "Machine Learning" AND "XGBoost" AND "Critical Care", 2020–2025

"Dunia terus bergerak. Terlambat beradaptasi hari ini adalah tiket menuju penyesalan di masa depan."

// 02 — Abstrak

Latar Belakang & Tujuan

Kegagalan ekstubasi — didefinisikan sebagai reintubasi dalam 48 jam pasca-ekstubasi terencana — terjadi pada 10–25% pasien ICU dan berdampak pada peningkatan mortalitas serta lama rawat. Pasien geriatri (≥65 tahun) memiliki kerentanan lebih tinggi akibat sarkopenia, penurunan compliance paru, dan malnutrisi.

Studi kohort retrospektif pada 11.191 episode ventilasi dari 7.511 pasien dalam database MIMIC-IV v3.1. Model XGBoost (85 fitur) dibandingkan dengan Regresi Logistik (16 variabel). Interpretabilitas dieksplorasi menggunakan analisis SHAP untuk mengidentifikasi prediktor kunci kegagalan ekstubasi.

// 03 — Kebaruan

Yang membedakan penelitian ini

Geriatric-specific model

Model ML ekstubasi pertama yang berfokus eksklusif pada pasien ≥65 tahun — kelompok dengan pola fisiologis ekstubasi yang berbeda secara fundamental.

MIMIC-IV open benchmark

Berbeda dengan studi single-center, MIMIC-IV memungkinkan reproduktibilitas penuh dan perbandingan langsung dengan penelitian internasional.

Dual output: predict + explain

XGBoost untuk prediksi + OR/CI dari Logistic Regression untuk faktor risiko — dua output yang saling melengkapi untuk kebutuhan klinis.

Individual-level SHAP

SHAP waterfall plot memungkinkan klinisi memahami mengapa model memprediksi pasien tertentu berisiko tinggi — menjawab kekhawatiran black-box AI.

// Perbandingan dengan penelitian sejenis

Penelitian	Model	AUC	Geriatri	MIMIC-IV	SHAP	Dual Output	Ekstubasi 48j
Lin et al.2021 · Taiwan	XGBoost	0.908	✕	✕	✕	✕	✓
Xu et al.2024 · China	Random Forest	0.805	✕	✕	✕	✕	✕
Zhao et al.2021 · China	CatBoost	0.835	✕	✓	✕	✕	✕
Pai et al.2022 · Taiwan	XGBoost	0.921	✕	✕	✓	✕	✕
Kim et al.2023 · Korea	Voting Classifier	0.861	✕	✓	✕	✕	✕
Liao et al.2022 · Taiwan	XGBoost	0.868	✕	✕	✕	✕	✕
Penelitian ini2026 · Indonesia	XGBoost + LR	0.820	✓	✓	✓	✓	✓

✓ Ada / terpenuhi

✕ Tidak ada

AUC 0.820 (95% CI 0.801–0.840) vs Regresi Logistik 0.753 (95% CI 0.729–0.776); DeLong's test p < 0.001.
Dual Output = probabilitas (XGBoost) + OR/95% CI (Logistic Regression).

// 04 — Metode

Alur Penelitian

🗄️

MIMIC-IV

2008–2019

👴

Kohort

Retrospektif, ≥60 th, on ventilator

🏷️

Outcome

Reintubasi 48j

⚗️

Features

Labs, Vitals, 24h pre-ekstubasi

🤖

XGBoost

vs LR

🔍

SHAP

Explainability

// Key Variables

Skor Asam-BasaBalance CairanPaO₂/FiO₂ Pmean SBTHemoglobinUreum AlbuminBMIDurasi Ventilasi RR SBTGNRI (Geriatric Nutritional Risk Index)SOFA RSBI

// 05 — Hasil Penelitian

Hasil penelitian

0.820

XGBoost AUC-ROC

95% CI 0.801–0.840. Cross-validation 5-fold: AUC 0.795 ± 0.006 — mengonfirmasi generalizability.

20.7%

Angka kegagalan ekstubasi

2.316 dari 11.191 episode ventilasi mengalami kegagalan ekstubasi (reintubasi dalam 48 jam pasca-ekstubasi).

SHAP Feature Importance — Top Predictors

* Berdasarkan mean |SHAP value| pada test set (n = 2.266). TreeExplainer.

Kurva ROC — XGBoost vs Regresi Logistik

ROC Curve XGBoost vs Logistic Regression

XGBoost (AUC = 0.820)

Regresi Logistik (AUC = 0.753)

Random classifier

ΔAUC = 0.068 (95% CI 0.050–0.086) · Z = 7.41 · p < 0.001 (DeLong's test) · Test set n = 2.266, split by stay_id

// 06 — Kalkulator Risiko

Kalkulator Kegagalan Ekstubasi

Model XGBoost dengan 10 fitur bedside. Masukkan parameter klinis pasien untuk mendapatkan probabilitas kegagalan ekstubasi. Minimal 4 parameter.

// Asam-Basa

pH Arteri

PaCO₂ mmHg

// Oksigenasi

PaO₂ mmHg

FiO₂ %

// Ventilasi & Respirasi

Mean Airway Pressure cmH₂O

RR saat SBT /mnt

Durasi Ventilasi jam

Balance Cairan Kumulatif mL

// Laboratorium & Antropometri

Hemoglobin g/dL

Ureum mg/dL

Albumin g/dL

BMI kg/m²

Contoh:

PROBABILITAS PREDIKSI

—

Masukkan data pasien

0%20%40%60%80%+

// Interpretasi Klinis

Isi parameter klinis lalu tekan "Hitung Risiko".

Hanya untuk penelitian. Kalkulator ini berdasarkan studi retrospektif database MIMIC-IV (Beth Israel Deaconess Medical Center, AS). Belum divalidasi secara prospektif. Tidak menggantikan penilaian klinis.
Model: XGBoost (10 fitur bedside, AUC = 0.810, 11.191 episode ventilasi geriatri). Prevalensi kohort: 20.7%.

// 07 — Rencana Pengembangan

Dari sebuah pilot project model prediktif ke dampak klinis di dunia nyata

Penelitian ini adalah pilot project. Masih banyak pertanyaan selanjutnya: apakah model ini cocok diterapkan pada populasi Indonesia? Apakah penambahan parameter bedside akan menjadikannya lebih baik? Apakah penerapannya akan mengubah luaran pasien, dan berapa biaya yang bisa dihemat?

🇮🇩

Fase 1 — Prioritas utama

Validasi multisenter pada database ICU Indonesia

Model saat ini dilatih dari data rumah sakit di Boston (AS). Komposisi tubuh, pola nutrisi, dan profil komorbiditas pasien geriatri Indonesia berbeda secara bermakna. Tanpa validasi lokal, model tidak bisa diterapkan.

Target

Kolaborasi dengan ≥3 RS pendidikan tipe A di Indonesia untuk membentuk kohort ICU geriatri multisenter. Rekalibrasi dan validasi model pada populasi lokal.

Multisenter Kohort Prospektif Rekalibrasi Model

🫁

Fase 2 — Pengayaan parameter

Parameter bedside yang belum tersedia di MIMIC-IV

Beberapa prediktor kuat kegagalan ekstubasi saat ini tidak tercatat dalam database elektronik manapun, tapi bisa diukur langsung di samping pasien.

USG Diafragma

Diaphragm Thickening Fraction (DTF) & Excursion — mengukur kekuatan kontraksi otot napas utama secara real-time.

Lung Ultrasound Score

Menilai derajat aerasi paru di 12 zona. Cepat, bedside, dan non-invasif.

Ekokardiografi

E/e' ratio, TAPSE — mendeteksi penyebab kardiak kegagalan ekstubasi yang sering terlewat.

⚡

Fase 3 — Implementasi

Deployment sebagai CDSS terintegrasi Rekam Medis Elektronik

Model berjalan di balik layar — mengambil data pasien otomatis dari RME, menghitung probabilitas kegagalan, dan memberikan notifikasi ke klinisi saat risiko melewati ambang batas.

Skenario: Saat dokter membuka halaman pasien di RME, sistem otomatis menampilkan skor risiko kegagalan ekstubasi beserta variabel pendorong utama (via SHAP) — tanpa perlu input manual.

💰

Fase 4 — Bukti dampak

Analisis cost-effectiveness

Akurasi statistik saja tidak cukup — perlu dinilai dampaknya secara klinis maupun ekonomi kesehatan. Pertanyaan yang harus dijawab: berapa reintubasi yang berhasil dicegah, dan berapa rupiah yang dihemat?

Satu kali reintubasi menambah lama rawat ICU rata-rata 7–12 hari. Dengan asumsi biaya ICU Rp 3–5 juta per hari, satu reintubasi yang berhasil dicegah menghemat Rp 20–60 juta. Jika model mencegah 5% saja dari kasus reintubasi di satu RS — berarti ratusan juta per tahun dapat dihemat, dan ratusan pasien terhindar dari komplikasi reintubasi.

Desain studi: RCT atau studi before-after di ICU yang telah mengadopsi CDSS — bandingkan angka reintubasi, lama rawat, mortalitas, dan total biaya antara periode dengan dan tanpa model prediktif.

// Memahami XGBoost

Wisdom of the Crowd

Sebuah analogi untuk menjelaskan cara kerja XGBoost tanpa latar belakang IT.

Di sebuah rumah sakit pendidikan, ada masalah yang menghantui para dokter ICU: pasien lansia yang diekstubasi terlalu sering harus reintubasi, sehingga lama rawat inap memanjang dan tagihan membengkak. Setelah dihitung secara kohort retrospektif hasilnya mencengangkan: satu dari lima pasien geriatri mengalami hal tersebut.

Selama bertahun-tahun, rumah sakit mengandalkan satu profesor senior (regresi logistik) yang mengajukan serangkaian pertanyaan bercabang — seperti pohon keputusan: "Albumin di bawah 3?" → ya → "Balance cairan di atas 20.000 mL?" → ya → risiko tinggi. Tapi ia hanya mampu mempertimbangkan 16 variabel, dan hanya melihat hubungan lurus. Padahal penurunan skor status gizi (GNRI — Geriatric Nutritional Risk Index) dari 98 ke 92 hanya menambah risiko kegagalan ekstubasi 6% — tapi dari 92 ke 82, risikonya melonjak dua kali lipat. Membentuk sebuah kurva, bukan garis lurus linear.

Seorang peneliti muda mengajukan pendekatan baru: 300 penguji yang bekerja berurutan. Setiap penguji membuat pohon keputusan sendiri, tapi kuncinya — setiap penguji baru secara khusus mengoreksi kesalahan penguji pendahulunya (gradient boosting). Bukan mengulangi yang sudah benar, tapi fokus pada yang masih salah.

ATURAN DEWAN

Koreksi kecil (5%): Setiap penguji hanya boleh mengoreksi sedikit — ibaratnya lebih aman memutar setir mobil berkendara pelan-pelan (learning rate = 0.05).
Tidak melihat semua data: Setiap penguji hanya menerima 80% berkas dan 80% variabel (subsample & colsample_bytree) — memaksa sudut pandang berbeda dan mencegah overfitting (menghafal, bukan memahami).
Maksimal 6 pertanyaan: Setiap pohon dibatasi 6 tingkat (max depth) — cukup dalam untuk pola bermakna, tapi jika terlalu banyak akan terjadi overfitting, para penguji akan menghafal, tidak belajar.
Berhenti jika stagnan: Jika 20 penguji berturut-turut tidak meningkatkan skor, proses dihentikan (early stopping).
Perhatian pada kasus langka: Kasus kegagalan (hanya 20.7%) diberi bobot lebih besar (scale_pos_weight).
Hukuman: Penguji yang terlalu rumit dihukum dengan cara dipangkas algoritmanya agar lebih sederhana (regularisasi L1/L2).

Hasilnya: Tim 300 penguji benar 82.2% vs profesor tunggal hanya 74%.

Pada pemelajaran mesin, salah satu kelemahannya adalah kita tidak tahu apa yang dipikirkan oleh mesin — hal ini disebut blackbox atau kotak hitam. Bagaimana membuka "kotak hitam" 300 penguji? Dengan Dewan Penjelasan (SHAP) — teknik dari teori permainan yang menghitung kontribusi setiap variabel terhadap prediksi setiap pasien. Hasilnya: 6 dari 10 variabel terpenting di kedua pendekatan sama — hanya saja tim 300 penguji menangkap hubungan non-linear yang tak terlihat oleh profesor tunggal.

"Wisdom of the Crowd" — Keputusan yang diambil berdasarkan mufakat sekelompok ahli biasanya lebih baik daripada keputusan yang diambil oleh satu orang ahli saja.

↗ Baca versi lengkap cerita analogi

// Referensi

[1] Thille AW, Richard JC, Brochard L. The decision to extubate in the intensive care unit. Am J Respir Crit Care Med. 2013;187(12):1294–1302.

[2] Osborne C, Toner A. Managing extubation and the post-extubation period in the intensive care unit. EMJ Respir. 2023.

[3] Celi LA, Mark RG, Stone DJ, Montgomery RA. "Big data" in the intensive care unit: closing the data loop. Am J Respir Crit Care Med. 2013;187(11):1157–1160.

[4] Boles JM, Bion J, Connors A, et al. Weaning from mechanical ventilation. Eur Respir J. 2007;29(5):1033–1056.

[5] Thille AW, Harrois A, Schortgen F, Brun-Buisson C, Brochard L. Outcomes of extubation failure in medical intensive care unit patients. Crit Care Med. 2011;39(12):2612–2618.

[6] Chen T, Guestrin C. XGBoost: a scalable tree boosting system. Proc 22nd ACM SIGKDD. 2016;785–794.

[7] Lundberg SM, Lee SI. A unified approach to interpreting model predictions. Adv Neural Inf Process Syst 30 (NIPS). 2017.

[8] Johnson AEW, Bulgarelli L, Shen L, et al. MIMIC-IV, a freely accessible electronic health record dataset. Sci Data. 2023;10(1):1.

[9] Bouillanne O, Morineau G, Dupont C, et al. Geriatric Nutritional Risk Index: a new index for evaluating at-risk elderly medical patients. Am J Clin Nutr. 2005;82(4):777–783.

[10] Sharma G, Goodwin J. Effect of aging on respiratory system physiology and immunology. Clin Interv Aging. 2006;1(3):253–260.

Tabel Perbandingan

[11] Lin MY, Li CC, Lin PH, et al. Explainable machine learning to predict successful weaning among patients requiring prolonged mechanical ventilation. Front Med. 2021;8:663739.

[12] Xu et al. Machine learning-based risk prediction model construction of difficult weaning in ICU patients with mechanical ventilation. Sci Rep. 2024;14:20743.

[13] Zhao QY, et al. CatBoost-based prediction of extubation failure using MIMIC-IV. Dikutip di: Lev T, et al. Using AI to predict MV weaning success. J Clin Med. 2024;13(5):1505.

[14] Pai KC, Su SA, Chan MC, Wu CL, Chao WC. Explainable machine learning approach to predict extubation in critically ill ventilated patients. BMC Anesthesiol. 2022;22(1):351.

[15] Kim TY, et al. Machine learning algorithms predict successful weaning from mechanical ventilation before intubation: retrospective analysis from the MIMIC-IV database. JMIR Form Res. 2023;7:e44763.

[16] Liu CF, Hung CM, Ko SC, Cheng KC, Chao CM, Sung MI, Hsing SC, Wang JJ, Chen CJ, Lai CC, Chen CM, Chiu CC. An artificial intelligence system to predict the optimal timing for mechanical ventilation weaning. Front Med. 2022;9:935366.