Employing Machine Learning Approach to Predict the Risk of Preeclampsia in Pregnant Women
preeclampsia, preterm birth, machine learning, predictive modeling, clinical decision support
根據衛生福利部統計,孕產婦的死亡率從2016年至2019年,每十萬活產為11.6增長到16.0,主要的死亡原因前三名為產科栓塞、產後出血及子癲前症。子癲前症的發生率約為2%-5%,是不可輕忽的病症,若能及早預測發生情況並進行預防措施,將可減少其引發的危險以及更多的醫療成本費用、資源; 近年因疫情的影響,預防醫學更加顯現其重要性。因此本研究主要針對台灣於2015年至2019年之間孕產婦發生子癲前症及子癲前症患者發生早產的情況,利用全民健康保險研究資料篩選出發生子癲前症的危險因子及醫療費用,進行正常孕產婦及患者之間危險因子、醫療費用的比較以及建立預測模型。
本研究首先將利用統計檢定分析各項危險因子,再利用機器學習方法:羅吉斯迴歸、簡單貝式、決策樹、隨機森林及梯度提升方法進行建立預測模型,並分析其在預測健保資料中有發生子癲前症及早產的模型Receiver Operating Characteristic(ROC)曲線之Area Under Curve(AUC)表現以及特徵變數的重要性。研究結果顯示,隨機森林模型對子癲前症的預測表現較佳(AUC=0.732),其次為梯度提升方法(AUC=0.728),其預測表現皆顯著優於羅吉斯迴歸模型(p-value皆<.001)。此外,患有子癲前症之婦女,其健保醫療點數平均為44328.78點,除了顯著高於正常孕婦生產的28666.85點(p-value<.001),也有較高的剖腹產率、早產、甚至胎兒死亡率(p-value皆<.001)。本研究建議未來研究相關主題可以優先採用隨機森林、決策樹及梯度提升的方法,以及建議醫療人員在進行醫療決策上可以採納大數據分析預測的結果為輔助,對疾病及早發現與治療,進而節省醫療成本。
Data in the latest report published by The Centers for Disease Control and Prevention (CDC) shows the overall maternal death rate in Taiwan rose from 9.8 deaths per 100,000 live births in 2016 to 16 deaths per 100,000 in 2020. The three leading causes of preventable maternal mortality are obstetric embolism, postpartum hemorrhage and preeclampsia. The incidence of preeclampsia is estimated to range from 2% to 5% of all pregnancies. It is a condition unique to pregnancy that needed to be treated by a healthcare provider. However, The Covid-19 pandemic has had a major impact on the capacity of health systems to continue the delivery of essential health services; therefore, it is essential to allocate limited medical resources.
The aim of this paper is to develop an accurate and useful clinical prediction model with multiple variables using Health and Welfare Data Center (HWDC) dataset. The HWDC’s data are used to screen the risk factors and medical costs for pregnant women between 2015 and 2019.
We will conduct a statistical test to identify risk factors and build prediction models including Logistic regression, Naive Bayes, decision tree, random forest and gradient boost methods. By analyzing and comparing the AUC performance of ROC curve and the importance of characteristic variables in above prediction models will help us choose the most suitable prediction model to provide prevention suggestions for medical management in Healthcare. The results indicate that the model using random forest reached the best discrimination (AUC=0.732), followed by gradient boost methods (AUC=0.728). Both outperformed the model done with logistic regression in prediction.
目次 Table of Contents
論文審定書 i
摘要 ii
英文摘要 iii
圖目錄 vi
表目錄 viii
第一章 緒論1
第一節 研究背景1
第二節 研究動機2
第三節 研究目的3
第二章 文獻探討4
第一節 子癲前症及相關危險因子之探討4
第二節 機器學習演算法9
第三節 機器學習法應用於健保資料11
第四節 子癲前症預測12
第三章 研究方法17
第一節 研究架構17
第二節 資料來源20
第三節 研究對象21
第四節 資料預處理23
第五節 統計分析及模型建立30
第四章 研究結果37
第一節 各項危險因子及相關變項之統計檢定38
第二節 子癲前症預測模型結果41
第三節 子癲前症患者發生早產情況預測模型結果55
第五章 研究討論68
第一節 預測結果與危險因子討論68
第二節 模型方法討論69
第三節 醫療管理建議71
第四節 研究限制72
第六章 結論73

參考文獻 References
