建立高正確率之 AI 治理技術,產出本土病原體主題式資料庫
1. 病原體為感染症研究不可獲缺之資料,目前國內僅有少數以病原體為主題的資
料庫。本技術與健保署合作,應用自然語言技術開發一套整治病原體資料之方
法,可自動進行資料格式標準化作業,並結合感染科醫師專業以及AI智慧學習模
式,使標準化資料符合專業領域需求。此病原體主題式資料庫可厚實國內感染症
與抗藥性研究,符合WHO降低抗藥性之策略。
2. 應用自然語言處理技術,從醫院上傳至健保署資訊系統的資料中自動彙整菌株
名稱、抗生素名稱、抗生素感受性及抗藥性數值等資料。資料彙整的過程包括以
下步驟:
(1) 資料分類:將醫院上傳的資料分類為樣態完整及樣態不完整兩類,對於樣態不
完整的資料則不彙整;
(2) 斷字:應用「正規表示式 (Regular Expression)」將樣態完整資料的欄位字串
分開成一個個單字或符號;
(3) 萃取關鍵資料:從斷字後資料的比對結果中,萃取菌株名稱、抗生素名稱、抗
生素感受性及抗藥性數值等資料;
(4) 找尋資料規律:尋找病原體抗藥性資料出現的規律,例如:[抗生素名稱][抗
生素簡寫][抗生素感受性][抗藥性數值];
(5) 彙整資料:依據抗藥性資料出現的規律,依序彙整資料;
(6) 資料統整:輸出各家醫院的樣態資料及所有醫院的彙整資料於不同的Excel檔
案中。
成果:
1. 高正確性:開發人工智慧模型整治病原體主題式資料庫,並與健保署合作測試
其模組建置資料成功率可達 93.88%。
2. 節省人力-時間:
(1)非血液細菌資料:使用本技術彙整24萬筆資料,只需約65小時。這些資料若
以人工整理約需1000工作天。
(2)血液細菌資料:使用本技術彙整6萬筆資料,只需約25小時。這些資料若以人
工整理約需250工作天。
法人
技術成熟度:實驗室階段
展示目的:研發成果展示
流通方式:自行洽談
敬請期待!