安永《生命科學4.0報告》曾用FV=ID描述生命科學的未來價值,即未來價值等于“創新”的“數據”次方。左右“價值”指數增長的“數據”,影響著科研成果的獲取。
根據《全民健康信息化調查報告》醫院大數據應用情況調研結果顯示,2021年我國三級醫院醫療大數據平均應用率不足20%,二級醫院不足5%,即使是熱度最高的臨床數據,也只有1/5的醫院嘗試展開研究。
各類醫院大數據應用開展情況(數據來源:《全民健康信息化調查報告》)
為了打破醫療大數據慘淡的應用現狀,協助醫生挖掘各式醫療數據中的潛在價值,廣州中康數字科技有限公司借助百度飛槳深度學習、文心大模型等人工智能技術,結合自研的數據采集網絡、大數據處理技術與生態化的健康產業平臺,打造“基于文心大模型的AI臨床科研大數據平臺”。
基于文心大模型構建的AI臨床科研大數據平臺
近日,百度飛槳承辦的第四屆OpenI/O啟智開發者大會「深度學習與大模型產業應用專場」上,中康科技數字醫療人工智能技術產品總監黃毅寧表示。將大模型應用于醫療,究竟能在醫療領域掀起怎樣的波瀾?
多模態醫療大數據處理,AI助力心臟驟停預警
通常而言,開發者們可以利用深度學習技術處理文本數據、圖像數據、文圖多模態等各類數據,而多模態數據在醫療領域尤其常見。
“我們之前跟一位心內科專家研究AI心臟驟停預警的課題。心臟驟停場景與常見的肺結節、肺炎等場景不一樣,它具有突發性,所以AI技術的應用強調預測而非診斷。因此,要實現對心臟驟停進行盡可能精準地預警,我們不僅需要處理患者的臨床數據,還需要分析心電圖數據、檢驗數據,甚至患者發病時所處環境的水文氣象數據。從理論上講,數據源越豐富,模型預測越精準。”黃毅寧解釋道。
為了有效利用多模態大數據,中康科技基于飛槳搭建了AI臨床科研大數據平臺。具體而言,中康以飛槳自然語言處理模型庫PaddleNLP為基礎,采用通用信息抽取技術文心ERNIE-UIE進行醫療數據結構化;以中文醫療預訓練模型文心ERNIE-Health為底座,應用于醫療文本理解、分析等更多下游任務上。
除NLP技術外,CV等各領域技術也必不可少。中康科技運用了飛槳計算機視覺檢測模型庫PaddleDetection,采用RetinaNet和SSD進行目標檢測,還基于飛槳時序建模庫PaddleTS的USAD和SCINet進行時序數據特征抽取,最終實現包括患者臨床數據、心電圖、心電時序、水文氣象等等多模態數據融合處理、解析與理解。
對于心臟驟停患者而言,發病后的每一分鐘救治時間都彌足珍貴。如果能夠通過預警提前感知危險,相信能夠挽救更多生命。融合各類模態數據的全新技術方案下,平臺預警效果顯著提升,已經能夠提前5-10個小時預測患者心臟驟停的情況,助力醫療服務質量大幅提升。豐富、多樣的醫療數據經有效治理后,能夠進一步為臨床醫生提供輔助決策,也為后續的一系列臨床科研打下了堅實基礎。
從高維空間提取關鍵信息,AI助力康復診療服務
算力不足以處理大量的高維度數據是醫生科研過程中常常遇見的另一個問題。譬如,在訓練超聲AI的過程中,研究人員需要從超聲影像的高維空間提取關鍵信息,但是在條件一般的醫院很難做到復雜度很高的模型訓練與預測。面對這一情況,基于文心大模型的AI臨床科研大數據平臺可以為醫生提供強大的運算能力,使從前很難做到的高維度深度學習建模變得更容易。
為了更清晰地厘清高維度數據處理的價值,中康科技談到了與一位康復科主任合作研究的“四肢關節活動度AI識別模型建設”這一課題。簡單來說,該課題的目的是要用視頻的方式評估人們的行動力,替代傳統的問卷調查,幫助患者洞悉康復過程中的每一處變化并做出對應決策,最終縮短康復時間,提升康復效率。
“在使用問卷評估行動力時,人們常常會在填寫時摻雜主觀因素,導致最終評估結果出現偏差,”黃毅寧表示,“通過要求用戶完成指定的姿態動作,使用視頻檢測的方式可以解決這一問題,更客觀更全面地完成用戶的行動力分級評價。”
這個課題的第一步是對人體姿態進行采集及分析處理,這一步驟中,中康科技運用了飛槳PaddleDetection視覺檢測模型庫,包括HRNet、DarkPose、SWAHR等模型自動化識別人體重要關節點,再使用PaddlePaddle深度學習框架構建時間圖卷積神經網絡根據關節點運動軌跡、運動幅度、運動速率等信息,實現用戶的行動力等級評價,并針對性不同等級用戶提供更精準地個性化的診療服務。
通過百度AI技術識別人體姿態動作,并對人群進行行動力等級分類的過程
500倍效率提升后,文心大模型不止于科研臨床大數據
除了上述兩種醫學科研常見問題外,中康還將基于飛槳,針對醫院數據的復雜情況,繼續深化數據治理。
總的來說,百度飛槳和文心大模型幫助中康科技實現數據治理能力的三級提升。
第一級,相較于傳統人工作業,科研平臺的自然語言處理能力能將時間效率提升約10倍(時間短);第二級,基于文心大模型的小樣本學習僅需使用原來十分之一的數據量即可完成建模,效率再次提升10倍(數據量變小);第三級,規范化標準化的數據治理使得一個專病數據庫能服務于多個科研項目,效率再次提升約5倍,整體實現約500倍的效率提升。
基于文心大模型的AI臨床科研大數據平臺正在以領先的AI技術助力客戶推進科研項目,進一步推進學科研究事業發展。
不過,效率的飛速提升并非打造AI臨床科研大數據平臺的全部目的。目前,中康科技已經規劃好了基于飛槳和文心大模型繼續擴展大數據平臺的應用邊界的具體路徑。
據黃毅寧透露,中康將基于本身在醫療領域深厚的數據積累,對文心ERNIE-Health進行領域適應的大模型訓練,進而將其應用于醫學領域各類NLP任務之中。
AI臨床科研大數據平臺還將進一步對藥品說明、醫學病歷等內容進行信息抽取及中文醫學術語對齊,自動構建醫學知識圖譜。
這意味著,曾經的AI臨床科研大數據平臺將跳出臨床數據范疇,逐步將醫院全域大數據納入治理范疇。
中康科技CTO唐珂軻博士表示:中康科技與百度飛槳通過技術研發、生態共建等方面搭建了合作橋梁,實現了繁榮共贏。未來,中康科技期待與百度飛槳建立更緊密的合作關系,以百度飛槳和文心大模型的人工智能技術優勢,以中康科技在健康產業大數據的領先者地位、醫學科研領域的技術積累和沉淀,實現產品與方案的聯合創新。期待雙方全方位、多領域、更深入地交流,為中國醫學科研事業持續賦能,共創生命科學領域新篇章。