未來(lái)將大語(yǔ)言模型應用于醫學(xué)可能會(huì )成為一種趨勢。在分診問(wèn)診等臨床咨詢(xún)階段,利用模型與患者進(jìn)行交互,收集到完整、準確的信息并形成初步意見(jiàn),再將其交給專(zhuān)業(yè)醫生進(jìn)行最終判斷,這在一定程度上可以減少因為信息收集不充分、患者主訴不明確等問(wèn)題帶來(lái)的誤診和漏診。
你是否想過(guò),未來(lái)給你問(wèn)診的可能是人工智能?據報道,用于尋醫問(wèn)診的大語(yǔ)言模型在國內已經(jīng)出現,醫檢行業(yè)等垂直領(lǐng)域也正加速布局對應的大語(yǔ)言模型。不僅如此,《自然》雜志近日還發(fā)表了一篇論文,展示了一個(gè)用于評估大語(yǔ)言模型在醫學(xué)問(wèn)題上整體表現水平的基準。
那么,將大語(yǔ)言模型用于尋醫問(wèn)診是否有可能成為一種趨勢?其技術(shù)原理是什么,又該如何對其進(jìn)行監管和評估?帶著(zhù)這些問(wèn)題,記者采訪(fǎng)了相關(guān)專(zhuān)家。
國內企業(yè)紛紛入局醫檢大語(yǔ)言模型
ChatGPT的發(fā)布,掀起了各廠(chǎng)商研發(fā)大語(yǔ)言模型的熱潮。“此前人工智能應用于醫學(xué)的進(jìn)展速度并不算快,能否借助這一輪大語(yǔ)言模型發(fā)展熱潮,把對專(zhuān)業(yè)性、精準度要求極高的AI醫療推向發(fā)展的快車(chē)道,成了大家現在關(guān)注的焦點(diǎn)。”廣州金域醫學(xué)檢驗集團股份有限公司(以下簡(jiǎn)稱(chēng)金域醫學(xué))數字化運營(yíng)管理中心算法總監劉斯表示。
國內在“大語(yǔ)言模型+醫學(xué)”領(lǐng)域雖起步相對較晚,但也是“八仙過(guò)海、各顯神通”。今年5月,互聯(lián)網(wǎng)醫院——醫聯(lián)率先發(fā)布了基于Transformer架構的國內首款醫療大語(yǔ)言模型——MedGPT。而在醫檢領(lǐng)域,金域醫學(xué)正聯(lián)合華為云等行業(yè)巨頭,研發(fā)聚焦智能臨床咨詢(xún)、檢測項目智能推薦、智能檢測報告生成與解讀等方面的醫檢行業(yè)大語(yǔ)言模型。
目前,網(wǎng)絡(luò )上也有一些沒(méi)有大語(yǔ)言模型加持的尋醫問(wèn)診機器人。這種機器人與大語(yǔ)言模型加持下的尋醫問(wèn)診機器人有何不同?
“大語(yǔ)言模型加持下的問(wèn)診服務(wù)將具有更好的柔性。在患者不能用專(zhuān)業(yè)術(shù)語(yǔ)描述自身癥狀,或者患者的回答并沒(méi)有按照預設路徑進(jìn)行的時(shí)候,大語(yǔ)言模型擁有更加靈活的應對能力。”劉斯透露,利用這些特性,他們正在訓練醫檢大模型,并希望借此打造人工智能醫檢咨詢(xún)師。
有望減少誤診漏診提供普惠醫療服務(wù)
當前,醫檢服務(wù)正日益趨向專(zhuān)業(yè)化、精準化、個(gè)性化。以廣東省新一代人工智能開(kāi)放創(chuàng )新平臺的承建單位金域醫學(xué)為例,其已在醫檢生成式人工智能領(lǐng)域有所布局,目前已建立起標準報告語(yǔ)言規范及高質(zhì)量專(zhuān)病數據庫,并正利用預訓練模型在醫學(xué)文本實(shí)體抽取、病理報告結構化等領(lǐng)域開(kāi)展探索。
受訪(fǎng)專(zhuān)家們一致認為,未來(lái)將大語(yǔ)言模型應用于醫學(xué)可能會(huì )成為一種趨勢。在分診問(wèn)診等臨床咨詢(xún)階段,利用模型與患者進(jìn)行交互,收集到完整、準確的信息并形成初步意見(jiàn),再將其交給專(zhuān)業(yè)醫生進(jìn)行最終判斷,這在一定程度上可以減少因為信息收集不充分、患者主訴不明確等問(wèn)題帶來(lái)的誤診和漏診。這個(gè)方案不管是從準確率還是從效率上來(lái)看,都具備一定的可行性。
“許多最前沿的醫療知識分散在少數人手里,而大語(yǔ)言模型卻能夠融合頂尖知識,提供更加普惠的醫療知識服務(wù)。”左手醫生創(chuàng )始人兼CEO張超說(shuō)。
上海長(cháng)海醫院實(shí)驗診斷科主任、博士生導師劉善榮也表示,未來(lái)若能搜集到大型三甲醫院的醫生對于某些疾病的認知并將其導入大語(yǔ)言模型進(jìn)行整合、學(xué)習,一些醫療資源不充足的地區也有可能享受到高質(zhì)量的醫療服務(wù)。
對齊真實(shí)醫療場(chǎng)景需技術(shù)倫理雙管齊下
大語(yǔ)言模型或許能提升醫檢行業(yè)效率,但在面對真實(shí)的尋醫問(wèn)診場(chǎng)景時(shí),目前的大語(yǔ)言模型仍有其局限性,這主要體現在準確性、一致性和及時(shí)性上。
在準確性上,由于模型預訓練時(shí)所用的文本范圍不一定囊括所有專(zhuān)科,針對疑難雜癥以及罕見(jiàn)疾病的語(yǔ)料也不一定足夠豐富,因此模型在面對較為罕見(jiàn)的場(chǎng)景時(shí),有可能會(huì )出現根據它當前掌握的知識強行作答的情況。“在醫檢實(shí)踐場(chǎng)景中,我們也發(fā)現大模型在回答問(wèn)題的過(guò)程中有可能出現幻覺(jué),會(huì )將沒(méi)有出現在描述里的癥狀納入到考慮范圍中。”劉斯表示。
在一致性上,若以相同的問(wèn)題重復多次詢(xún)問(wèn)模型,模型偶爾會(huì )出現回答前后不一致的情況。這種隨機性在日常對話(huà)或者故事創(chuàng )作中是受歡迎的,但在臨床咨詢(xún)場(chǎng)景中是不允許發(fā)生的。
在及時(shí)性上,大模型受限于訓練語(yǔ)料的時(shí)限性,無(wú)法直接利用訓練之后才產(chǎn)生的新語(yǔ)料。換言之,新的醫療發(fā)現和診療指南等信息難以直接、有效地注入未更新的大模型里。
“與以聊天為‘主業(yè)’的ChatGPT相比,在醫療方面,我們需要大語(yǔ)言模型給出盡可能穩定和精確的結論,避免因為模型幻覺(jué)或者含糊不清的回答,誤導患者選擇錯誤的診療方案。”劉斯指出,目前大部分醫療領(lǐng)域的大語(yǔ)言模型會(huì )選用知識圖譜進(jìn)行輔助,圖譜質(zhì)量在很大程度上會(huì )影響其回答質(zhì)量。
大語(yǔ)言模型要借助什么技術(shù)手段解決這些缺陷呢?劉斯認為,除了預訓練過(guò)程中需要納入足夠多的醫學(xué)專(zhuān)業(yè)數據外,在模型設計中,也需要重視它對知識圖譜的利用能力,以及基于圖譜的推理能力。目前看來(lái),完全依賴(lài)大模型進(jìn)行外部不可見(jiàn)的獨立推理過(guò)程并直接向醫生輸出結果,這種模式在醫學(xué)場(chǎng)景中較難達到足夠高的準確率,也較難獲得醫生的認同。“知識圖譜+大模型”的技術(shù)路徑,可能會(huì )是促進(jìn)大模型在醫學(xué)場(chǎng)景落地的更優(yōu)選擇。
此外,大語(yǔ)言模型在微調階段和測試階段,需要醫學(xué)專(zhuān)家的深度介入,依托具有交叉學(xué)科背景的研發(fā)團隊對模型進(jìn)行迭代,保障模型的反饋嚴格遵照醫學(xué)邏輯;同時(shí),在應用過(guò)程中,也需要注重大語(yǔ)言模型本身以及相關(guān)知識圖譜的更新頻率,如可借助指令精調乃至重新預訓練等手段將新增的醫學(xué)語(yǔ)料納入大語(yǔ)言模型的“知識庫”,以應對模型醫學(xué)知識更新不及時(shí)的問(wèn)題。
同時(shí),業(yè)內專(zhuān)家也提醒道,要注意對用于醫學(xué)領(lǐng)域的大語(yǔ)言模型進(jìn)行監管和評估。劉斯表示,應在遵循現有生成式人工智能以及人工智能醫用軟件的管理辦法和規章制度,保證數據來(lái)源和技術(shù)安全、合規、可控的前提下,在大語(yǔ)言模型研發(fā)過(guò)程中加強與醫學(xué)專(zhuān)家團隊的協(xié)作,這樣一方面可確保醫學(xué)領(lǐng)域的知識有效注入到模型中,另一方面也能使模型輸出的結果與醫生診療結論保持相似或一致。此外,將現階段模型輸出的結果用于診療決策之前,仍需要由醫生來(lái)把最后一道關(guān),保障結果的專(zhuān)業(yè)性。目前來(lái)講,大語(yǔ)言模型僅能作為醫生的助手,而不能替代醫生進(jìn)行決策。(葉青)