2023年9月14日,復(fù)旦大學(xué)李小英、陳穎及北京郵電大學(xué)王光宇共同在《Nature Medicine》上發(fā)表了題為“Optimized glycemic control of type 2 diabetes with reinforcement learning: a proof-of-concept trial”的研究論文,該研究提出了一個基于模型的強(qiáng)化學(xué)習(xí)(RL)框架(稱為RL-DITR),該框架通過分析患者模型相互作用的血糖狀態(tài)獎勵來學(xué)習(xí)較佳胰島素方案。在開發(fā)階段對T2D住院患者的管理進(jìn)行評估時,與其他深度學(xué)習(xí)模型和標(biāo)準(zhǔn)臨床方法相比,RL-DITR獲得了更好的胰島素滴定優(yōu)化(平均絕對誤差(MAE)為1.10±0.03 U)。該研究對人工智能系統(tǒng)進(jìn)行了從模擬到部署的逐步臨床驗(yàn)證,通過盲法評價的定量(MAE為1.18±0.09 U)和定性指標(biāo),與初級和中級醫(yī)生相比,人工智能系統(tǒng)在住院患者的血糖控制方面表現(xiàn)更好。此外,在16例T2D患者中進(jìn)行了單臂、患者盲法、概念可行性驗(yàn)證試驗(yàn)。主要終點(diǎn)是試驗(yàn)期間平均每日毛細(xì)血管血糖的差異,從11.1(±3.6)降至8.6(±2.4)mmol L?1 (P < 0.01),達(dá)到預(yù)定終點(diǎn)。未發(fā)生嚴(yán)重低血糖或高血糖伴酮癥發(fā)作。這些初步結(jié)果值得在更大、更多樣化的臨床研究中進(jìn)一步調(diào)查。