人工智能聊天机器人回答医生问题的准确性和可靠性如何?
2023-11-03
135

自然语言处理模型在医疗保健中的融合,可以从根本上提高卫生专业人员和患者对医疗信息的可及性。2023年10月,美国学者发表在《JAMA Netw Open》的一项研究,考察了聊天机器人回答医生问题的准确性和可靠性。

 

重要性:自然语言处理工具,如ChatGPT(生成预训练转换器,以下简称聊天机器人),有可能从根本上提高卫生专业人员和患者对医疗信息的可及性。评估这些工具在回答医生提出的问题时的安全性和有效性,对于确定其在临床环境中的适用性、促进复杂决策制定和优化医疗效率至关重要。

 

目的:旨在评估聊天机器人生成的对医生开发的医疗查询的回答的准确性和全面性,强调人工智能生成的医疗信息的可靠性和局限性。

 

设计、地点和参与者:17个专业的33名医生生成了284个医学问题,他们主观上将这些问题分为简单、中等或难,并给出了二元(是或否)或描述性答案。然后,医生对聊天机器人生成的这些问题的答案进行了准确性(6分Likert量表,其中1分表示完全不正确,6分表示完全正确)和完整性(3分Liker特量表,1分表示不完整,3分表示完整,外加额外的情景)评分。使用描述性统计对分数进行总结,使用Mann-Whitney U检验或Kruskal-Wallis检验进行比较。该研究(包括数据分析)于2023年1月~5月进行。

 

主要结局和测量指标:随着时间的推移以及聊天机器人生成的医疗回答的两个不同版本(GPT-3.5和GPT-4)之间的准确性、完整性和一致性。

 

结果:17个专业的33名医生(31名为教职工,2人为实习或奖学金项目的应届毕业生)生成的所有问题(284个)的中位准确性得分为5.5(IQR,4.0~6.0)(在几乎完全和完全正确之间),平均(SD)得分为4.8(1.6)(在大部分和几乎完全正确之间)。完整性中位得分为3.0(IQR,2.0~3.0)(完整且全面),平均(SD)得分为2.5(0.7)。对于评定为简单、中等和难的问题,中位准确性得分分别为6.0(IQR,5.0~6.0)、5.5(5.0~6.0)和5.0(4.0~6.0)(平均[SD]得分分别为5.0[1.5]、4.7[1.7]和4.6[1.6];P=0.05)。二元和描述性问题的准确度得分相似(中位得分,6.0[4.0~6.0] vs 5.0[3.4~6.0];平均[SD]得分为4.9[1.6] vs 4.7[1.6];P=0.07)。在36个得分为1.0至2.0的问题中,34个问题在8~17天后被重新生成并重新评分,均有大幅改善(中位得分,2.0[1.0~3.0] vs 4.0[2.0~5.3];P<0.01)。无论初始得分(3.5版)如何,使用第4版重新生成和重新评分的问题子集都得到了改善(平均准确性[SD]评分,5.2[1.5] vs 5.7[0.8];原始问题的中位得分为6.0[5.0~6.0],重新评分为6.0[6.0~6.0];P=0.002)。

 

结论和意义:在这项横断面研究中,经由学术医师专家的判断,聊天机器人为各种医学问题生成了大部分准确的信息,并随着时间的推移有所改善,但有重要的局限性。需要进一步的研究和模型开发来纠正不准确之处并进行验证。

 

 

(选题审校:何娜  编辑:丁好奇)

(本文由北京大学第三医院药剂科翟所迪教授及其团队选题并审校,环球医学资讯编辑完成。)

 

 


免责声明

版权所有©北京诺默斯坦管理咨询有限公司。 本内容由环球医学独立编写,其观点并不反映优医迈或默沙东观点,此服务由优医迈与环球医学共同提供。

如需转载,请前往用户反馈页面提交说明:https://www.uemeds.cn/personal/feedback

参考资料

JAMA Netw Open. 2023 Oct 2;6(10):e2336483

Accuracy and Reliability of Chatbot Responses to Physician Questions

https://pubmed.ncbi.nlm.nih.gov/37782499/

(1)
下载
登录查看完整内容