北京大学肿瘤医院

返回

顶部

网站导航

353-354期(完成)(1)-1.jpg

AI聊天机器人对癌患问题的解答堪比医生?

作者: 来源: 发布时间:2024-07-09

加拿大玛格丽特公主医院癌症中心Chen等报告,人工智能(AI)聊天机器人可以对患者所提出的有关癌症的问题做出高质量、有同理心且可读的回答,其结果与来自在线论坛的专业医生回答相当。需要进一步的研究来评估聊天机器人辅助互动的范围、流程整合和医患结局。(JAMA Oncol. 2024年5月16日在线版)

为了评估AI聊天机器人[GPT-3.5(聊天机器人1)、GPT-4(聊天机器人2)和Claude AI(聊天机器人3)]对患者有关癌症的问题给出高质量的、感同身受的且具有可读性响应的能力,该项等效性研究的对标数据来自6例有资质的肿瘤科医生对公共在线论坛200个癌症患者问题的解答。从2018年1月1日到2023年5月31日,研究者从一个公共在线论坛(Reddit r/AskDocs)上随机抽取了200个与癌症有关的患者提问,并向3个AI聊天机器人提问。

主要终点为依据李克特量表对质量、同理心和可读性进行评级,评级范围为1分(非常差)到5分(非常好)。次要终点为使用Flesch-Kincaid等级评估的可读性。 

结果显示,聊天机器人3(Claude AI)是表现最好的AI聊天机器人,与肿瘤科医生的回答相比,其对200个问题的回答在质量[平均值:3.56分(95%CI 3.48~3.63分) vs. 3.00分(95%CI 2.91~3.09分),P<0.001]、同理心[平均值:3.62分(95%CI 3.53~3.70分) vs. 2.43分(95%CI 2.32~2.53分),P<0.001)和回答的可读性[平均值:3.79分(95%CI 3.72~3.87分) vs. 3.07分(95%CI 3.00~3.15分),P<0.001)的总体评估评分始终更高。

肿瘤科医生回答的平均Flesch-Kincaid等级水平对比聊天机器人3(Claude AI)的并无显著差异[平均值:10.11(95%CI 9.21~11.03) vs. 10.31(95%CI 9.89~10.72),P>0.99],但低于聊天机器人1(GPT-3.5:12.33,95%CI 11.84~12.83。P<0.001)和聊天机器人2(GPT-4:11.32,95%CI 11.05~11.79,P=0.01)的结果。

(编译 陈娇)