真实世界研究-非结构化数据处理

真实世界研究(Real-Word Studies, RWS)是指以参与者在日常临床实践中遇到的真实情况为基础的研究。要得到精准的研究结果,往往需要高质量的结构化数据。面对海量的文本数据,我们如何得到高质量的结构化数据呢,今天就给大家分享一个简单高效的数据处理方法。


01


RWS的数据源分析

现有数据来源主要包含:

1、电子病历(electronic medical record, EMR)

2、电子健康档案(electronic health record, EHR)

3、医保数据(claims data)

4、出生死亡登记

5、公共健康监测数据以及区域化

6、医疗数据等

研究者需要从参与者的病历中提取关键信息,以便更好地了解病人的情况及治疗效果。

1、基本信息:如年龄、性别、病史、家族病史等。

2、诊断信息:疾病诊断、病情描述、患者主诉等。

3、治疗信息:治疗计划、药品治疗、手术治疗等。

4、观察数据:如血压、血糖、体温等数据。

5、病情进展:疾病的演变过程、症状的变化等。

6、不良反应:药物不良反应、手术后并发症等。

7、质量指标:如病人就医满意度、治疗有效性等指标。

以上信息仅仅是提取病例信息的一部分,具体的提取方式和信息内容还需要根据研究的目的和问题进行确定。


02


数据的结构化处理

需要的信息往往都隐藏在这些文本中,无法直接用于统计研究。如何做从这些文本中提取出我们需要的信息呢?传统方法是人工或者使用自然语言处理的工程学方法,这两种方法的成本往往是比较高的。

现在有没有比较简单的和可行的方案呢?

今天我们就以上面的文本为例,使用"知否AI"进行数据的结构化处理。

下面是一段摘自"丁香园"的一段病例信息:

患者,女性,75岁。

主诉"咳嗽、咳痰、发热1周,胸闷、呼吸困难5天"。 患者1周前受凉后出现流涕、鼻塞、咽痒,咳嗽、咳黄痰,发热,最高体温38.0℃,伴畏寒、寒战。5天前患者出现胸闷,位于胸骨中段后,呈压迫样,持续性发作,并逐渐出现呼吸困难。服用了复方氨酚烷胺颗粒、头孢克肟。 无胸背痛,无咯血,无腹痛、腹胀、腹泻,无呕吐、头痛,无肢体偏瘫等。 患者既往有"高血压病"等病史。 入院时查体:体温38.0℃,脉搏84次/分,呼吸22次/分,血压122/70mmHg。指尖脉氧98%。清醒,对答切题。颈静脉怒张。双肺呼吸音粗,双肺可闻及较多湿性罗音,未闻及干罗音。心界无扩大,律齐,心音低钝,未闻杂音。双下肢无水肿。腹部、神经系统查体(-)。 化验室检查: 超敏肌钙蛋白T:>50000 pg/ml(0-34.2)。 CK-MB:184.7 U/L(0-25);CK:2671 lU/L(25-173)。 pro-BNP 22063.1 pg/ml。 D-二聚体:4567 ug/L(0-1000)。 血气分析:pH:7.3,PCO2: 34mmHg,PO2: 71mmHg,HCO3: 27.2mmol/L,乳酸:1.1mmol/L。 血常规:白细胞6.66x10^9/L,中性粒细胞百分数82.1%(50-70),淋巴细胞百分数9.9%(20-40),血红蛋白111g/L,血小板110x10^9/L。 超敏C反应蛋白:100 mg/L(0-10)。降钙素原正常。 生化:血钾:3.84mmo/L。肌酐119 umol/L。 肝功能: AST:326 lU/L;ALT:117 lU/L;血清血蛋白:32.1 g/L。 血糖、血脂、甲功能均未见明显异常。

今天我们就以上面的文本为例,使用知否AI进行数据的结构化处理。

我们采用的处理思路是,从整体到部分,从粗到细的处理策略。

1、大类别抽取

我们输入,抽取年龄、性别、需要鉴别的疾病、病史、家族病史、疾病诊断、病情描述、患者主诉、治疗计划、药品治疗、手术治疗、不良反应、手术后并发症、病人就医满意度、治疗有效性、实验室检验

以表格的形式展示,表头为内容和结果。

2、针对每一个类别进行精细化抽取

(1)、提取实验室检验

(2)、抽取病情和和主诉

(3)、抽取现病史和既往史

(4)、抽取用用药信息

您可以打开"知否AI"自己体验一下,可以输入"请帮我抽取用药信息,以表格形式展示+您要抽取的文字"。就可以得到想要的内容了。


03


真实世界研究的展望

当今医学研究的一个趋势是真实世界研究(Real-world evidence,RWE)。与以往的临床试验相比,RWE更好地反映了真实世界中疾病和治疗方案的真实情况,具有更广泛的应用价值。未来,随着RWE技术和方法的不断升级和完善,它将在评估治疗效果、制定健康政策和指南、支持药品审批和监管等方面发挥更为重要的作用。

在真实世界研究中,重症患者的治疗效果仍然是一个亟待解决的问题。在新兴的细分领域,如精准医学、个性化医疗和数字医疗等,RWE也将发挥至关重要的作用,为患者提供更为精准和个性化的治疗方案,让患者最大程度地获益。

总的来说,真实世界研究的应用前景十分广阔,将在医疗治疗、药品审批和监管、健康政策和指南制定等方面发挥着越来越重要的作用,促进医疗研究的不断推进和进步,为广大患者提供更为精准、有效的医疗服务。


以上的截图均来源于我们的AI助手: 知否AI问答,如果大家有兴趣可以点击链接查看,微信扫码直接登录,无需其他复杂验证,新用户可免费试用。

相关推荐
qzhqbb2 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨2 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041082 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌3 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭3 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246664 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k5 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫5 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班5 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型