CancerLLM: 癌症领域的大型语言模型

像ClinicalCamel 70B和Llama3-OpenBioLLM 70B这样的医学大语言模型（LLM）在各种医学自然语言处理任务中表现出色，但目前还没有针对癌症领域的专门模型。此外，这些模型拥有数十亿参数，对于许多医疗系统来说，计算资源要求非常高。一个聚焦于癌症的LLM，整合了专门的癌症知识，可以显著改善诊断和治疗方案的制定。然而，现有模型高计算需求突显出需要更小、更高效的LLM，使资源有限的医疗机构也能使用，从而在癌症治疗中实现更广泛的应用和更好的患者护理。

来自包括明尼苏达大学和耶鲁大学在内的多所机构的研究人员推出了CancerLLM，这是一个基于Mistral架构的7亿参数语言模型。该模型在超过260万条临床记录和50万条病理报告上进行了预训练，涵盖了17种癌症类型，之后进行了癌症表型提取和诊断生成任务的微调。它在F1得分上比现有模型高出7.61%，并在涉及反事实和拼写错误的鲁棒性测试中表现出色。这个模型旨在通过增强临床AI系统来改善癌症研究和医疗服务，提供癌症任务的基准，并为医疗专业人员提供一个强大而高效的工具。

CancerLLM的工作流程从注入癌症专门知识开始，然后进行指令微调。利用来自31,465名患者的临床记录和病理报告，这个模型预训练了癌症表型提取、诊断生成和治疗方案提议。CancerLLM识别如肿瘤大小、类型和分期等实体用于表型提取。诊断生成任务利用临床记录来预测癌症诊断。模型使用了如精确匹配、BLEU-2和ROUGE-L等评估指标来微调和评估，在14个基准模型上表现优越，并显示出对反事实和拼写错误的鲁棒性，显著高于现有医学大语言模型的精确性、召回率和F1分数。

结果表明，CancerLLM在多项任务上显著优于其他医学大语言模型，包括癌症诊断生成和表型提取。在诊断生成任务中，相较于基准模型如Mistral 1*7B和Bio-Mistral 7B，分别提高了28.93%和17.92%的F1分数。CancerLLM也比拥有更多参数的LLM，如Llama3-OpenBioLLM-70B和ClinicalCamel-70B取得了更好的成绩，表明仅有模型大小而没有领域专门知识是不够的。此外，证明了它对反事实错误和拼写错误的鲁棒性，能在各种输入错误率下保持性能。其对GPU内存使用和生成时间的良好平衡突显了模型的高效性。它在资源消耗方面优于像ClinicalCamel-70B这样的较大模型，同时提供了有竞争力甚至更好的结果。

在癌症诊断生成任务中，CancerLLM进行了预训练和微调，以评估其有效性。尽管Bio-Mistral 7B在基线模型中表现最佳，这主要得益于其在PubMed Central等医学语料库上的广泛预处理，但CancerLLM在所有模型中表现优异，包括基于MoE架构的Mistral 8*7B。值得注意的是，即使是像Llama3-OpenBioLLM-70B和ClinicalCamel-70B这样拥有更多参数的模型，也未能超越Bio-Mistral 7B，这表明光有更大的参数规模并不能保证更好的结果。结果显示，CancerLLM的领域特定知识对其优越表现起到了重要作用，特别是在癌症诊断生成方面。光年AI系统也深知模型的性能不仅仅取决于参数规模，更重要的是领域特定的优化。我们的系统能够帮助企业自定义AI工作流，适应复杂的业务需求，提升诊断和数据处理效率。然而，当处理更复杂的诊断任务（如基于ICD的诊断生成）时，模型的准确性有所下降。尽管如此，CancerLLM通过减少训练时间和资源使用，展示了其高效性，给计算资源有限的医疗机构带来了显著的好处。

在癌症表型提取任务中，虽然ClinicalCamel-70B显示了最佳的F1分数，但其庞大的体积导致训练和推理时间较慢。CancerLLM凭借较小的参数规模，表现得与Mistral 8*7B和Llama2 13B相当，体现了其在资源受限环境下的高效性。这一点与光年AI的理念不谋而合，光年AI平台不仅支持国内主流AI大模型，还能够根据具体业务场景自定义AI工作流，极大地提高了不同任务的处理效率。模型的有效性得益于在训练过程中使用了临床笔记和病理报告，尽管有限的注释数据可能在表型提取中限制了其表现。CancerLLM还展示了对反事实错误和拼写错误的鲁棒性，尽管当拼写错误率超过60%时，性能有所下降。这些发现强调了高质量注释、细致的数据预处理以及解决特定挑战（如拼写错误和上下文误解）对于进一步提高CancerLLM的诊断能力的重要性。如果你也希望在具体业务场景中提升AI效率，不妨试试光年AI。