在AI制药(AI in Drug Discovery, AIDD)领域试用开源大模型时,指标的设定不能仅仅停留在传统大语言模型(LLM)的通用指标(如流畅度、代码生成能力)上,而必须结合具体的制药场景(如靶点发现、分子生成、属性预测、文献挖掘等)。
建议将测试指标分为以下四大维度进行系统性评估:
一、 科学与领域专业性指标(核心)
不同的任务对应完全不同的化学/生物学指标:
1. 分子生成任务(Generative Chemistry)
如果测试的是生成式模型(如基于SMILES或3D结构的生成模型):
- 合法性 (Validity): 生成的化学式(如SMILES串)是否符合化学语法,能否转化为真实的分子图。
- 唯一性 (Uniqueness): 生成的分子中不重复分子的比例,避免模型"模式崩溃"(反复生成同一个分子)。
- 新颖性 (Novelty): 生成的分子在训练集或现有数据库(如ChEMBL, PubChem)中未出现过的比例,评估其跳出已知空间的能力。
- 成药性 (QED, Quantitative Estimate of Druglikeness): 生成分子作为口服药物的潜力评分(0-1之间)。
- 可合成性 (SA Score, Synthetic Accessibility): 评估分子在实验室中被化学合成的难易程度(通常1-10,越低越好)。
- 多源靶点亲和力 (Binding Affinity): 生成分子与目标蛋白(靶点)结合的预测亲和力或对接打分(Docking Score)。
2. 属性预测任务(ADMET预测 / 活性预测)
如果是判别类模型(如评估分子的吸收、分布、代谢、排泄和毒性):
- 分类任务指标: ROC-AUC、PR-AUC、F1-Score(特别是针对正负样本极度不平衡的毒性预测数据)。
- 回归任务指标: RMSE(均方根误差)、MAE(平均绝对误差)、R²(决定系数)(用于预测溶解度、半衰期等连续数值)。
3. 结构预测任务(如蛋白质折叠、分子构象)
- RMSD(均方根偏差): 预测的三维结构与真实实验结构(如X射线晶体学数据)之间的原子坐标偏差,越低越好。
- TM-score: 评估两个蛋白质拓扑结构相似度的指标。
二、 文本与知识抽取指标(针对医药NLP大模型)
如果使用的是医药垂直领域的语言大模型(如BioGPT, 华驼, 启真等),用于文献挖掘、专利分析或实验报告生成:
- 幻觉率 (Hallucination Rate): 这是制药领域最致命的指标。 必须测试模型是否会编造虚假的靶点、伪造文献出处或捏造化学反应条件。
- 实体识别准确率 (NER F1-Score): 模型能否准确提取基因、蛋白质、疾病、小分子药物、靶点等专业实体。
- 知识推理准确度: 给定前提条件(如"A抑制B,B促进C"),模型能否推导出A对C的最终影响。
- 多模态理解能力(如有): 能否准确理解输入的化学分子式(SMILES表示)、蛋白质序列(FASTA)并输出相关描述。
三、 工程与计算性能指标(IT与部署维度)
制药计算通常伴随海量数据,工程指标决定了模型能否真正落地:
- 吞吐量 (Throughput): 每秒可生成的分子数量 / 每秒可处理的文献Token数。
- 推理延迟 (Latency): 预测单个分子属性或生成单个分子的耗时。
- 显存占用 (VRAM Usage): 峰值显存消耗,决定了是否能在企业现有的消费级或企业级GPU(如RTX 4090 或 A100)上低成本部署。
- 上下文窗口限制 (Context Window): 处理长篇医学专利或超长蛋白质序列(动辄数千氨基酸)时的最大长度支持能力。
四、 商业与合规性指标
- 开源协议友好度: 检查模型权重和代码的License(如MIT, Apache 2.0可商用;而CC BY-NC则严禁直接用于商业研发)。
- 私有化部署能力: 医药数据(尤其是企业的分子库和实验数据)属于绝对核心机密,模型必须支持断网情况下的全私有化本地部署。
- 结果可复现性: 设定固定的随机种子(Seed)后,模型是否能稳定输出相同的结果(这对于合规和实验记录非常重要)。
💡 试用建议:
在实际测试时,建议不要使用公开基准测试集(Benchmark) ,因为很多开源模型在训练时可能已经"见过"这些数据(数据泄露污染)。
最佳实践是: 拿贵公司最近3个月内部刚刚合成验证过的一批新分子,或者最新发表的一篇非热门靶点的文献,作为盲测数据喂给大模型,看它的表现是否符合预期。