基于 LlamaFactory 微调大模型的实体识别的评估实现

文章目录

介绍

使用 LlamaFactory 结合开源大语言模型实现文本分类:从数据集构建到 LoRA 微调与推理评估.https://blog.csdn.net/sjxgghg/article/details/144290200

在前文的文本分类评估中,已经介绍了主要的框架,故在大模型微调的流程框架方面本文不再赘述。

实体数据集格式

下述是实体识别评估的一条数据示例:

json 复制代码
{
	"prompt": "从以下政府文本中,提取指定的实体类别,并按照JSON格式输出结果。  xxx", 	 
	"predict": "\n```json\n{\n  \"行政区划和地理实体\": [],\n  \"政府机构和组织\": [],\n  ...  \"特定术语和关键词\": [\"改革创新\", \"体制机制障碍\", \"行政管理体制\", \"城乡一体化发展机制\"]\n}\n```", 
	"label": "```json\n{\n  \"行政区划和地理实体\": [],\n  \"政府机构和组织\": [] ...,\n  \"特定术语和关键词\": [\"改革创新发展\", \"高质量发展\", \"高品质生活\", \"体制机制障碍\"]\n}\n```"
	...
}

让大模型按照json格式输出。字典的键是实体的类别名,字典的值是一个列表其中包含所有该类别的所有预测结果。

实体识别评估代码

python 复制代码
import os
import re
import json
from dataclasses import dataclass

@dataclass
class EvalNode:
    # 默认值
    predict_right_num: int = 0
    predict_num: int = 0
    label_num: int = 0

    @property
    def accuracy(self):
        return self.predict_right_num / (self.predict_num + 1e-6)

    @property
    def recall(self):
        return self.predict_right_num / (self.label_num + 1e-6)

    @property
    def f1(self):
        return 2 * self.accuracy * self.recall / (self.accuracy + self.recall + 1e-6)

@dataclass
class NEREvaluate:
    ent_class: list[str]
    input_file: str
    avg_accuracy: int = 0
    avg_recall: int = 0
    avg_f1: int = 0
    predict_error: int = 0

    def __post_init__(self):
        self._evaluate_by_jsonl()

    def _evaluate_by_jsonl(self):

        with open(self.input_file, "r", encoding="utf-8") as f:
            self.total_ent = {ent: EvalNode() for ent in self.ent_class}

            for line in f:
                data = json.loads(line)

                # 大模型采取的是序列到序列到文本生成,不能转换为字典的数据跳过即可
                try:
                    matches = re.search("\{.*?\}", data["predict"], re.DOTALL)
                    if matches:
                        predict = eval(matches.group(0))
                except:
                    self.predict_error += 1
                    predict = {ent: [] for ent in self.ent_class}

                try:
                    # 防止label出错
                    matches = re.search("\{.*?\}", data["label"], re.DOTALL)
                    if matches:
                        labels = eval(matches.group(0))
                except:
                    continue

                # 每个不同的实体类别单独计数
                for ent_name in self.ent_class:
                    label_set = set(labels.get(ent_name, []))
                    predict_set = set(predict.get(ent_name, []))
                    self.total_ent[ent_name].predict_right_num += len(
                        label_set & predict_set
                    )
                    self.total_ent[ent_name].predict_num += len(predict_set)
                    self.total_ent[ent_name].label_num += len(label_set)

        for ent in self.ent_class:
            self.avg_accuracy += self.total_ent[ent].accuracy
            self.avg_recall += self.total_ent[ent].recall
            self.avg_f1 += self.total_ent[ent].f1

        self.avg_accuracy = self.avg_accuracy / len(self.ent_class)
        self.avg_recall = self.avg_recall / len(self.ent_class)
        self.avg_f1 = self.avg_f1 / len(self.ent_class)

下述是实体的类别:

python 复制代码
ENT_CLASS = [
    "行政区划和地理实体",
	...
    "特定术语和关键词",
]
bash 复制代码
ner_eval = NEREvaluate(
        ENT_CLASS, "xxx/generated_predictions.jsonl")
    )

for key, item in ner_eval.total_ent.items():
    print(key, item.f1)

输出评估结果:

python 复制代码
行政区划和地理实体 0.6292412411907403
人物与职务 0.45714235316380664
...
特定术语和关键词 0.29256472295174

accuracy 、recall 与 f1 均进行了计算,大家参考代码自行查看与输出即可。

在评估大模型生成的实体时,只有大模型把实体的边界完全预测正确,才认为预测对。

相关推荐
deephub8 分钟前
为什么 MCP 在协议层会有 prompt injection的问题:工具描述如何劫持 agent 上下文
人工智能·深度学习·大语言模型·ai-agent·mcp
乔代码嘚12 分钟前
2026 AI大模型全套资料免费领!30天从入门到架构部署,附面试真题与行业报告
人工智能·语言模型·面试·大模型·产品经理·ai大模型·大模型学习
配奇2 小时前
RNN及其变体
人工智能·rnn·深度学习
卷卷说风控2 小时前
【卷卷观察】硅谷要把AI数据中心扔进海里,这操作我服了
人工智能·深度学习
玩转单片机与嵌入式3 小时前
TInyML基础:“不用死记公式!一文讲透全连接层:它到底把神经网络‘连’成了什么样?”
人工智能·深度学习·神经网络
隔壁大炮3 小时前
第二章 脑电、诱发电位和事件相关电位
人工智能·深度学习·erp·eeg·脑电信号
数智工坊4 小时前
【VAE 论文阅读| ICLR 2014】:变分自编码器——深度生成模型的理论基石
论文阅读·人工智能·深度学习
wayz114 小时前
深入解析 Adam 优化器
深度学习·神经网络·keras
生信之灵5 小时前
追踪17只果蝇、7只线虫、10只小鼠,全程无需人工标注:这个无监督跟踪器如何颠覆动物行为研究?
人工智能·深度学习·神经网络·microsoft·交互
Purple Coder5 小时前
电力系统分析 第一章
深度学习