Langchain入门到精通0x01：结果解析器

Result Parser

上一篇学习了什么是langchain和prompt templete。那么，很多时候大模型直接返回的数据并不能满足各个项目的具体需求，如何将大模型自由、非结构化的文本输出，转化为程序可稳定、高效处理的结构化数据？

langchain提供了几个标准的接口来实现这个目的。今天就挨个来学习下几个常用的解析器接口。

StrOutputParser

字符串解析器。用于清理模型输出，去除多余换行等，返回纯净字符串。它是最常用的"兜底"解析器。

ini 复制代码

parser = StrOutputParser()
chain = prompt | model | parser

JsonOutputParser

Json格式解析器。

ini 复制代码

parser = JsonOutputParser()
chain = prompt | model | parser

CommaSeparatedListOutputParser

逗号分隔列表解析器。适用于生成标签、关键词、选项列表等场景。比如生成csv格式的常常也用到这个。

ini 复制代码

parser = CommaSeparatedListOutputParser()
chain = prompt | model | parser

DatetimeOutputParser

日期解析器 。将人类模糊、灵活的自然语言时间描述，精准、可靠地转换为程序可计算的 datetime对象。

ini 复制代码

parser = DatetimeOutputParser()
chain = prompt | client | parser

PydanticOutputParser

基于Pydantic模型的结构化解析 。这是企业级应用中最核心、最推荐的解析器。它通过定义严格的Pydantic数据模型来确保输出结构的质量和类型安全。

python 复制代码

# 1. 定义你的结构化数据模型
class MovieReview(BaseModel):
    title: str = Field(description="电影标题")
    year: int = Field(description="上映年份")
    rating: float = Field(description="评分，0-10分")
    tags: List[str] = Field(description="电影标签")

    @validator('year')
    def year_must_be_valid(cls, v):
        if v > 2025:
            raise ValueError('年份不能超过2025年')
        return v

# 2. 创建解析器，并注入格式指令到提示词
parser = PydanticOutputParser(pydantic_object=MovieReview)
prompt = PromptTemplate(
    template="请根据以下影评文本，提取信息。\n{format_instructions}\n文本：{review}\n",
    input_variables=["review"],
    partial_variables={"format_instructions": parser.get_format_instructions()}
)

model = get_lc_model_client()
# 3. 构建并执行链
chain = prompt | model | parser
review_text = "《流浪地球2》于2023年上映，是一部宏大的科幻灾难片，我认为可以打9.3分，它包含了科幻、灾难和爱国情怀等元素。"
try:
    result = chain.invoke({"review": review_text})
    print(result)
    print("--" * 10)
    print(f"标题：{result.title}")
    print(f"年份：{result.year}")
    print(f"标签：{result.tags}")
except Exception as e:
    print(f"解析失败，模型输出格式可能不符合要求：{e}")

CustomKeyValueParser

自定义解析器 。是 "面向极端或遗留格式的自由扩展" 的逃生通道。当标准解析器或Pydantic模型无法描述你的特殊输出格式时，它给你底层控制权。

当你的输出格式无法用JSON描述，或需要复杂后处理时，就需要继承 BaseOutputParser[T]

parse：核心重写方法。可以在这里写任何Python逻辑：正则匹配、多轮解析、调用外部API清洗数据等。
get_format_instructions是指令生成器：清晰、无歧义地告诉模型你期望的精确文本格式。

python 复制代码

class MixedFormatParser(BaseOutputParser[dict]):
    """解析混合格式：第一部分是键值对，第二部分是列表"""
    def get_format_instructions(self) -> str:
        return (
            "严格按以下格式回答：\n"
            "Key1: Value1\n"
            "Key2: Value2\n"
            "---\n"
            "Item1, Item2, Item3"
        )

    def parse(self, text: str) -> dict:
        # 1. 分割上下两部分
        if "---" not in text:
            raise ValueError("缺少分隔符'---'")
        header_section, list_section = text.split("---", 1)

        # 2. 解析键值对部分（自定义逻辑）
        key_value_dict = {}
        for line in header_section.strip().split("\n"):
            if ": " in line:
                key, value = line.split(": ", 1)
                key_value_dict[key.strip()] = value.strip()

        # 3. 解析列表部分（自定义逻辑）
        item_list = [item.strip() for item in list_section.strip().split(",")]

        # 4. 返回结构化数据
        return {
            "metadata": key_value_dict,
            "items": item_list
        }

    @property
    def _type(self) -> str:
        return "mixed_format_parser"

如何抉择

优先使用 PydanticOutputParser ：当你的输出结构是已知的、可定义的，尤其是需要与其他系统（数据库、API）交换数据时。它覆盖了90%的企业应用场景。
考虑自定义解析器：仅当遇到以下情况：
- 输出格式是非JSON的特定文本格式（如固定宽度的日志、特定的CSV变体、 legacy系统接口）。
- 需要复杂的后处理，例如从大段文本中提取多个实体并建立关系图。
- 模型输出包含多个逻辑部分，需要用截然不同的规则解析。