19. 大模型输出乱成渣?3个解析器轻松转成标准列表!

做AI应用开发最头疼的事之一,就是大模型的输出永远不按你想要的格式来。明明要求返回一个列表,结果它要么加一堆无关的开场白和结束语,要么格式五花八门,手动写正则处理不仅麻烦,还经常漏各种边界情况。

其实 LangChain 早就为我们准备好了现成的解决方案 ------ListOutputParser 系列解析器,能直接把大模型的自然语言输出,精准转换成程序能直接处理的标准字符串列表。下面这三个最常用的解析器,覆盖了绝大多数列表格式的需求。

视频在这里《19. 大模型输出乱成渣?3个解析器轻松转成标准列表!》

1. CommaSeparatedListOutputParser:简单逗号分隔列表

这是最基础也最常用的解析器,专门处理用英文逗号分隔的连续文本,会自动拆分并去除多余空格,输出干净的字符串列表。适合只需要纯文本条目、不需要额外说明的简单场景。

复制代码
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import CommaSeparatedListOutputParser

# 定义通用提示词模板
prompt = ChatPromptTemplate.from_messages(
    [
        {"role": "system", "content": "你是一位有10年经验的资深软件工程师。{format_instructions}"},
        {"role": "user", "content": "{new_input}"}
    ]
)

# 创建逗号分隔列表解析器
parser = CommaSeparatedListOutputParser()
# 获取解析器自带的格式指令,自动告诉大模型该怎么输出
format_instructions = parser.get_format_instructions()

# 传入参数生成完整提示词
prompt_value = prompt.invoke(
    {
        "format_instructions": format_instructions,
        "new_input": "请列出5种热门的编程语言。"
    }
)

# 调用大模型并解析结果
res = llm.invoke(prompt_value, config=config)
result = parser.invoke(res)
print(result)
# 输出示例:['Python', 'JavaScript', 'Java', 'C++', 'Go']

2. MarkdownListOutputParser:带说明的无序列表

如果你的需求不只是纯文本条目,还需要每个条目附带简短说明,那 MarkdownListOutputParser 会更合适。它能自动识别以+、-、*开头的 Markdown 无序列表项,提取内容后还支持保留冒号分隔的键值对格式。

复制代码
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import MarkdownListOutputParser

prompt = ChatPromptTemplate.from_messages(
    [
        {"role": "system", "content": "你是一位有10年经验的资深软件工程师。{format_instructions}"},
        {"role": "user", "content": "{new_input}"}
    ]
)

# 创建Markdown无序列表解析器
parser = MarkdownListOutputParser()
format_instructions = parser.get_format_instructions()

prompt_value = prompt.invoke(
    {
        "format_instructions": format_instructions,
        "new_input": "请列出5种热门的编程语言,并简要说明每种的特点。"
    }
)

res = llm.invoke(prompt_value, config=config)
result = parser.invoke(res)
print(result)
# 输出示例:
# [
#   'Python: 语法简洁,生态丰富,适合AI、数据分析和后端开发',
#   'JavaScript: 前端开发必备,也可通过Node.js做后端',
#   'Java: 跨平台性好,广泛用于企业级应用开发',
#   'C++: 性能极高,适合游戏引擎、操作系统等底层开发',
#   'Go: 天生支持并发,部署简单,适合云原生应用'
# ]

3. NumberedListOutputParser:有序步骤列表

对于需要按顺序呈现的内容,比如操作步骤、流程说明,NumberedListOutputParser 是最佳选择。它会精准匹配以 "阿拉伯数字 + 英文句点" 开头的有序列表,自动剥离编号前缀,同时严格保持原有的顺序不变。

复制代码
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import NumberedListOutputParser

prompt = ChatPromptTemplate.from_messages(
    [
        {"role": "system", "content": "你是一位有10年经验的资深软件工程师。{format_instructions}"},
        {"role": "user", "content": "{new_input}"}
    ]
)

# 创建有序列表解析器
parser = NumberedListOutputParser()
format_instructions = parser.get_format_instructions()

prompt_value = prompt.invoke(
    {
        "format_instructions": format_instructions,
        "new_input": "请列出程序员从早上到公司到下班离开的完整上班步骤"
    }
)

res = llm.invoke(prompt_value, config=config)
result = parser.invoke(res)

# 可以重新编号输出,也可以直接用列表做后续逻辑处理
for step_num, step_content in enumerate(result, 1):
    print(f"{step_num}. {step_content}")

这三个解析器的核心优势在于,它们会自动生成标准化的格式指令传给大模型,同时内置了完善的容错处理,能应对大模型输出的各种小偏差。不用再写冗长复杂的正则表达式,也不用反复调整提示词去约束输出格式,几行代码就能让大模型的输出直接接入业务逻辑,大幅提升开发效率。