19. 大模型输出乱成渣？3个解析器轻松转成标准列表！

做AI应用开发最头疼的事之一，就是大模型的输出永远不按你想要的格式来。明明要求返回一个列表，结果它要么加一堆无关的开场白和结束语，要么格式五花八门，手动写正则处理不仅麻烦，还经常漏各种边界情况。

其实 LangChain 早就为我们准备好了现成的解决方案 ------ListOutputParser 系列解析器，能直接把大模型的自然语言输出，精准转换成程序能直接处理的标准字符串列表。下面这三个最常用的解析器，覆盖了绝大多数列表格式的需求。

视频在这里《19. 大模型输出乱成渣？3个解析器轻松转成标准列表！》。

1. CommaSeparatedListOutputParser：简单逗号分隔列表

这是最基础也最常用的解析器，专门处理用英文逗号分隔的连续文本，会自动拆分并去除多余空格，输出干净的字符串列表。适合只需要纯文本条目、不需要额外说明的简单场景。

复制代码

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import CommaSeparatedListOutputParser

# 定义通用提示词模板
prompt = ChatPromptTemplate.from_messages(
    [
        {"role": "system", "content": "你是一位有10年经验的资深软件工程师。{format_instructions}"},
        {"role": "user", "content": "{new_input}"}
    ]
)

# 创建逗号分隔列表解析器
parser = CommaSeparatedListOutputParser()
# 获取解析器自带的格式指令，自动告诉大模型该怎么输出
format_instructions = parser.get_format_instructions()

# 传入参数生成完整提示词
prompt_value = prompt.invoke(
    {
        "format_instructions": format_instructions,
        "new_input": "请列出5种热门的编程语言。"
    }
)

# 调用大模型并解析结果
res = llm.invoke(prompt_value, config=config)
result = parser.invoke(res)
print(result)
# 输出示例：['Python', 'JavaScript', 'Java', 'C++', 'Go']

2. MarkdownListOutputParser：带说明的无序列表

如果你的需求不只是纯文本条目，还需要每个条目附带简短说明，那 MarkdownListOutputParser 会更合适。它能自动识别以+、-、*开头的 Markdown 无序列表项，提取内容后还支持保留冒号分隔的键值对格式。

复制代码

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import MarkdownListOutputParser

prompt = ChatPromptTemplate.from_messages(
    [
        {"role": "system", "content": "你是一位有10年经验的资深软件工程师。{format_instructions}"},
        {"role": "user", "content": "{new_input}"}
    ]
)

# 创建Markdown无序列表解析器
parser = MarkdownListOutputParser()
format_instructions = parser.get_format_instructions()

prompt_value = prompt.invoke(
    {
        "format_instructions": format_instructions,
        "new_input": "请列出5种热门的编程语言，并简要说明每种的特点。"
    }
)

res = llm.invoke(prompt_value, config=config)
result = parser.invoke(res)
print(result)
# 输出示例：
# [
#   'Python: 语法简洁，生态丰富，适合AI、数据分析和后端开发',
#   'JavaScript: 前端开发必备，也可通过Node.js做后端',
#   'Java: 跨平台性好，广泛用于企业级应用开发',
#   'C++: 性能极高，适合游戏引擎、操作系统等底层开发',
#   'Go: 天生支持并发，部署简单，适合云原生应用'
# ]

3. NumberedListOutputParser：有序步骤列表

对于需要按顺序呈现的内容，比如操作步骤、流程说明，NumberedListOutputParser 是最佳选择。它会精准匹配以 "阿拉伯数字 + 英文句点" 开头的有序列表，自动剥离编号前缀，同时严格保持原有的顺序不变。

复制代码

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import NumberedListOutputParser

prompt = ChatPromptTemplate.from_messages(
    [
        {"role": "system", "content": "你是一位有10年经验的资深软件工程师。{format_instructions}"},
        {"role": "user", "content": "{new_input}"}
    ]
)

# 创建有序列表解析器
parser = NumberedListOutputParser()
format_instructions = parser.get_format_instructions()

prompt_value = prompt.invoke(
    {
        "format_instructions": format_instructions,
        "new_input": "请列出程序员从早上到公司到下班离开的完整上班步骤"
    }
)

res = llm.invoke(prompt_value, config=config)
result = parser.invoke(res)

# 可以重新编号输出，也可以直接用列表做后续逻辑处理
for step_num, step_content in enumerate(result, 1):
    print(f"{step_num}. {step_content}")

这三个解析器的核心优势在于，它们会自动生成标准化的格式指令传给大模型，同时内置了完善的容错处理，能应对大模型输出的各种小偏差。不用再写冗长复杂的正则表达式，也不用反复调整提示词去约束输出格式，几行代码就能让大模型的输出直接接入业务逻辑，大幅提升开发效率。