构建高效NLP管道：PydanticOutputParser与Langchain的结合

PydanticOutputParser 是一个用于解析语言模型输出的实用工具，它允许用户指定一个 Pydantic 模型，并查询语言模型以生成符合该模型的 JSON 输出。这个工具特别有用，因为它可以帮助开发者确保从语言模型获得的结构化数据符合预期的格式，从而简化了数据处理和集成的过程。

使用 PydanticOutputParser 之前，你需要定义一个 Pydantic 模型，这个模型将作为数据的结构模板。Pydantic 的 BaseModel 类似于 Python 的数据类，但它提供了实际的类型检查和数据转换功能。你可以在模型中定义字段，并使用 Field 函数添加额外的元数据，如字段描述。此外，你还可以使用 validator 装饰器来添加自定义验证逻辑，确保数据的正确性。

例如，如果你想要解析一个关于笑话的数据结构，你可以创建一个包含 setup（笑话的铺垫）和 punchline（笑话的结尾）字段的 Pydantic 模型。然后，你可以使用 PydanticOutputParser 来指导语言模型生成符合这个模型的输出。

在实际应用中，你可以将 PydanticOutputParser 与语言模型和其他工具（如 PromptTemplate）结合使用，构建一个完整的数据处理流程。这样，你不仅可以获得结构化的数据输出，还可以通过模板化的方式控制语言模型的输入，使其更加灵活和强大。

总的来说，PydanticOutputParser 是一个强大的工具，它结合了 Pydantic 的数据模型能力和语言模型的生成能力，为开发者提供了一种高效的方式来处理和解析结构化数据。

复制代码

from typing import List

from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import ChatPromptTemplate
from langchain.schema import HumanMessage
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_openai import ChatOpenAI


class BookInfo(BaseModel):
    book_name: str = Field(description="书籍的名字")
    author_name: str = Field(description="书籍的作者")
    genres: List[str] = Field(description="书籍的体裁")


output_parser = PydanticOutputParser(pydantic_object=BookInfo)  #BookInfo
# 查看输出解析器的内容，会被输出成json格式
print(output_parser.get_format_instructions())

prompt = ChatPromptTemplate.from_messages([
    ("system", "{parser_instructions} 你输出的结果请使用中文。"),
    ("human", "请你帮我从书籍的概述中，提取书名、作者，以及书籍的体裁。书籍概述会被三个#符号包围。\n###{book_introduction}###")
])

book_introduction = """
《朝花夕拾》原名《旧事重提》，是现代文学家鲁迅的散文集，收录鲁迅于1926年创作的10篇回忆性散文， [1]1928年由北京未名社出版，现编入《鲁迅全集》第2卷。
此文集作为"回忆的记事"，多侧面地反映了作者鲁迅青少年时期的生活，形象地反映了他的性格和志趣的形成经过。前七篇反映他童年时代在绍兴的家庭和私塾中的生活情景，后三篇叙述他从家乡到南京，又到日本留学，然后回国教书的经历；揭露了半殖民地半封建社会种种丑恶的不合理现象，同时反映了有抱负的青年知识分子在旧中国茫茫黑夜中，不畏艰险，寻找光明的困难历程，以及抒发了作者对往日亲友、师长的怀念之情 [2]。
文集以记事为主，饱含着浓烈的抒情气息，往往又夹以议论，做到了抒情、叙事和议论融为一体，优美和谐，朴实感人。作品富有诗情画意，又不时穿插着幽默和讽喻；形象生动，格调明朗，有强烈的感染力。
"""

model = ChatOpenAI(model="gpt-3.5-turbo",
                   openai_api_key="sk-BuQK7SGbqCZP2i2z7fF267AeD0004eF095AbC78d2f79E019",
                   openai_api_base="https://api.aigc369.com/v1")
final_prompt = prompt.invoke({"book_introduction": book_introduction,
                              "parser_instructions": output_parser.get_format_instructions()})
response = model.invoke(final_prompt)
print(response.content)
result = output_parser.invoke(response)
print(result)

PydanticOutputParser 被用来创建一个输出解析器，该解析器将根据 BookInfo 模型来解析语言模型的输出。get_format_instructions() 方法返回一个字符串，这个字符串描述了语言模型输出应该如何格式化以匹配 BookInfo 模型。

复制代码

{
    "book_name": "书籍的名字",
    "author_name": "书籍的作者",
    "genres": "书籍的体裁"
}

代码能够成功执行，result预期的输出可能如下：

这是语言模型的原始响应，具体内容取决于模型的生成结果

{

"book_name": "朝花夕拾",

"author_name": "鲁迅",

"genres": "散文集"

}

这是解析后的结果，它将是一个 BookInfo 模型的实例

BookInfo(book_name='朝花夕拾', author_name='鲁迅', genres=['散文集'])

这样输出了JSON数据方便对接数据的二期处理。