LangChain4j 流式输出

流式输出

流式输出 ,指AI模型不是等生成完完整答案再一次性发送,而是边生成文本,边以"数据流"的形式,将当前已生成的部分实时推送给用户

接口变更:

  • ChatModel -> StreamingChatModel
  • LanguageModel -> StreamingLanguageModel

StreamingXX 系列的接口都具有相似的 API,它们都接收一个 StreamingChatResponseHandler 对象。

通过实现 StreamingChatResponseHandler 接口,可以自定义如下事件:

  • 生成下一个部分文本响应时:

    将调用 onPartialResponse(String)onPartialResponse(PartialResponse, PartialResponseContext) 方法(您可以选择实现其中任一方法)。根据不同的 LLM 提供商,部分响应文本可能包含单个或多个词元。例如,您可以在词元生成后立即将其直接发送至用户界面。

  • 生成下一个部分推理/思考文本时:

    将调用 onPartialThinking(PartialThinking)onPartialThinking(PartialThinking, PartialThinkingContext) 方法(您可以选择实现其中任一方法)。根据不同的 LLM 提供商,部分思考文本可能包含单个或多个词元。

  • 生成下一个部分工具调用时:

    将调用 onPartialToolCall(PartialToolCall)onPartialToolCall(PartialToolCall, PartialToolCallContext) 方法(您可以选择实现其中任一方法)。

  • **当LLM完成单个工具调用的流式传输时:**将调用 onCompleteToolCall(CompleteToolCall) 方法。

  • **当LLM完成生成时:**将调用 onCompleteResponse(ChatResponse) 方法。ChatResponse对象包含完整响应(AiMessage)以及ChatResponseMetadata。

  • **发生错误时:**将调用 onError(Throwable error) 方法。

Low-level API

java 复制代码
@Configuration
public class LLMConfig {
    @Bean
    public StreamingChatModel streamingChatModel() {
        return OpenAiStreamingChatModel.builder()
                .apiKey(System.getenv("ALI_QWEN_API_KEY"))
                .modelName("qwen-plus")
                .baseUrl("https://dashscope.aliyuncs.com/compatible-mode/v1")
                .build();
    }
}

StreamController

java 复制代码
@RestController
@RequestMapping("stream")
@Slf4j
public class StreamController {
    @Resource
    private StreamingChatModel streamingChatModel;

    @GetMapping("/qwen/chat1")
    public void chat1(@RequestParam(value = "question", defaultValue = "你是谁?") String question) {
        streamingChatModel.chat(question, new StreamingChatResponseHandler() {
            @Override
            public void onPartialResponse(String s) {
                System.out.println(s);
            }

            @Override
            public void onCompleteResponse(ChatResponse chatResponse) {
                System.out.println(chatResponse);
            }

            @Override
            public void onError(Throwable throwable) {
                System.out.println(throwable.getMessage());
            }
        });
    }
}

High-level API

定义 AI 服务接口

java 复制代码
public interface Assistant {
    TokenStream chatTokenStream(String message);
}

LLM 配置

java 复制代码
@Configuration
public class LLMConfig {
    @Bean
    public Assistant assistant(StreamingChatModel streamingChatModel) {
        return AiServices.create(Assistant.class, streamingChatModel);
    }
}

StreamController

java 复制代码
@RestController
@RequestMapping("stream")
@Slf4j
public class StreamController {
    @Resource
    private Assistant assistant;
    
    @GetMapping("/qwen/chat4")
    public void chat4(@RequestParam(value = "question", defaultValue = "你是谁?") String question) {
        TokenStream tokenStream = assistant.chatTokenStream(question);
        CompletableFuture<ChatResponse> futureResponse = new CompletableFuture<>();
        tokenStream
                .onPartialResponse((String s) -> log.info(s))
                .onCompleteResponse((ChatResponse response) -> futureResponse.complete(response))
                .onError((Throwable error) -> futureResponse.completeExceptionally(error))
                .start();
        futureResponse.join(); // 阻塞主线程,直到流式传输进程(在另一个线程中运行)完成
    }
}

Flux

可以直接使用 Flux<String> 向客户端响应。为此,请导入 langchain4j-reactor 依赖:

xml 复制代码
<dependency>
    <groupId>dev.langchain4j</groupId>
    <artifactId>langchain4j-reactor</artifactId>
    <version>1.11.0-beta19</version>
</dependency>

Low-level API

java 复制代码
@RestController
@RequestMapping("stream")
@Slf4j
public class StreamController {
    @Resource
    private StreamingChatModel streamingChatModel;

    @GetMapping("/qwen/chat2")
    public Flux<String> chat2(@RequestParam(value = "question", defaultValue = "你是谁?") String question) {
        return Flux.create(e -> {
            streamingChatModel.chat(question, new StreamingChatResponseHandler() {
                @Override
                public void onPartialResponse(String s) {
                    e.next(s);
                }

                @Override
                public void onCompleteResponse(ChatResponse chatResponse) {
                    e.complete();
                }

                @Override
                public void onError(Throwable throwable) {
                    e.error(throwable);
                }
            });
        });
    }
}

High-level API

定义服务接口

java 复制代码
public interface Assistant {
    Flux<String> chatFlux(String message);
}

StreamController

java 复制代码
@RestController
@RequestMapping("stream")
@Slf4j
public class StreamController {
    @Resource
    private Assistant assistant;

    @GetMapping("/qwen/chat3")
    public Flux<String> chat3(@RequestParam(value = "question", defaultValue = "你是谁?") String question) {
        return assistant.chatFlux(question);
    }
}
相关推荐
Lee川16 小时前
LangChain 加持:后端 AI 流式对话的优雅实现
后端
子兮曰18 小时前
Bun v1.3.14 深度解析:Image API、HTTP/3、全局虚拟存储与五十项变革
前端·后端·bun
ltl18 小时前
Self-Attention:让序列自己看自己
后端
楼兰公子18 小时前
buildroot 在编译rust时裁剪平台类型数量的方法
开发语言·后端·rust
吴声子夜歌18 小时前
Go——并发编程
开发语言·后端·golang
释怀°Believe18 小时前
Spring解析
java·后端·spring
Cosolar19 小时前
大模型应用开发面试 • 每日三题|Day 003|多Agent系统中的通信协议、冲突解决和一致性保障
人工智能·后端·面试
汪汪大队u19 小时前
续:从 Docker Compose 到 Kubernetes(2)—— 服务优化与排错
网络·后端·物联网·struts·容器
无风听海20 小时前
MapStaticAssets()深度解析:ASP.NET Core 静态资源交付的现代范式
后端·asp.net
geovindu21 小时前
go: Lock/Mutex Pattern
开发语言·后端·设计模式·golang·互斥锁模式