4.6 Docker Model Runner Chat

Docker Model Runner Chat

Spring AI 参考文档 - Docker Model Runner 聊天模型集成指南

概述

Docker Model Runner 是一个 AI 推理引擎，提供来自各种提供者的广泛模型。

Spring AI 通过重用现有的 OpenAI 支持的 ChatClient 与 Docker Model Runner 集成。为此，请将基础 URL 设置为 localhost:12434/engines 并选择提供的 LLM 模型之一。

查看 DockerModelRunnerWithOpenAiChatModelIT.java 测试，了解如何在 Spring AI 中使用 Docker Model Runner 的示例。

先决条件

下载 Docker Desktop for Mac 4.40.0。

选择以下选项之一来启用 Model Runner：

选项 1：

启用 Model Runner docker desktop enable model-runner --tcp 12434。
将 base-url 设置为 localhost:12434/engines

选项 2：

启用 Model Runner docker desktop enable model-runner。
使用 Testcontainers 并按如下方式设置 base-url：

java 复制代码

@Container
private static final DockerModelRunnerContainer DMR = new DockerModelRunnerContainer("alpine/socat:1.7.4.3-r0");

@Bean
public OpenAiApi chatCompletionApi() {
	var baseUrl = DMR.getOpenAIEndpoint();
	return OpenAiApi.builder().baseUrl(baseUrl).apiKey("test").build();
}

您可以通过阅读 Run LLMs Locally with Docker 博客文章来了解更多关于 Docker Model Runner 的信息。

自动配置

注意：Spring AI 启动模块的构件 ID 自版本 1.0.0.M7 以来已重命名。依赖项名称现在应遵循模型、向量存储和 MCP 启动器的更新命名模式。请参阅升级说明了解更多信息。

Spring AI 为 OpenAI 聊天客户端提供 Spring Boot 自动配置。要启用它，请将以下依赖项添加到您项目的 Maven pom.xml 文件中：

xml 复制代码

<dependency>
    <groupId>org.springframework.ai</groupId>
    <artifactId>spring-ai-starter-model-openai</artifactId>
</dependency>

或者将以下内容添加到您的 Gradle build.gradle 构建文件中：

groovy 复制代码

dependencies {
    implementation 'org.springframework.ai:spring-ai-starter-model-openai'
}

提示：请参考依赖管理部分，将 Spring AI BOM 添加到您的构建文件中。

聊天属性

重试属性

前缀 spring.ai.retry 用作属性前缀，让您可以为 OpenAI 聊天模型配置重试机制。

属性	描述	默认值
spring.ai.retry.max-attempts	最大重试尝试次数	10
spring.ai.retry.backoff.initial-interval	指数退避策略的初始睡眠持续时间	2 秒
spring.ai.retry.backoff.multiplier	退避间隔乘数	5
spring.ai.retry.backoff.max-interval	最大退避持续时间	3 分钟
spring.ai.retry.on-client-errors	如果为 false，则抛出 NonTransientAiException，并且不会尝试重试 `4xx` 客户端错误代码	false
spring.ai.retry.exclude-on-http-codes	不应触发重试的 HTTP 状态代码列表（例如，抛出 NonTransientAiException）	空
spring.ai.retry.on-http-codes	应触发重试的 HTTP 状态代码列表（例如，抛出 TransientAiException）	空

连接属性

前缀 spring.ai.openai 用作属性前缀，让您可以连接到 OpenAI。

属性	描述	默认值
spring.ai.openai.base-url	连接的 URL。必须设置为 `hub.docker.com/u/ai`	-
spring.ai.openai.api-key	任何字符串	-

配置属性

注意：启用和禁用聊天自动配置现在通过前缀为 spring.ai.model.chat 的顶级属性完成。

要启用：spring.ai.model.chat=openai（默认启用）

要禁用：spring.ai.model.chat=none（或任何不匹配 openai 的值）

此更改允许在应用程序中配置多个模型。

前缀 spring.ai.openai.chat 是属性前缀，让您可以为 OpenAI 配置聊天模型实现。

属性	描述	默认值
spring.ai.openai.chat.enabled (已移除，不再有效)	启用 OpenAI 聊天模型	true
spring.ai.model.chat	启用 OpenAI 聊天模型	openai
spring.ai.openai.chat.base-url	可选地覆盖 `spring.ai.openai.base-url` 以提供聊天特定的 URL。必须设置为 `localhost:12434/engines`	-
spring.ai.openai.chat.api-key	可选地覆盖 spring.ai.openai.api-key 以提供聊天特定的 api-key	-
spring.ai.openai.chat.options.model	要使用的 LLM 模型	-
spring.ai.openai.chat.options.temperature	控制生成完成的明显创造性的采样温度。较高的值会使输出更随机，而较低的值会使结果更聚焦和确定性。不建议同时修改温度和 top_p 的相同完成请求，因为这两个设置的相互作用难以预测。	0.8
spring.ai.openai.chat.options.frequencyPenalty	-2.0 到 2.0 之间的数字。正值根据新令牌在文本中的现有频率对其进行惩罚，降低模型逐字重复同一行的可能性。	0.0f
spring.ai.openai.chat.options.maxTokens	在聊天完成中生成的最大令牌数。输入令牌和生成令牌的总长度受模型的上下文长度限制。	-
spring.ai.openai.chat.options.n	为每个输入消息生成多少聊天完成选择。请注意，您将根据所有选择中生成的令牌数量计费。保持 n 为 1 以最小化成本。	1
spring.ai.openai.chat.options.presencePenalty	-2.0 到 2.0 之间的数字。正值根据新令牌是否出现在文本中来对其进行惩罚，增加模型谈论新主题的可能性。	-
spring.ai.openai.chat.options.responseFormat	指定模型必须输出的格式的对象。设置为 `{ "type": "json_object" }` 启用 JSON 模式，保证模型生成的消息是有效的 JSON。	-
spring.ai.openai.chat.options.seed	此功能处于 Beta 阶段。如果指定，我们的系统将尽力进行确定性采样，使得具有相同种子和参数的重复请求应返回相同结果。	-
spring.ai.openai.chat.options.stop	最多 4 个序列，API 将停止生成进一步的令牌。	-
spring.ai.openai.chat.options.topP	温度采样的替代方案，称为核采样，其中模型考虑具有 top_p 概率质量的令牌结果。因此 0.1 意味着只考虑构成前 10% 概率质量的令牌。我们通常建议更改此参数或温度，但不要同时更改两者。	-
spring.ai.openai.chat.options.tools	模型可能调用的工具列表。目前，仅支持函数作为工具。使用此项提供模型可能为其生成 JSON 输入的函数列表。	-
spring.ai.openai.chat.options.toolChoice	控制模型调用哪个（如果有）函数。none 表示模型不会调用函数而是生成消息。auto 表示模型可以选择生成消息或调用函数。通过 {"type: "function", "function": {"name": "my_function"}} 指定特定函数强制模型调用该函数。当没有函数时 none 是默认值。如果有函数，auto 是默认值。	-
spring.ai.openai.chat.options.user	代表您的最终用户的唯一标识符，可以帮助 OpenAI 监控和检测滥用。	-
spring.ai.openai.chat.options.functions	在单个提示请求中启用函数调用的函数名称列表。具有这些名称的函数必须存在于 functionCallbacks 注册表中。	-
spring.ai.openai.chat.options.stream-usage	（仅用于流式传输）设置为添加包含整个请求的令牌使用统计的额外块。此块的 `choices` 字段是空数组，所有其他块也将包含 usage 字段，但值为 null。	false
spring.ai.openai.chat.options.proxy-tool-calls	如果为 true，Spring AI 将不会内部处理函数调用，而是将它们代理给客户端。然后是客户端的责任来处理函数调用，将它们分派给适当的函数，并返回结果。如果为 false（默认值），Spring AI 将内部处理函数调用。仅适用于支持函数调用的聊天模型	false

提示：所有以 spring.ai.openai.chat.options 为前缀的属性都可以通过向 Prompt 调用添加请求特定的运行时选项在运行时覆盖。

运行时选项

OpenAiChatOptions.java 提供模型配置，例如要使用的模型、温度、频率惩罚等。

在启动时，可以使用 OpenAiChatModel(api, options) 构造函数或 spring.ai.openai.chat.options.* 属性配置默认选项。

在运行时，您可以通过向 Prompt 调用添加新的请求特定选项来覆盖默认选项。例如，要覆盖特定请求的默认模型和温度：

java 复制代码

ChatResponse response = chatModel.call(
    new Prompt(
        "Generate the names of 5 famous pirates.",
        OpenAiChatOptions.builder()
            .model("ai/gemma3:4B-F16")
        .build()
    ));

提示：除了模型特定的 OpenAiChatOptions 外，您还可以使用通过 ChatOptions#builder() 创建的可移植 ChatOptions 实例。

函数调用

Docker Model Runner 在选择支持它的模型时支持工具/函数调用。

您可以使用您的 ChatModel 注册自定义 Java 函数，并让提供的模型智能地选择输出包含调用一个或多个注册函数参数的 JSON 对象。这是将 LLM 功能与外部工具和 API 连接的强大技术。

工具示例

以下是如何在 Spring AI 中使用 Docker Model Runner 函数调用的简单示例：

properties 复制代码

spring.ai.openai.api-key=test
spring.ai.openai.base-url=http://localhost:12434/engines
spring.ai.openai.chat.options.model=ai/gemma3:4B-F16

java 复制代码

@SpringBootApplication
public class DockerModelRunnerLlmApplication {

    public static void main(String[] args) {
        SpringApplication.run(DockerModelRunnerLlmApplication.class, args);
    }

    @Bean
    CommandLineRunner runner(ChatClient.Builder chatClientBuilder) {
        return args -> {
            var chatClient = chatClientBuilder.build();

            var response = chatClient.prompt()
                .user("What is the weather in Amsterdam and Paris?")
                .functions("weatherFunction") // 通过 bean 名称引用。
                .call()
                .content();

            System.out.println(response);
        };
    }

    @Bean
    @Description("Get the weather in location")
    public Function<WeatherRequest, WeatherResponse> weatherFunction() {
        return new MockWeatherService();
    }

    public static class MockWeatherService implements Function<WeatherRequest, WeatherResponse> {

        public record WeatherRequest(String location, String unit) {}
        public record WeatherResponse(double temp, String unit) {}

        @Override
        public WeatherResponse apply(WeatherRequest request) {
            double temperature = request.location().contains("Amsterdam") ? 20 : 25;
            return new WeatherResponse(temperature, request.unit);
        }
    }
}

在此示例中，当模型需要天气信息时，它将自动调用 weatherFunction bean，然后可以获取实时天气数据。预期的响应是："阿姆斯特丹目前的天气是 20 摄氏度，巴黎目前的天气是 25 摄氏度。"

阅读更多关于 OpenAI 函数调用的信息。

示例控制器

创建一个新的 Spring Boot 项目，并将 spring-ai-starter-model-openai 添加到您的 pom（或 gradle）依赖项中。

在 src/main/resources 目录下添加 application.properties 文件，以启用和配置 OpenAI 聊天模型：

properties 复制代码

spring.ai.openai.api-key=test
spring.ai.openai.base-url=http://localhost:12434/engines
spring.ai.openai.chat.options.model=ai/gemma3:4B-F16

# Docker Model Runner 不支持嵌入，所以我们需要禁用它们。
spring.ai.openai.embedding.enabled=false

这是一个使用聊天模型进行文本生成的简单 @Controller 类示例。

java 复制代码

@RestController
public class ChatController {

    private final OpenAiChatModel chatModel;

    @Autowired
    public ChatController(OpenAiChatModel chatModel) {
        this.chatModel = chatModel;
    }

    @GetMapping("/ai/generate")
    public Map generate(@RequestParam(value = "message", defaultValue = "Tell me a joke") String message) {
        return Map.of("generation", this.chatModel.call(message));
    }

    @GetMapping("/ai/generateStream")
	public Flux<ChatResponse> generateStream(@RequestParam(value = "message", defaultValue = "Tell me a joke") String message) {
        Prompt prompt = new Prompt(new UserMessage(message));
        return this.chatModel.stream(prompt);
    }
}