spring-ai 第四多模态API

kcnf

218人浏览 · 2026-04-06 16:37:56

kcnf · 2026-04-06 16:37:56 发布

spring-ai 第四多模态API

官网

spring-ai网址【https://docs.spring.io/spring-ai/reference/api/multimodality.html】

多模态是指模型同时理解和处理来自各种来源的信息的能力，包括文本、图像、音频和其他数据格式（目前新的模型支持多模态），OpenAI的GPT-4o、Google的Vertex AI Gemini 1.5、Anthropic的Claude3，以及开源的Llama3.2

能以极简代码同时调用文本、图像、音频等多模态大模型，大幅降低多模态 AI 应用的开发门槛

Image text

核心消息模型（Message API

用户消息的content字段主要用于文本输入，而可选的media字段允许添加一个或多个不同模态的附加内容，如图像、音频和视频。MimeType指定模态类型。Media数据字段根据所使用的LLM，可以是原始媒体内容作为Resource对象或URI内容的链接

三大模态客户端

模态	客户端	典型模型	能力
文本	ChatClient	GPT-4o、Claude 3、Gemini	多模态对话、理解
图像	ImageClient	DALL·E、Stable Diffusion	生成、理解
音频	SpeechClient	Whisper、ElevenLabs	识别、合成

var imageResource = new ClassPathResource("/multimodal.test.png");

var userMessage = UserMessage.builder()
    .text("Explain what do you see in this picture?") // content
    .media(new Media(MimeTypeUtils.IMAGE_PNG, this.imageResource)) // media
    .build();

ChatResponse response = chatModel.call(new Prompt(this.userMessage));

源码示例

https://gitee.com/kcnf_open/spring-ai-sample/tree/master/spring-ai/spring-ai-sample04

错误

"error":{"code":"1210","message":"API 调用参数有误，请检查文档。"}}

重点是xml配置，默认不支持多模态模型，需要添加xml配置 model: glm-4v-flash

server:
    port: 8082
    context-path: /

# In application.yml
spring:
    ai:
        zhipuai:
            api-key: ${ZHIPUAI_API_KEY}
            chat:
                options:
                    model: glm-4v-flash

测试结果

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Claude防封号完整指南！三种安全方法及封号退款策略干货

AI编程社区

ClaudeCode接入DeepSeek教程！防封号！

AI编程社区

GitNexus 使用指南：让 AI 真正理解你的整个代码库

GitNexus 的核心价值并不是简单地"让 AI 能看代码"，而是帮助 AI真正理解整个项目的结构与业务关系。通过提前构建代码知识图谱，AI 可以获得：更准确的代码理解更完整的调用链分析更可靠的影响范围判断更好的重构与修改建议更强的大型项目理解能力如果你经常使用 Cursor、Claude Code 或其他 AI 编程工具，GitNexus 是一个非常值得加入开发流程的基础能力。