重庆大学AI训练营+202508131156+虚拟衣帽间&购物助手 #3173
XcyAli666
started this conversation in
Show and tell
Replies: 1 comment
-
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
虚拟衣帽间&购物助手 :基于多模态MCP的智能采购智能体
虚拟衣帽间与购物助手是一个面向时尚零售场景的智能体,能够通过文本或图像输入完成商品识别、折扣搜索、图像编辑与视频生成等一系列任务。它基于阿里云百炼平台与 ModelScope MCP 服务构建,集成了视觉语言分析、电商搜索、图像编辑生成和视频生成等能力。本文档详细介绍虚拟衣帽间&购物助手的系统设计、核心功能、约束规则以及完整的复刻流程,旨在为开发者提供可复现的开源实践参考。
功能展示
开始之前,展示一下功能
1.图像生成
可按用户文本要求,调用bailian图像生成工具生成图像,调用模型为qwen-image,如图所示,生成了一张手抚摸小猫的图片。
2.视频生成
可按用户文本要求,调用MediaGenMCP视频生成工具生成图像,调用模型为wan2.2-t2v-plus,如图所示,是女生跳舞的视频截图,可以说非常真实了,视频长度要求为0-10秒。
3.图片编辑/衣物提取
可将附图进行编辑,调用bailian图像生成工具,调用模型为qwen-image-edit,将附图按用户要求变化图片,如将图中人物吃的汉堡变成薯条、将衣物换成其它合身的等等,要求随便提。要求是将导入的任意格式的图片放在图床生成URL格式(当然也可以转为base64),将链接复制给智能体加段要求即可。由于智能体核心要求是衣帽间,所以下面示例我将模特的衣物提取,放在衣架上展示的图片。
这是URL格式的发送原图
4.图像视觉
借用本地工具的search_image,分析图片并总结。在该智能体的作用主要是提取图片商品的详细信息提炼关键词,用于之后的搜索。
5.商品搜索
调用慢慢买MCP服务,对商品进行全平台比价、折扣信息、优惠券等信息捕捉,并返回相关链接与价格详情,同时附上捕获到的商品图片。用户可直接进行商品搜索,也可借助之前的视觉模型总结的衣物关键词搜索商品。
1. 引言
随着电子商务与虚拟试穿技术的快速发展,消费者对“所见即所得”的购物辅助工具需求日益增长。XCY(虚拟衣帽间&购物助手)旨在解决以下痛点:
虚拟衣帽间与购物助手通过调用三个 MCP(Model Context Protocol)服务 ——
manmanmai(慢慢买折扣搜索)、bailian(阿里云百炼图像编辑)、MediaGenMCP(通义万相视频生成)—— 实现了端到端的智能购物辅助流程。2. 系统概述
2.1 智能体身份
2.2 能力边界
searchZheKouanalyze_image→ 迭代调用searchZheKouimage_edit_generationgenerate_videoanalyze_text_file2.3 依赖的 MCP 服务
manmanmaihttps://dashscope.aliyuncs.com/api/v1/mcps/mmb-bijia/ssebailianhttps://mcp.api-inference.modelscope.net/76f497f6882c4c/mcpMediaGenMCPhttps://mcp.api-inference.modelscope.net/8405b93b349c46/mcp3. 核心功能详解
3.1 图像分析与关键词构建
当用户提供衣物图片时,虚拟衣帽间&购物助手首先调用
analyze_image工具(基于视觉语言模型)提取四个维度的特征:示例输出:
[{"color": "酒红色", "style": "修身长裙", "audience": "成熟女性", "material": "丝绸"}]这些特征被自动拼接成搜索关键词,用于后续的商品搜索。
3.2 折扣商品搜索与过滤
虚拟衣帽间&购物助手使用
searchZheKou工具(对接慢慢买比价平台)执行迭代式搜索:3.3 图像编辑生成衣帽间展示图
对于用户提供的衣物原图,虚拟衣帽间&购物助手调用
image_edit_generation将衣物从原背景中提取出来,生成一张挂在衣架/衣帽间背景下的展示图。技术约束:
示例调用:
3.4 视频生成
当用户明确要求生成视频时(如“生成一个展示这件白衬衫的视频”),虚拟衣帽间&购物助手调用
generate_video工具,使用通义万相 wan2.2-t2v-plus 模型生成 1920×1080 分辨率的视频。默认参数:
wan2.2-t2v-plus1920*10803.5 文本文件分析
支持从 S3、HTTP/HTTPS URL 读取采购清单(.txt 文件),并利用大语言模型提取商品名称及特征,随后自动发起搜索。
4. 工作流程与约束规则
4.1 标准工作流(图像输入)
graph TD A[用户上传衣物图片] --> B[analyze_image 提取特征] B --> C[构建关键词] C --> D{迭代搜索 searchZheKou} D -->|3~5次| E[过滤低匹配结果] E --> F[收集 ≥5 款高匹配商品] F --> G[image_edit_generation 生成衣帽间展示图] G --> H[返回结果给用户]4.2 关键约束
searchZheKou,纯图片输入必须先调用analyze_imageanalyze_image必须覆盖颜色/款式/人群/材质四个维度image_edit_generation仅在有公网图片 URL 时调用,且满足分辨率/大小限制generate_video仅在用户明确要求时调用,使用固定分辨率和模型searchZheKou不超过 5 次generate_image和image_edit_generation,优先使用后者4.3 禁止行为
searchZheKou(会因缺少关键词而失败)analyze_image和searchZheKou—— 必须先分析再搜索generate_image凭空生图(除非用户明确要求,但当前 duty_prompt 建议禁用)5. 技术实现
5.1 智能体配置结构
虚拟衣帽间&购物助手的完整定义位于一个 JSON 文件中,包含以下顶层字段:
agent_id: 10agent_info: 包含名称、描述、业务逻辑、约束、示例等mcp_info: 三个 MCP 服务的连接信息tools: 七个工具的具体输入输出定义5.2 工具清单
analyze_imageanalyze_text_filesearchZheKouimage_edit_generationgenerate_videogenerate_imageget_image_generation_result5.3 模型选择
Qwen/Qwen3-32Bfew_shots_prompt中的示例正确编排工具调用顺序。5.4 提示工程亮点
6. 复刻流程
以下步骤指导开发者从零构建与虚拟衣帽间&购物助手功能一致的智能体。
6.1 环境准备
注册并获取 API 密钥:
searchZheKou需对接比价 API安装依赖:
mcp-python-sdk或直接使用 HTTP SSE)6.2 配置 MCP 服务
编辑
mcp_info部分,填入实际可用的端点 URL:如果使用阿里云和 ModelScope 官方端点,可直接使用原配置中的地址。
6.3 定义工具
每个 MCP 服务需要提供工具的
class_name、name、description、inputsschema、output_type。参考原 JSON 中的tools数组。对于本地工具(
analyze_image、analyze_text_file),需要自行实现一个工具包装器,调用对应的多模态模型(如 Qwen-VL)和文本分析模型。示例:
analyze_image实现伪代码6.4 编写智能体配置
完整复制
agent_info中的字段,注意修改author、model_id等敏感信息。关键字段:
duty_prompt:控制智能体的行为边界constraint_prompt:强化约束few_shots_prompt:提供少样本示例,极大提升模型编排正确率6.5 部署与运行
6.6 测试用例
searchZheKou→ 返回商品链接generate_video6.7 常见问题与调试
searchZheKou返回空结果:检查关键词是否过于具体,适当放宽或修改同义词。get_image_generation_result类似机制)。constraint_prompt中的规则,并在系统层面增加前置校验。7. 总结与展望
虚拟衣帽间与购物助手展示了一个基于多模态 MCP 服务的垂直领域智能体的完整设计。其核心价值在于:
未来可扩展方向:
欢迎开发者基于本报告复刻并改进 XCY,共同推动智能购物助手生态发展。
附录:完整配置 JSON 示例(见本文开头所附
XCY.json)许可证:本报告及所描述配置可自由使用,其中 MCP 服务的使用请遵守相应平台的服务条款。
Beta Was this translation helpful? Give feedback.
All reactions