多模态 AI 系统设计¶
适配方向:多模态内容理解、VLM 应用、图文检索、视频理解、内容安全、机器人/无人机感知与端云协同
面试信号:到 2026/2027 年,多模态题已经不再是“会不会用一个 VLM”的展示题,而是要能把
视觉、文本、音频、时间序列、检索、评测、成本和稳定性放进一套生产级系统里讲清楚。
图源:Google Cloud Architecture Center - Agentic AI to classify multimodal data,许可:CC BY 4.0。当前主图重点展示多模态输入、协调 Agent、子 Agent 和模型调用的闭环。
这章解决什么问题¶
很多候选人回答多模态系统设计时,容易出现 3 个问题:
- 只会报模型名,不会拆业务目标
- 只会讲单模型能力,不会讲端到端链路
- 只会讲准确率,不会讲延迟、成本、降级和安全
真实面试更想听到的是:
- 为什么这个场景必须上多模态,而不是文本系统硬凑
- 不同模态的处理链路为什么不同
- 哪些环节离线做,哪些环节在线做
- 复杂样本为什么要升级到更重的模型
- 如果 OCR / ASR / VLM 其中一环失效,系统怎么继续服务
一、面试官真正想考什么¶
多模态题真正考的,通常不是“你认不认识 CLIP、Qwen2.5-VL、Whisper、SAM2”。
更核心的是下面 5 件事:
- 你能不能先把输入、输出、实时性和指标拆清楚。
- 你知不知道不同模态的预处理、表征、索引和推理成本完全不同。
- 你能不能在
质量 / 延迟 / 成本 / 可解释性 / 安全之间做工程取舍。 - 你知不知道生产环境里通常是分层架构,而不是“一个超大 VLM 干完一切”。
- 你能不能回答追问:标注怎么做、评测怎么做、坏样本怎么处理、线上怎么回滚。
一个成熟的开场表述:
二、回答多模态系统题的通用框架¶
无论题目是短视频理解、图文搜索、内容审核、多模态 RAG,还是机器人感知,基本都可以先按这套框架回答:
1. 明确任务
- 输入模态是什么
- 输出是什么
- 在线还是离线
- 成功指标是什么
2. 拆成子系统
- 数据接入与预处理
- 单模态特征提取
- 跨模态融合 / 检索 / 推理
- 存储与索引
- 评测、监控、回滚
3. 说明关键决策
- 为什么要抽帧
- 为什么要多阶段路由
- 为什么某些特征离线算,某些在线算
- 为什么复杂样本才升级到大模型
4. 补工程问题
- 成本
- 延迟
- 安全
- 标注
- 灰度 / 回滚 / 降级
这套结构非常重要。很多候选人的回答会变成“模型名堆叠”,而不是“系统设计”。
三、题型一:短视频平台的多模态理解系统¶
这是最典型、也最适合内容平台、多模态推荐、审核与理解方向的题型。
3.1 题目示例¶
设计一个短视频平台的多模态理解系统,输入是
视频 + 音频 + 标题 + OCR 文本 + ASR 文本,输出结构化标签、风险标签和推荐特征,日处理 500 万条视频。
3.2 先做需求拆解¶
先别急着讲模型,先把目标说清楚:
输入:
- 视频帧
- 音频
- 标题 / 简介 / 话题
- OCR 文本 / 字幕
- ASR 文本
输出:
- 内容标签:场景、动作、实体、主题
- 风险标签:违规、擦边、误导、广告
- 推荐特征:embedding、topic、quality score
非功能要求:
- 大规模异步处理
- 高质量优先,但成本可控
- 热门视频需要快速回填
- 标签可解释,支持抽检与复盘
3.3 一个合格的高层架构¶
视频上传
-> 元数据解析
-> 抽帧 / 镜头切分
-> OCR / ASR / 音频事件识别
-> 单模态特征提取
- 图像 / 视频 embedding
- 文本 embedding
- 音频 embedding
-> 多模态融合与分类
-> 风险策略层
-> 标签 / 特征写入在线与离线存储
-> 推荐 / 搜索 / 审核 / 运营系统消费
3.4 面试里最值钱的 6 个设计点¶
1. 不能只取封面帧¶
很多动作、事件、违规行为都发生在时间维度。
所以通常要做:
- 关键帧抽取
- 均匀采样
- 镜头切分
- 在复杂样本上保留时间窗口特征
一个成熟表述:
2. OCR 和 ASR 很重要¶
真实业务里,标题和字幕经常比画面本身更直接暴露语义和风险。
常见做法:
- OCR 抽海报字、贴纸字、画中字幕
- ASR 提取口播文本
- 做时间对齐,保留文本出现时间窗
如果你只讲 VLM,不讲 OCR / ASR,答案会显得很空。
3. 一般采用两阶段或三阶段路由¶
不是所有请求都值得直接走重模型。
典型分层:
- 轻量路径:规则 + OCR/ASR + 轻量视觉分类器
- 中等路径:多模态双塔 / 小 VLM
- 重路径:大 VLM + 规则复核 + 人工审核
价值:
- 节省算力
- 降低平均延迟
- 让高价值样本得到更强模型支持
4. 特征要分“离线特征”和“在线特征”¶
离线可做:
- 视频 embedding
- 主题标签
- 风险预判
- 推荐候选特征
在线可做:
- 个性化 rerank
- 热点时效特征
- 会话上下文融合
这样才能把成本和实时性平衡起来。
5. 审核系统必须保留可解释信息¶
不要只输出一个标签。
更像生产系统的输出是:
- 标签
- 置信度
- 证据片段
- 命中的 OCR/ASR 文本
- 触发规则
- 关键帧截图
否则审核和运营同学很难复盘。
6. 风险判断需要“策略层”,不是只靠模型¶
模型输出只是信号之一。
真正上线通常会有:
- 规则引擎
- 模型集成
- 黑白名单
- 阈值分层
- 人工复核队列
一个成熟表达:
3.5 评测指标怎么答¶
多模态系统不能只说一个准确率。
至少分 3 类指标:
- 任务质量:Precision / Recall / F1 / mAP / AUC
- 业务指标:误杀率、漏放率、人工复核命中率、推荐点击率
- 系统指标:P95 延迟、吞吐、GPU 利用率、单条成本
如果是审核类题目,还要主动补:
- 高风险类别召回率优先
- 分层阈值策略
- 人工抽检闭环
四、题型二:图文检索与多模态 RAG¶
这类题在企业知识库、商品搜索、广告素材、设计资产管理和电商内容理解里很常见。
4.1 题目示例¶
设计一个支持“以文搜图、以图搜图、图文混合问答”的多模态知识系统,要求支持 1000 万素材,回答时能引用图和文本证据。
4.2 推荐的回答结构¶
离线:
素材解析
-> 图片特征
-> OCR / Caption / 元数据结构化
-> 文本向量与视觉向量索引
在线:
用户输入
-> Query 理解
-> 模态识别
-> 混合召回
-> 多模态重排序
-> RAG 生成
-> 引用返回
4.3 这类题的关键追问¶
1. 图片和文本怎么放进同一检索空间¶
常见路线:
- 统一跨模态 embedding 空间,例如 CLIP / SigLIP
- 视觉向量和文本向量双索引,在线融合
如果要求强解释性,很多系统会保留双索引而不是强行完全统一。
2. 为什么需要 OCR / caption / metadata¶
因为很多检索需求其实不是纯视觉语义:
- 图里写了什么字
- 商品品牌和型号
- 截图里的按钮和表格
- 设计稿的风格标签
所以多模态 RAG 不只是“图片丢给 VLM”。
3. 为什么还需要 rerank¶
多模态召回很容易“语义相关但任务不对”。
所以通常会有:
- 向量召回
- 关键词召回
- 元数据过滤
- reranker 精排
一个成熟表述:
4. 生成阶段如何避免幻觉¶
高质量答案通常会提:
- 只允许基于已检索证据回答
- 返回图像和文本引用
- 低置信度时退化为“检索结果摘要”
- 对高风险问题禁用自由发挥
五、题型三:端侧多模态与机器人/无人机场景¶
这类题在具身智能、机器人、无人机、车端、工业质检里都很常见。
5.1 面试官通常怎么问¶
设计一个无人机巡检系统,输入是摄像头、热成像、GPS、IMU 和文本任务指令,要求边缘设备先做初步判断,异常样本上传云端复核。
5.2 这类题一定要主动讲的点¶
1. 端云协同¶
端侧负责:
- 轻量感知
- 初筛
- 低延迟响应
- 断网可用
云侧负责:
- 重模型复核
- 长周期学习
- 全局检索与调度
- 历史数据分析
2. 多传感器时间对齐¶
不能把图像、IMU、GPS、热成像简单拼起来。
要讲:
- 时间戳对齐
- 坐标系变换
- 丢帧补偿
- 传感器可靠性判断
3. 容错与安全¶
机器人/无人机题如果不讲安全,很容易失分。
至少要提:
- 低置信度不自动执行高风险动作
- 感知异常时切人工或保守策略
- 通信中断时本地降级
- 全链路审计和事件回放
六、面试高频追问¶
Q1:为什么不用一个超大 VLM 直接端到端解决¶
Q2:多模态数据怎么标注¶
高质量回答至少要覆盖:
- 标签体系分层
- 模态对齐标注
- 弱标注与规则预标
- 人工抽检
- 高风险类别单独质检
Q3:线上评测怎么做¶
不要只说离线 F1。
可以答:
- 离线评测集
- 线上抽样
- 人工复核准确率
- 误杀 / 漏放 / rerank 命中率
- 成本与延迟联合看
Q4:如果 OCR / ASR 很脏怎么办¶
成熟答案:
- 保留置信度
- 多引擎交叉
- 低质量文本降权
- 复杂样本升级到大模型复核
- 不把单一路径结果当最终裁决
Q5:怎么控制 GPU 成本¶
典型手段:
- 分层路由
- 离线预计算
- 热点缓存
- 模型蒸馏 / 量化
- 只让高价值样本进重模型
七、一个可以直接复述的标准答案¶
如果面试时间很紧,可以用这段结构化表达:
这题我会先把系统拆成输入预处理、单模态特征、跨模态融合、策略决策和下游消费五层。
以短视频理解为例,输入包括视频帧、音频、标题、OCR 和 ASR。离线侧先做抽帧、镜头切分、OCR/ASR 与 embedding 生成;在线侧根据场景做轻量分类和重模型复核。简单样本走规则 + 轻量模型,复杂样本再升级到 VLM。
输出我不会只给一个标签,而会同时保留置信度、证据片段和触发规则,方便审核和运营复盘。评测上我会同时看任务质量、业务误杀漏放和系统成本延迟。这样整套方案更像生产系统,而不是单模型 demo。
本章小结¶
- 多模态题的核心不只是“用了什么模型”,而是“如何把多模态链路工程化”
- 高质量答案必须覆盖:预处理、抽帧、OCR/ASR、融合、策略层、评测、降级和成本
- 2026/2027 的多模态系统设计题,拉开差距的往往不是模型名字,而是你能不能讲清楚分层架构和失败兜底
学习检查清单¶
- 能先拆任务目标,再讲模型
- 能解释为什么不能只看封面图
- 知道 OCR / ASR 在多模态系统中的关键价值
- 能讲清楚轻链路与重链路的分层策略
- 能区分离线特征和在线特征
- 能回答多模态 RAG 的召回、rerank 和幻觉控制
- 能回答端云协同、时间对齐和安全降级
最后更新日期: 2026-03-28
