跳转至

多模态 AI 系统设计

适配方向:多模态内容理解、VLM 应用、图文检索、视频理解、内容安全、机器人/无人机感知与端云协同

面试信号:到 2026/2027 年,多模态题已经不再是“会不会用一个 VLM”的展示题,而是要能把 视觉、文本、音频、时间序列、检索、评测、成本和稳定性 放进一套生产级系统里讲清楚。

多模态系统架构图

图源:Google Cloud Architecture Center - Agentic AI to classify multimodal data,许可:CC BY 4.0。当前主图重点展示多模态输入、协调 Agent、子 Agent 和模型调用的闭环。

这章解决什么问题

很多候选人回答多模态系统设计时,容易出现 3 个问题:

  • 只会报模型名,不会拆业务目标
  • 只会讲单模型能力,不会讲端到端链路
  • 只会讲准确率,不会讲延迟、成本、降级和安全

真实面试更想听到的是:

  • 为什么这个场景必须上多模态,而不是文本系统硬凑
  • 不同模态的处理链路为什么不同
  • 哪些环节离线做,哪些环节在线做
  • 复杂样本为什么要升级到更重的模型
  • 如果 OCR / ASR / VLM 其中一环失效,系统怎么继续服务

一、面试官真正想考什么

多模态题真正考的,通常不是“你认不认识 CLIP、Qwen2.5-VL、Whisper、SAM2”。

更核心的是下面 5 件事:

  1. 你能不能先把输入、输出、实时性和指标拆清楚。
  2. 你知不知道不同模态的预处理、表征、索引和推理成本完全不同。
  3. 你能不能在 质量 / 延迟 / 成本 / 可解释性 / 安全 之间做工程取舍。
  4. 你知不知道生产环境里通常是分层架构,而不是“一个超大 VLM 干完一切”。
  5. 你能不能回答追问:标注怎么做、评测怎么做、坏样本怎么处理、线上怎么回滚。

一个成熟的开场表述:

Text Only
我会先明确这道题的主目标是“理解”还是“生成”,是离线批处理还是在线低延迟。
多模态系统最大的难点不是模型名,而是模态拆解、链路协同、资源分层和失败兜底。

二、回答多模态系统题的通用框架

无论题目是短视频理解、图文搜索、内容审核、多模态 RAG,还是机器人感知,基本都可以先按这套框架回答:

Text Only
1. 明确任务
   - 输入模态是什么
   - 输出是什么
   - 在线还是离线
   - 成功指标是什么

2. 拆成子系统
   - 数据接入与预处理
   - 单模态特征提取
   - 跨模态融合 / 检索 / 推理
   - 存储与索引
   - 评测、监控、回滚

3. 说明关键决策
   - 为什么要抽帧
   - 为什么要多阶段路由
   - 为什么某些特征离线算,某些在线算
   - 为什么复杂样本才升级到大模型

4. 补工程问题
   - 成本
   - 延迟
   - 安全
   - 标注
   - 灰度 / 回滚 / 降级

这套结构非常重要。很多候选人的回答会变成“模型名堆叠”,而不是“系统设计”。


三、题型一:短视频平台的多模态理解系统

这是最典型、也最适合内容平台、多模态推荐、审核与理解方向的题型。

3.1 题目示例

设计一个短视频平台的多模态理解系统,输入是 视频 + 音频 + 标题 + OCR 文本 + ASR 文本,输出结构化标签、风险标签和推荐特征,日处理 500 万条视频。

3.2 先做需求拆解

先别急着讲模型,先把目标说清楚:

Text Only
输入:
  - 视频帧
  - 音频
  - 标题 / 简介 / 话题
  - OCR 文本 / 字幕
  - ASR 文本

输出:
  - 内容标签:场景、动作、实体、主题
  - 风险标签:违规、擦边、误导、广告
  - 推荐特征:embedding、topic、quality score

非功能要求:
  - 大规模异步处理
  - 高质量优先,但成本可控
  - 热门视频需要快速回填
  - 标签可解释,支持抽检与复盘

3.3 一个合格的高层架构

Text Only
视频上传
  -> 元数据解析
  -> 抽帧 / 镜头切分
  -> OCR / ASR / 音频事件识别
  -> 单模态特征提取
       - 图像 / 视频 embedding
       - 文本 embedding
       - 音频 embedding
  -> 多模态融合与分类
  -> 风险策略层
  -> 标签 / 特征写入在线与离线存储
  -> 推荐 / 搜索 / 审核 / 运营系统消费

3.4 面试里最值钱的 6 个设计点

1. 不能只取封面帧

很多动作、事件、违规行为都发生在时间维度。

所以通常要做:

  • 关键帧抽取
  • 均匀采样
  • 镜头切分
  • 在复杂样本上保留时间窗口特征

一个成熟表述:

Text Only
我不会只拿封面图做判断。对短视频理解,时间维度和镜头切换很关键。
低成本路径可以做抽帧 + 关键帧;高价值或高风险样本再升级到视频级模型。

2. OCR 和 ASR 很重要

真实业务里,标题和字幕经常比画面本身更直接暴露语义和风险。

常见做法:

  • OCR 抽海报字、贴纸字、画中字幕
  • ASR 提取口播文本
  • 做时间对齐,保留文本出现时间窗

如果你只讲 VLM,不讲 OCR / ASR,答案会显得很空。

3. 一般采用两阶段或三阶段路由

不是所有请求都值得直接走重模型。

典型分层:

  • 轻量路径:规则 + OCR/ASR + 轻量视觉分类器
  • 中等路径:多模态双塔 / 小 VLM
  • 重路径:大 VLM + 规则复核 + 人工审核

价值:

  • 节省算力
  • 降低平均延迟
  • 让高价值样本得到更强模型支持

4. 特征要分“离线特征”和“在线特征”

离线可做:

  • 视频 embedding
  • 主题标签
  • 风险预判
  • 推荐候选特征

在线可做:

  • 个性化 rerank
  • 热点时效特征
  • 会话上下文融合

这样才能把成本和实时性平衡起来。

5. 审核系统必须保留可解释信息

不要只输出一个标签。

更像生产系统的输出是:

  • 标签
  • 置信度
  • 证据片段
  • 命中的 OCR/ASR 文本
  • 触发规则
  • 关键帧截图

否则审核和运营同学很难复盘。

6. 风险判断需要“策略层”,不是只靠模型

模型输出只是信号之一。

真正上线通常会有:

  • 规则引擎
  • 模型集成
  • 黑白名单
  • 阈值分层
  • 人工复核队列

一个成熟表达:

Text Only
我不会让模型直接决定最终处置动作,而是把模型分数输入策略层。
高风险样本可直接拦截,中风险进入人工复核,低风险继续放行。

3.5 评测指标怎么答

多模态系统不能只说一个准确率。

至少分 3 类指标:

  • 任务质量:Precision / Recall / F1 / mAP / AUC
  • 业务指标:误杀率、漏放率、人工复核命中率、推荐点击率
  • 系统指标:P95 延迟、吞吐、GPU 利用率、单条成本

如果是审核类题目,还要主动补:

  • 高风险类别召回率优先
  • 分层阈值策略
  • 人工抽检闭环

四、题型二:图文检索与多模态 RAG

这类题在企业知识库、商品搜索、广告素材、设计资产管理和电商内容理解里很常见。

4.1 题目示例

设计一个支持“以文搜图、以图搜图、图文混合问答”的多模态知识系统,要求支持 1000 万素材,回答时能引用图和文本证据。

4.2 推荐的回答结构

Text Only
离线:
  素材解析
  -> 图片特征
  -> OCR / Caption / 元数据结构化
  -> 文本向量与视觉向量索引

在线:
  用户输入
  -> Query 理解
  -> 模态识别
  -> 混合召回
  -> 多模态重排序
  -> RAG 生成
  -> 引用返回

4.3 这类题的关键追问

1. 图片和文本怎么放进同一检索空间

常见路线:

  • 统一跨模态 embedding 空间,例如 CLIP / SigLIP
  • 视觉向量和文本向量双索引,在线融合

如果要求强解释性,很多系统会保留双索引而不是强行完全统一。

2. 为什么需要 OCR / caption / metadata

因为很多检索需求其实不是纯视觉语义:

  • 图里写了什么字
  • 商品品牌和型号
  • 截图里的按钮和表格
  • 设计稿的风格标签

所以多模态 RAG 不只是“图片丢给 VLM”。

3. 为什么还需要 rerank

多模态召回很容易“语义相关但任务不对”。

所以通常会有:

  • 向量召回
  • 关键词召回
  • 元数据过滤
  • reranker 精排

一个成熟表述:

Text Only
多模态系统里召回负责不漏,rerank 负责不乱。
如果没有 rerank,系统会拿到很多大方向相似但任务不匹配的素材。

4. 生成阶段如何避免幻觉

高质量答案通常会提:

  • 只允许基于已检索证据回答
  • 返回图像和文本引用
  • 低置信度时退化为“检索结果摘要”
  • 对高风险问题禁用自由发挥

五、题型三:端侧多模态与机器人/无人机场景

这类题在具身智能、机器人、无人机、车端、工业质检里都很常见。

5.1 面试官通常怎么问

设计一个无人机巡检系统,输入是摄像头、热成像、GPS、IMU 和文本任务指令,要求边缘设备先做初步判断,异常样本上传云端复核。

5.2 这类题一定要主动讲的点

1. 端云协同

端侧负责:

  • 轻量感知
  • 初筛
  • 低延迟响应
  • 断网可用

云侧负责:

  • 重模型复核
  • 长周期学习
  • 全局检索与调度
  • 历史数据分析

2. 多传感器时间对齐

不能把图像、IMU、GPS、热成像简单拼起来。

要讲:

  • 时间戳对齐
  • 坐标系变换
  • 丢帧补偿
  • 传感器可靠性判断

3. 容错与安全

机器人/无人机题如果不讲安全,很容易失分。

至少要提:

  • 低置信度不自动执行高风险动作
  • 感知异常时切人工或保守策略
  • 通信中断时本地降级
  • 全链路审计和事件回放

六、面试高频追问

Q1:为什么不用一个超大 VLM 直接端到端解决

Text Only
因为大一统模型在原型期很方便,但生产环境里会带来三个问题:
1. 成本高
2. 延迟不稳定
3. 可解释性和可控性差

所以我更倾向于“轻链路筛选 + 重链路复核”的分层架构。

Q2:多模态数据怎么标注

高质量回答至少要覆盖:

  • 标签体系分层
  • 模态对齐标注
  • 弱标注与规则预标
  • 人工抽检
  • 高风险类别单独质检

Q3:线上评测怎么做

不要只说离线 F1。

可以答:

  • 离线评测集
  • 线上抽样
  • 人工复核准确率
  • 误杀 / 漏放 / rerank 命中率
  • 成本与延迟联合看

Q4:如果 OCR / ASR 很脏怎么办

成熟答案:

  • 保留置信度
  • 多引擎交叉
  • 低质量文本降权
  • 复杂样本升级到大模型复核
  • 不把单一路径结果当最终裁决

Q5:怎么控制 GPU 成本

典型手段:

  • 分层路由
  • 离线预计算
  • 热点缓存
  • 模型蒸馏 / 量化
  • 只让高价值样本进重模型

七、一个可以直接复述的标准答案

如果面试时间很紧,可以用这段结构化表达:

Text Only
这题我会先把系统拆成输入预处理、单模态特征、跨模态融合、策略决策和下游消费五层。

以短视频理解为例,输入包括视频帧、音频、标题、OCR 和 ASR。离线侧先做抽帧、镜头切分、OCR/ASR 与 embedding 生成;在线侧根据场景做轻量分类和重模型复核。简单样本走规则 + 轻量模型,复杂样本再升级到 VLM。

输出我不会只给一个标签,而会同时保留置信度、证据片段和触发规则,方便审核和运营复盘。评测上我会同时看任务质量、业务误杀漏放和系统成本延迟。这样整套方案更像生产系统,而不是单模型 demo。

本章小结

  • 多模态题的核心不只是“用了什么模型”,而是“如何把多模态链路工程化”
  • 高质量答案必须覆盖:预处理、抽帧、OCR/ASR、融合、策略层、评测、降级和成本
  • 2026/2027 的多模态系统设计题,拉开差距的往往不是模型名字,而是你能不能讲清楚分层架构和失败兜底

学习检查清单

  • 能先拆任务目标,再讲模型
  • 能解释为什么不能只看封面图
  • 知道 OCR / ASR 在多模态系统中的关键价值
  • 能讲清楚轻链路与重链路的分层策略
  • 能区分离线特征和在线特征
  • 能回答多模态 RAG 的召回、rerank 和幻觉控制
  • 能回答端云协同、时间对齐和安全降级

最后更新日期: 2026-03-28