一、背景
什么要做智能封面?
用户可以在得物购物,也可以在得物社区分享自己的生活。
得物社区中的视频使用双列流,每条内容包含封面、标题等。
- 对得物社区的创作者而言,选择视频封面是创作链路的重要环节。
- 对得物社区的消费者而言,封面是影响 CTR(点击率)的关键因素。
封面推荐可以降低创作者的创作成本,提高消费者 CTR。
端智能介绍
端智能(Edge/Client Intelligence)是指在边缘设备(如物联网设备、智能传感器、移动设备等)上进行数据处理和智能决策的能力。与云计算模型相比,端智能将计算、存储和分析功能移到更接近数据源的地方,优势如下:
- 低延迟 :数据在本地处理,减少了传输到远程服务器的时间,提高响应速度。
- 节省带宽 :通过在本地处理数据,仅发送必要的信息到中心服务器,减少了网络带宽的消耗。
- 数据隐私和安全 :数据在本地处理,敏感信息不必传输到云,从而提高了数据隐私和安全性。
- 可靠性 :在网络连接不稳定或中断的情况下,边缘设备可以继续进行本地处理和决策。
尽管端智能带来了很多优势,但在实际应用中也面临一些挑战:
- 计算能力的局限性 :边缘设备通常具有有限的计算资源,可能无法处理复杂的人工智能模型。
- 数据一致性与协同 :多个边缘设备之间的数据一致性和协调处理仍然是一个挑战。
- 设备管理与部署 :随着设备数量的增加,边缘设备的管理、监控和更新变得更加复杂。
考虑到用户隐私、实时性和服务端压力,我们选择用端智能推荐视频封面,并克服相关的挑战,最终获得收益。
得物端智能
对客户端而言,不需要训练模型,只需要推理。
端智能框架可以简化推理过程,常见的端智能 SDK 如下:
- 开源 SDK:MNN、TNN、NCNN、Paddle Light、TensorFlow Light 等。
- 闭源 SDK:ByteNN、Pitaya、KwaiNN、Ykit 等。
- 系统 SDK:CoreML(iOS)、MLKit(Android)等。
考虑到 iOS、Android 双端的通用性和开发成本,得物基于 MNN [1] 框架,开发得物端智能推理基建。端智能基建核心功能如下:
- 提供端智能模型管理后台,提供完整链路,管理模型的放量。
- 端侧提供统一的基建,方便业务进行模型的下载、运行管理,以及熔断和降级的处理,降低使用门槛。
- 提供相对完善的稳定性和性能监控机制,及时报警和出错时止损。
整体架构
智能封面主要开发流程如下,算法侧产出端智能模型,客户端调用模型推荐视频封面。
二、内容理解算法
算法调研
端智能封面推荐场景要求无参图片质量评价(NR-IQA)、轻量化,因此基于目前的前沿进展进行调研和摸底,确定相关实现方案。主要的调研内容:
Faster-VQA[2]:轻量化的视频质量评估模型。核心是使用优化版本的Transformer->Swin-Transformer来减少网络计算,加速效率。
UNIQA[3]:统一的图像质量评估(IQA)框架,旨在同时处理全参考(FR)和无参考(NR)任务。现有的IQA模型通常只能处理FR或NR任务之一,而人类视觉系统(HVS)则可以无缝地在两者之间转换,因此提出开发一个能够像人类一样处理不同类型图像质量评估任务的模型,统一全参/无参两类任务。