一、背景

什么要做智能封面？

用户可以在得物购物，也可以在得物社区分享自己的生活。

得物社区中的视频使用双列流，每条内容包含封面、标题等。

封面推荐可以降低创作者的创作成本，提高消费者 CTR。

端智能（Edge/Client Intelligence）是指在边缘设备（如物联网设备、智能传感器、移动设备等）上进行数据处理和智能决策的能力。与云计算模型相比，端智能将计算、存储和分析功能移到更接近数据源的地方，优势如下：

尽管端智能带来了很多优势，但在实际应用中也面临一些挑战：

考虑到用户隐私、实时性和服务端压力，我们选择用端智能推荐视频封面，并克服相关的挑战，最终获得收益。

对客户端而言，不需要训练模型，只需要推理。

端智能框架可以简化推理过程，常见的端智能 SDK 如下：

考虑到 iOS、Android 双端的通用性和开发成本，得物基于 MNN [1] 框架，开发得物端智能推理基建。端智能基建核心功能如下：

智能封面主要开发流程如下，算法侧产出端智能模型，客户端调用模型推荐视频封面。

整体架构.jpeg

端智能封面推荐场景要求无参图片质量评价(NR-IQA)、轻量化，因此基于目前的前沿进展进行调研和摸底，确定相关实现方案。主要的调研内容：

Faster-VQA[2]：轻量化的视频质量评估模型。核心是使用优化版本的Transformer->Swin-Transformer来减少网络计算，加速效率。

算法调研.jpeg

UNIQA[3]：统一的图像质量评估(IQA)框架，旨在同时处理全参考(FR)和无参考(NR)任务。现有的IQA模型通常只能处理FR或NR任务之一，而人类视觉系统(HVS)则可以无缝地在两者之间转换，因此提出开发一个能够像人类一样处理不同类型图像质量评估任务的模型，统一全参/无参两类任务。