端智能终究会成为驱动业务创新的核心推动力
署名2020-12-15

从2017年开始探索端侧智能方向,这3年来端智能的发展变化有哪些?从宏观层面来讲,端智能应用从探索尝试到逐步展开,在未来,必定会成为商业应用以及业务创新的核心技术推动力之一。具体来说,业界端智能的发展可以从以下哪些角度来看呢?

一、业界端智能的发展可以从三个角度来看:

(1)从算法角度看:

端侧算法不断成熟和完善。从最初的人脸检测,到人体姿态、手势、OCR等逐步成熟。除视觉模型外,像搜索推荐深度模型、语音ASR模型和NLP模型在端侧运行也逐步变得可能,比如:我们今年基于MNN实现了移动端实时语音识别方案,并且在双11淘宝直播"一猜到底"活动中取得很好的业务效果。

(2)从技术角度看:

解决的问题是逐步递进的。从最初模型运行基础问题,再到效率和规模应用问题,具体包括:算法模型如何在端侧运行?算法模型如何快速迭代部署?如何降低端AI技术门槛实现普及应用?

(3)从应用角度看:

整体应用范围不断拓展和深入。从最初单点场景比如淘宝拍立淘场景,到多App和多场景全面铺开,不完全统计,阿里基于MNN的端智能应用已经超过30个。

二、淘系端智能的发展主要经历了哪几个阶段?

(1)端侧推理引擎阶段:

端智能首先要解决算法模型在端侧运行问题,否则一切无从谈起,推理引擎就是端智能应用皇冠上的明珠,这个阶段我们做了端侧推理引擎MNN,实现模型在端侧高效运行。

(2)算法模型服务阶段:

端智能要在业务落地除了算法模型运行之外,前后还涉及模型转换、更新发布、版本管理、运维监控等工作,这个阶段我们做了端AI服务端解决算法模型发布更新问题。特别地,算法任务除模型外,还涉及前后处理代码,因此我们构建了基于PythonVM的算法任务运行时容器,让算法同学编写Python任务实现快速迭代。

(3)端AI研发范式阶段:

端智能规模化应用过程中需要体系化解决研发迭代全链路问题。一方面,端智能应用落地需要算法开发和移动开发通力协作,但是两者之间天然存在GAP,完全依赖口头沟通,协作效率存在较大问题。另一方面,AI应用场景具有长尾和碎片化特征,诸多场景因为缺少专业算法支持导致没有落地,而且由于缺少统一技术建设导致已被应用的方案难以沉淀和复用。因此,我们构建“端AI研发范式”,具体由MNN工作台、MNN运行时、端AI服务端构成。其核心思想:一是解耦算法和移动开发,让算法开发独立迭代;二是降低AI门槛,让AI成为普通开发的有力武器解决业务问题。

三、 淘系技术在推进端智能落地过程中遇到的困难:

 淘系丰富的业务场景历来是培育创新技术的沃土,端智能的整体技术和应用实践一直走在行业前列,我们有开源推理引擎MNN还有开放的MNN工作台等。目前淘系已经有25+应用场景,65+算法模型在日常运行,每天推理运行次数超过百亿次,覆盖商品搜索推荐、用户触达、拍立淘、直播等核心场景,经历3次双11考验并取得巨大业务价值。整体应用可以大致分成如下几类:

(1)视觉类:

主要在拍立淘、淘宝直播、拍摄工具、评价等场景应用。

(2)推荐类:

主要在首页信息流、购后、详情等各种推荐场景。

(3)触达类:

主要在Push、消息、各业务弹框等场景应用。

(4)语音类:

主要在淘宝直播、智能降噪等场景应用。

(5)推理引擎MNN:

到目前为止,最大挑战还是推理引擎MNN的挑战。

端智能已经逐渐从尝试应用变成驱动业务创新的核心推动力之一,在双11的热点业务场景都能看到相关应用。今年大热的直播场景也有不少应用。依托于淘系自研的MNN,淘宝直播间推出“语音猜价格”挑战,观众在直播间也能实现语音交互,动动嘴就可以响应主播发出的猜产品价格的任务。端智能极大的提升了直播内容的交互可玩性和内容理解准确性。