计算机视觉在这四大新零售细分方向的应用被看好
署名2021-01-27

无人便利店在国内发展得如火如荼,技术方案也各不相同。计算机视觉就是其中非常核心的技术之一。Amazon Go和阿里巴巴的淘咖啡无人超市都是这条技术路线上的领先者,而它们背后都离不开一个人——任小枫。

任小枫曾是亚马逊最高级别的华人科学家,是Amazon Go 的重要策划者之一。他现在的身份则是阿里巴巴 iDST 首席科学家兼副院长,也是阿里无人超市背后的重要力量之一。

在2017云栖大会上,任小枫指出,新零售是以消费者体验为中心,由数据驱动的泛零售形态。他同时还指出,数据并不是现成的,需要我们花大力气去获取,尤其是在线下场景中,需要通过视觉或其他手段获取有用的信息。因此,新零售本质上是“由信息驱动的”。

计算机视觉作为一种获取信息的通用手段具备很多优势,但同时也存在一些短板。为了让大家更好的理解,计算机视觉发展到了什么样的水平,能够做哪些事情,未来具备怎样的想象空间;任小枫对计算机视觉的发展状况在大会上做了详细的介绍。

最后,他还列举了新零售诸多应用场景中他最感兴趣也最看好的4个应用方向:增强现实、智慧门店、机器人、可穿戴设备。

作为一名技术人员,任小枫大多数时间都在思考如何解决实际的技术问题,但有时候也会思考未来是什么样子的。

任小枫在美国工作和生活了很长时间,所以新零售对任小枫来说也是一个谜。如何解开这个谜呢?他对新零售做了非常全面的总结:新零售是以消费者体验为中心,由数据驱动的泛零售形态。

数据的应用场景很多,涵盖了百货公司、购物中心、便利店,甚至直播、视频、电子商务等等。但无论在哪个场景,买东西的本质都是人和商品。需要做的就是理解人,理解物;把人和物联系起来,让用户更好更快地找到他满意的商品,或者更好更快地把商品送到用户手里。

计算机视觉是获取信息的重要手段


要得到关于人和物的信息,尤其是在线下场景中,计算机视觉是非常好的方法。任小枫这样说并非因为是从事计算机视觉方向研究的,而是因为它本身有本多的优势。摄像机是一种通用手段,通过摄像机可以做很多事情,比如识别人、物、动作。它还是一种非常高信息量的感知方法,现在1080P的视频已经非常普及了,通过1080P的像素可以看到很多东西,而且不用靠的很近就能感知。

而它又是一种被动的方法,很多情况下原因是因为人是用眼睛感知的,所以这个世界实际上是为了我们的眼睛而设计的,从红绿灯也好,标志牌也好,很多商品的包装,很多时候都是为了适应人眼,计算机视觉就是利用了这个世界设计的规律,然后试图用同样的途径来得到更多的信息。

当然,计算机视觉也存在很多缺陷。首先,必须要有光照,只有在比较好的光照条件下才能获得优质的信息。其次,遮挡也是比较大的问题,一旦摄像机被挡住,后面的信息就看不到了。因为我们需要高信息量,所以采用了可见光,但可见光波长很短,无法绕开前面的遮挡物。过去计算机视觉应用的最大问题是精度不够,但最近几年已经有了很大的改善,精度不再是特别大的瓶颈。

计算机视觉的发展状况


识别物体方面,国际上有一个非常具有影响力的竞赛——物体分类竞赛(ILSVRC)。要给一千个物体的图片打上标签,分辨它究竟是什么。2012年之后的六年时间里,计算机识别的精度一直在提高。我们可以比较一下机器和人类识别的错误率——有人测试过,人类在解决这个问题时的错误率为5%,这并不意味着计算机超越了人类,因为人类犯错有很多方面的原因。但可以说,计算机在某些情况下达到了人类的精度。

计算机视觉要解决的不止“一张图一个物体”的问题,还要处理很多复杂的场景。所以ILSVRC中也设置了物体检测竞赛,让计算机从复杂的场景中找出各种各样的物体。计算机视觉在这个问题上的进展也很快,深度学习只是原因之一。

要做到正确检测物体,就需要有正确地标签和位置。物体检测问题还跟阈值有关,假如把阈值调高,返回的错误结果就会更少一些;假如将阈值调低,返回的结果更多,但也会包含一些错误。

总体而言,现在的MAP平均精度达到了0.75,跟人类相比还有一定差距。但在很多场景中,计算机已经能够做得很好了,比如一些有人、狗、雨伞和一些比较小的东西的场景,计算机通常都能够检测得到。

再看一下语义分割的例子。在这个问题中,我们需要做的不只是找边框,而是要在每个像素点上标注它到底什么。比如在自动驾驶的例子中,算法可以标记树、车、行人和各种各样可能遇到的物体,目前我们已经达到了不错的精度。任小枫认为,用摄像机做无人车是非常有意思的方向。

计算机视觉可以做很多事情,比如通过多相机跟踪,可以识别人的身份,并比较精准地获取他的位置。室内定位有很多方法,比如WiFi、蓝牙、超声波,但它们实现起来都有一定的难度,而计算机视觉可以达到厘米级的定位精度。

很多情况下,不仅需要检测某个人的位置,还要估计他的姿态。姿态是理解他人意图的基础,可以从中获取很多信息。有了姿态之后,我们还可以在姿态的基础上做一些动作的识别,物体的识别,很多情况下能够识别人的动作。

向前展望一下,未来无论是在室内还是室外场景,夸张点说,人类用眼睛可以做到的事情计算机视觉也能做。几年前我绝对不敢说这句话,但现在算法和其他方面的能力都有了很大的提升,在某些情况下已经非常接近人类了。

但反过来说,对于摄像机拍不到的地方,计算机视觉也无能为力。因此,在解决实际问题时,摄像机的布置是非常重要的,我们需要找到最佳的布置方案,最大程度获取想要的信息。当然,除了摄像机的布置,我们还要考虑数据、计算量、成本等与算法的结合。总而言之,任小枫对计算机视觉是非常有信心的。

再回过头来讨论新零售。前面提到新零售是由数据驱动的,其实可以小小修改一下,表述成“新零售是由信息驱动的”。为什么呢?因为很多时候数据并不是现成的,需要花大力气去获取,特别是在线下场景中,需要通过视觉或其他手段获取有用的信息。

四个最看好的应用方向


任小枫非常感兴趣的几个应用方向:增强现实、智慧门店、机器人、可穿戴万能助手。

增强现实

增强现实是现实世界跟虚拟世界的叠加。比如我们买家具时可以拿pad拍摄家具叠加到住宅的图片当中。这个过程涉及几项关键技术,比如三维定位、三维建模、渲染等等。建模和渲染比较简单,定位技术现在也已经比较成熟了。几个月前,苹果公司发布了苹果手机中精准、实时的三维定位功能,其计算量已经达到了实用的程度。解决了三维定位问题后,增强现实技术可以应用到许多场景。

智能门店

任小枫以前在亚马逊工作,历时四年打造了Amazon Go概念店。在Amazon Go中,他们们解决了通用场景下的支付问题,做到了“拿了就走,无需排队结账”。虽然只省去了支付环节,但要做到高精度还有很多问题需要解决,比如人、商品和动作的识别问题。可以把Amazon Go想象成一个通用的线下智能系统,它包含了一个相机网络,可以做很多事情,比如跟踪人、分析人流,分析顾客的停留时间、有没有拿东西、有没有放回去。如果通过人脸识别的技术与身份结合,门店还能随时知道你是谁,并提供个性化的服务。

支付肯定是未来的一大方向。很多时候他们还会思考在线上比较容易实现的事情,比如分析顾客的停留时间并提供个性化服务。因为现在在线下也能做类似的事情。反而有些事情在线上很难实现,比如表情识别。在线下可以通过分析顾客的人脸,判断他是高兴、生气还是无聊。所以说,和线上相比,线下说不定真的有一些优势。

在不远的将来,Amazon Go这样的通用线下智能系统可以做很多事情。但应用于一家店铺是一回事,应用于银泰这种拥有很多店铺的大商场又是一回事,难度会再上一个大台阶。此外,要应对比较拥挤的场景,必须在算法和数据上花很大的精力。但总的来说,这已经是可见的事情了。

机器人

第三个提一下机器人,前面提的很多情况下只是感知,只知道那个人在哪里,其实可以做一些交互,可以是语音的交互,也可以是显示屏或者视觉上面的交互。从物理的角度来说,任小枫对机器人还是非常感兴趣的,机器人现在发展也是非常的快,大家其实已经看到了很多的例子。

比如伦敦的送货机器人,我们可以将它和无人车对比。送货机器人的技术和无人车比较相像,都需要对环境有非常精准地标签,要知道路在哪、该在哪里上下台阶、人在哪里,怎么才不会撞到人。很多问题都是相通的,但送货机器人相对简单一些,因为风险没那么大。但是另一方面,送货机器人对成本比较敏感,我们必须选择比较简单的硬件和算法方案。

包括现在很多人在做的无人机,无人机的控制技术已经发展得非常成熟了。宾夕法尼亚大学在无人机控制方面做了很多工作,靠附带的相机无人机就能完成看起来非常复杂的动作。

未来机器人是一个很有意思的发展方向,相信在物流和门店都将有更多机器人投入应用。

可穿戴万能助手

最后一个是万能助手,主要指的是可穿戴设备。

可穿戴设备是个人视角,跟门店不同,它可以记录生活,识别环境,识别其它的人,也可以用来识别自己的动作状态,可以作为一个助手跟你对话,给你提供信息,它其实是有很多事情可以做的。

大概七八年前,任小枫和别人合作过一个可穿戴相机的项目,任小枫负责搜集数据。这个可穿戴相机可以检测到用户在开盒子还是关盒子、手里拿着什么东西。当然,它并不是都能正确识别,因为动作的识别是比较困难的。但我觉得以后我们也能做好第一人称视角的识别,这样的可穿戴相机相对只能识别环境的相机来说拥有很多优势。

大家都知道Hype Cycle曲线。每个新技术、新产品都要经过这样几个阶段:刚开始时大家很兴奋,一拥而上,很快就到达了顶点;接下来就要处理实际问题,曲线开始下行,到达谷底时最现实的问题就暴露出来了,只有知道该怎么解决,才能再逐渐往上走。

增强现实已经经过了谷底,接下来会看到比较多的产品应用。智能门店还处在山顶附近,还有很多问题需要解决,机器人和可穿戴设备则还在更遥远的未来。

前面提到,在很多应用中,计算机视觉都能起到非常关键的作用。

当然需要去得到相关的数据,很多时候很多算法需要融合,需要跟其它的传感器进行融合。另外,很多时候也不光是感知的问题,我们需要去跟机器人或者其它交汇的方法融合,计算角度来说不见得都在云上或者端上做,云跟端也要融合。

此外,在简单的手势识别、商品搜索、虚拟现实、新制造等方向上,人工智能和计算机视觉也有更多应用的可能性。