淘宝直播商品识别大赛开幕,助力视频多模态商品检索技术再升级
淘系技术2021-04-28

阿里巴巴淘系技术与浙江大学深度合作,在多媒体领域顶会ACM Multimedia 2021举办直播中多模态商品识别workshop暨第二届淘宝直播商品识别大赛,共同推动电商直播场景中多模态商品检索识别的研究和AI技术在实际应用场景中的落地。

本次大赛邀请浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者,阿里巴巴淘系技术内容中台负责人吴桂林(梁舒)、内容算法负责人唐海红(飘雪)、多媒体算法负责人李晓波(篱悠)等企业技术专家,优秀一线青年研究员浙江大学汪晓晗博士和淘系技术燕保明博士为技术指导和评审,由大数据竞赛平台天池承办。

直播电商已经成为连接商品和消费者的重要方式,淘宝直播自上线以来连年保持高速增长,2020年带来的GMV更是超过人民币4000亿元。经过多年的不断创新和实践,淘系技术通过直播商品识别算法,实现淘宝直播过程中商品和直播讲解点的有效关联,让消费者可以通过点击商品跳转观看该商品的真人讲解,实现边看边买的沉浸式消费体验。目前,淘宝直播每日有数以万计的主播/直播使用该技术产品。

在实际应用中,直播间讲解商品多,视觉相似程度高,直播场景复杂度高,导致讲解过程中会存在商品形变、被遮挡、模糊等情况,给直播中视觉检索识别带来巨大的技术挑战。如何利用直播画面的理解,并且有效结合主播讲解的语音、商品的标题文本描述等多模态信息,进行多模态商品检索和识别,是非常值得研究并且需持续投入的课题。

为了推动行业直播的多模态商品识别技术发展,我们依托淘宝直播海量数据,开源了业界首个大规模的多模态视频商品检索数据集Watch and Buy (WAB)。该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对,具有规模大、标注全、模态多、功能广的特点。我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注,商品id数达82,173个,标注图像数达1,042,178张,检测框实例1,654,780个。框级标注信息丰富多样,包括商品的检测框、类别、视角、展示方式、同款编号等。

除了视觉标注,我们还对主播讲解语音进行了人工文本转录,同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。为了方便国际选手参赛,对数据集中的中文部分,我们提供了文本分词和预训练的词向量表示,大大降低了比赛选手的参赛限制。

首届淘宝直播商品识别大赛于2020年3月启动,共吸引到海内外近2000支队伍参加,涌现的优秀方案有效提升Baseline方案指标达20%,赛后优秀方案经过与作者团队的通力合作,优化后在淘宝直播场景上线。

淘宝直播商品识别大赛2021较与第一届,在赛题设计上特别优化并引导选手注重全类别的识别效果,特别是长尾的商品类别、视觉纹理简单商品的识别等,另一方面更加强调多模态信息(主播讲解语音、商品标题)等信息在精确识别视觉相似讲解商品中的重要性。相信本次大赛,能够促进选手在多模态商品识别大赛中提出新的方法和技术,持续激发视频多模态检索领域的技术创新研究。

  • Workshop主页:https://sites.google.com/view/wab2021