阿里巴巴淘系技术研发全新3D AI 算法
署名2021-01-11

阿里巴巴淘系技术研发了全新 3D AI 算法,可基于 2D 图片精准搜索出相应的 3D 模型,准确率大幅提升10%,可降低 3D 打印、VR 看房、场景导购等众多领域的门槛。该研究成果已被 AI 顶会 NeurIPS 2020 收录。

3D研究是目前业界最热门的课题之一,是打造3D智能世界的核心基础。在探索3D数字化家居建设的过程中,阿里巴巴淘系技术部最新提出的2D图搜3D模型(IBSR)方案受到学界认可,相关论文已被国际人工智能顶会NeurIPS 2020录用发表。

IBSR旨在根据2D图片从给定3D池子里搜索出图片里物体对应的CAD模型。随着3D CAD模型数量迅速增长,研究设计高精度IBSR系统意义重大。 其有利于快速还原真实三维场景,也在数据库驱动的3D模型重建问题中扮演着至关重要的角色。解决IBSR问题的通用思路是将2D图与3D模型映射到同一空间,并学习相似度度量函数。过去几年,包括卡耐基梅隆大学,麻省理工,斯坦福大学等顶级学府都纷纷建立IBSR基准数据集,并投入相关研究。

动机

IBSR最大的难点就是如何克服2D图与3D模型的appearance gap,并解耦出无纹理信息干扰的统一几何表面特征表达。我们发现IBSR问题有一些特别的性质,包括(1)3D模型通常都是独立的个体(类别);(2)同一个3D模型现实中可能会对应不同纹理表面。这些特性在过去都没有被很好的建模学习,这就使传统方法在精细3D模型推荐上表现不尽如人意。

方法概述

针对这些特性,阿里巴巴淘系技术提出了纹理合成驱动的多视角度量学习架构。具体来说,我们设计纹理生成的条件对抗生成网络 (cGAN) 来为度量学习创造困难三元组 (Hard Triplets),使网络在训练过程中能有效抑制2D图丰富纹理的不利干扰,从而更关注于物体的几何细节特点。同时,为了使网络学习几何表面特征更容易,我们利用显著性与视角注意力机制来尽可能消除2D图片杂乱背景与无约束的投影视角干扰。

实验结果

我们的方案在多个开源数据集,包括Pix3D,Stanford Cars,Comp Cars,和3D-FUTURE,都取得了SOTA的结果,并且3D模型搜索准确率超过传统方法约10%以上。其中,3D-FUTURE为阿里巴巴淘系技术部主导开源的业界首个饱含纹理细节的大型3D家具模型数据集