北大博士的CVPR冠军体验:一群直男强行“认草”
淘系技术2021-07-20

今天聊聊淘系 CVPR 竞赛另一个冠军:Herbarium 2021 - Half-Earth Challenge,一个最终准确率高到外界怀疑我们雇了个植物学家参赛的故事。

前篇回顾: 如果你看过上期冠军少麟的故事【仅9天拿下CVPR竞赛冠军,家里的狗狗都改了作息】,今天的冠军元年主要有2个不同点:第一,他提前3个月开始着手准备;第二,他同时参加了3项挑战赛。

“暴力青年”的非寻常之路


狮子座的元年,在队友眼里是个“暴力青年”。

走在路上要是有石头挡路,别人选择绕道,他选择推开;一起打乒乓球,无论对方出什么样的刁钻球,一招暴力扣杀吃遍天下;团队outing,大家走着稳稳的山路,他非要跑去野山坡自行开路,不见悬崖不回头……

“很有张力,很激进,但也很令人安心。”

这么一个狮子座的青年,带着他的处女座水瓶座摩羯座同事们,拿下了 CVPR 2021 三个竞赛奖项,将冠亚季军收入囊中。(迷信星座的算法团队们哈哈哈)

元年:路在哪儿?脚下!

一群直男强行“认草” :绿得相差无几


本科学习微电子,保送到北大直接攻读物理博士的燕保明(花名:元年),原本是个计算机的门外汉。

“就不想焊电路了,也觉得基础物理太难在短时间内看到突破,就自学算法了。”

纵使是这么恐怖的学习能力,以及这么彪悍的发言,元年也万万没想到,这次竞赛自己要搞的是——植物学

Herbarium 2021 - Half-Earth Challenge,属于“大规模实例级物体识别”的技术域,比赛数据集为从多个大型植物园收集的美洲、大洋洲等半个地球的6.5W类2.5M张植物样本图片,用于训练植物识别算法,辅助植物学家进行植物识别,发现和保护新物种。

不同于元年工作中对于淘宝商品的识别判断,植物的分科和类别相当细致,分辨不同植物需要专业的知识,视觉上区分的难度很高;另外,数据集的样本极度不均衡,最少的类别仅有3张样本,如何提升长尾类别准确率是这场竞赛的核心难题。

😑 大型“六亲不认”现场


“我们把一些结果可视化出来后,大家都忍不住吐槽,这堆草到底有什么区别?!”

(难为这些口红颜色都无法辨认的算法直男们)

元年率领的竞赛小分队,此次一共参加了 CVPR 3项不同的竞赛。当队友埋在一堆绿油油的图片里崩溃时,劝他说,要不我们放弃这项,把更多精力投入到别的赛程上去。“暴力青年”元年斩钉截铁地拒绝了。

在他的观念里,算法本身就是快速调试问题,以方便你找到下一个问题。至此,他们开始了这次 38 次比赛结果提交之路。


技术人的极客精神:同时玩3个也不带怕的


原本对于“实例级物体识别”这个领域,元年是有着自己的骄傲和信心的。

在做淘宝直播看点的业务期间,要求将商品和直播间关联起来,用户点击商品就能跳转到正在讲解的直播间。淘系多媒体算法团队在检索商品的领域已经有了相当好的方案,此前相关领域比赛也有比较高的数据指标。当他们用类似方案跑本次比赛数据时,一刷准确率,却不到70。

淘宝直播看点背后的商品识别算法

“分类和检索还是不一样,我们经过研究发现,必须要把特征的学习和分类解耦开,正是这个思想,我们掌握到了这次比赛的黑科技。”

这也是“狮子”元年带给小伙伴们最大鼓励的地方。无论在看起来多么“穷途末路”的情况下,他总能源源不断提出新的想法和策略,并且现场发散出更多。

“要是想早点吃饭,开会的时候就别让元年说话。” 队友兰枻哭笑不得。

主管济宇对元年的这份源源不断的活力和突破精神也深有感触,2018年元年校招入职,济宇直接将一个重要的业务需求丢过去,并告知2个月上线,毫无工作经验且无辜的元年一个半月完成了工程问题和算法部署;2019年初,他要求体现一下技术深度,随即元年以一作的身份发了两篇论文;现在,当他想着,为什么不打个比赛呢?于是元年带队在CVPR的三个赛道分别拿下冠军、亚军和季军。

元年小组另两项比赛是Hotel-ID 2021-Hotel Recognition Challenge 和 Evoked Expressions from Videos (EEV) Challenge 。大家都是刚毕业几年的同学,既要保证不耽误手头的业务,还要同时推进三项比赛,这对于大家比赛期间的时间和精力管控,提出了更大的挑战。

要是机器会讲话,它可能感受最深刻,并想跳起来打人。

“因为资源有限,我们的原则是一定不能让机器闲着,跑完一个就下一个,啥时候跑上新任务,我们啥时候睡。周末也不例外。”

元年小组对于3项比赛做了侧重点分工,每个小伙伴都有自己重点参赛项目和独立跟进的部分,并保持着【方案尝试-问题总结-交流提升】的协同操作模式。元年则保持着对每项比赛进展和下一步方案的调研研究。

“我的伙伴们真的很给力,比如兰枻,我们的模型训练日志都是放在OSS上,他疯狂到把所有的日志都发送到手机上,方便实时刷数据结果。就算是凌晨两三点看到数据有异样,弹起来就拿电脑。这也是我们技术人的极客精神吧。

不负有心人,Half-Earth Challenge 这一场最终凭借领先亚军2.2%的优势,一举获得冠军,另两场也分别取得了第二、第三的好成绩。这是元年小组首次在视觉图像维度尝试实例级检索,未来他希望可以拓展到内容检索这个更大的范畴,一方面通过多模态的信息更好的去理解用户的检索意图,另一方面结合多模态信息实现更好的视频内容多维度表征,在对跨模态学习、因果知识解耦等众多基础问题的不断探索和攻克中,用技术的突破为淘宝用户带来更好的内容消费体验。

Half-Earth Challenge 比赛结果

跨领域学习“超能力”如何炼成?

4年前,还在北大低温量子实验室的仪器旁,偷偷用零下两百度的液氮冻水果的元年,绝对没有想到,未来的他搞起了计算机视觉算法。

物理是相对“枯燥”和伟大的学科,需要漫长的时间实验和提炼。元年眼睁睁看着他入学初始,一个从他开始搭建仪器的问题,直到他博士毕业,师弟师妹们还在攻克这个……他开始思考如何能找到反馈比较快的方式实现自己的人生价值。

“我的偶像是钢铁侠马斯克,他在太空探索、汽车、能源、高铁、互联网、人工智能等领域都做出了颠覆性的成绩。”

自诩为“物理里面会搞计算机,计算机里面懂物理”的元年,和他的偶像一样,关键点是 get 了一种名为【迁移学习】的能力

马斯克发表在 Reddit AMA 上的回答曾经描述过,他有2个步骤实现这种超人般的领域互通。首先,学会把知识解构为若干基本原理,就像一棵大树确保理解树干;其次,将这些基础原理在新的领域重构,不断问自己两个问题:“它让我想到了什么”以及“为什么会让我想到它”。

当学会在更抽象的层次中去思考问题的共通点时,我们更能理解到天才并不是天赋异禀,而是有更加科学正确的学习技巧。

当然,实在鸭梨山大想不明白的时候,元年就喜欢去徒步和登山。同样是物理系的硬核老婆,也会陪着他自驾西藏,在广袤的天地山河间,思想是破碎还是重组,都不是事儿。

硬核元年和硬核老婆在西藏(狗粮的味道)


没事,“学霸”也是德州扑克输最多的


意外的是,相比他处女座水瓶座摩羯座的队友们,这只狮子玩起德扑来,基本是送钱的“小可爱”。

“他就是,如果一开始看自己牌面很好,就突然加很多筹码。最后都给我们做贡献了。”好基友兰枻作为稳健派,忍不住吐槽。

对此,元年一本正经地表示:对于玩起来容易上头的游戏,一定不要想那么多,上头就对了。(好的,我们信了)

不同于大家对学霸人群“高分高能,学啥玩啥都厉害”,或者“高分低能,成绩优秀以外一无是处”的两级印象,元年属于通通透透的第三种:好玩就行,玩好就行。他既没有投入专注的思维和技巧一定要“玩”出极致的水平,也不是笨拙呆板还负有 social 的精神压力。

玩是人类的本质、天分、快乐与基础,也是热情、创造和想象力诞生的摇篮。不管是认真还是随意,只要保持着轻松快乐的心态,得到精神的放松和愉悦,才对得起自己的人生。

生命长青,好玩至上,工作与休息都是。