拆车、炸机、毁魔方,这个疯狂的算法竞赛少年目的是这样的…
淘系技术2021-10-27

2021年10月20日,在多媒体方向学术盛会ACM Multimedia 2021 上,阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别大赛圆满结束,并进行了现场颁奖。

我们和来自中科院计算所的第一名获奖同学巩力铜聊了聊,竞赛给了他接触和理解工业界业务的视角,我们也更能理解后起之浪的少年们怀揣着什么样的技术梦想。共勉。

作为一个每学期至少打 3 场算法比赛的竞赛少年,巩力铜的目的很单纯,逼着自己去学新东西

大概从 3 岁那年,他偷偷把自己的遥控汽车拆了个秃噜,又暗戳戳把电路板装了回去,他就发现了人生的第一个奥义——实践出真知

前不久,还在中科院计算所读研三的他,拿下了淘系技术与浙江大学联合举办的第二届淘宝直播商品识别大赛第一名,和他聊过以后会感觉到,第一名真是一点都不意外。:)

“我打比赛的时候,一不小心在淘宝直播间买了件衣服。”

这届大赛题目是基于对淘宝直播数据内容的理解,进行多模态商品检索和识别。相较于其他选手拿到赛题后开始清理数据,制作模型,调整参数,训练机器,一个从来只在实验室里偷闲刷数码博主的工科少年,他居然开始默默刷淘宝直播了。

巩力铜想,既然这是个业务类型的数据集,总要看看业务是在干嘛吧。

他切换到服饰类直播的频道,仔细感受着带货主播想要展示的服饰内容以及对应的语言话术,尤其是意图与视觉信息的关联性。看了好几场以后,他终于成功被种草,买下了一件衣服……

巩力铜调研直播间时被种草的运动短裤

结合对直播间光照、衣物展现形式等各类具体的感知和理解,即便是面对由数字标注的分词文本,巩力铜显然拥有了更清晰的业务逻辑和算法思路,在模型的搭建和细节处理上直接绕过了一些弯路。

巩力铜在587支参赛队伍中脱颖而出

7月20日成绩定榜的时候,巩力铜的单人队伍 F1 分数高达 0.69 ,超过 baseline 0.22,拿下了稳妥的冠军。

“我从小就不太闹腾,是比较喜欢安静思考的人。”

巩力铜出生在山东淄博,曾经的齐国故都。在蹴鞠发源地文化的熏陶下,他喜欢梅西,喜欢足球,但相比于和小伙伴们风风火火玩闹一身泥,他似乎更喜欢安静乖巧地捣鼓着自己的玩具和游戏。

在建筑公司做工程技术员的爸爸,给他买的玩具也非常有“职业风格”,孔明锁、魔方、遥控车、拼图拼装类等等,在无限回合的拆了重组,组了再拆的磨砺中,巩力铜感觉也“越来越上头”。

他的魔方大军们

小学毕业的时候,家里有了第一台电脑。不同于家长对游戏“洪水猛兽”一般的态度,爸爸会邀请巩力铜一起打游戏,红警、传奇、冒险岛……每一个在那个年代小孩子们要偷偷跑去网吧才能获得的快乐,巩力铜都和爸爸一起修炼完成了。

“我感觉这是他的‘计谋’,因为这样我从来不会沉迷游戏。”

没有这种“禁区的诱惑”,巩力铜的简单快乐一直都放在如何通过思考得到更巧妙的结果上。

数学一直以来都是高分,他并不满足。不屑于那些一眼就能想到的方法,巩力铜总是尝试去找更加精巧的角度。数学和物理老师时常无语,这孩子怎么总是违了出题的本意,可答案又是无比的正确……

一次被誉为“史上最难”的月考,第一名的巩力铜117分(满分120),第二名的同学却不到100。老师决定,这种思维不是很常规的考试,以后就不整了。

他像所有的少年一样崇拜着爱因斯坦,并期望着未来有一天,也能突破“常识”与“规则”,去挑战更本质的问题,更大的问题,那些没被解决、还不知道怎么去解决的问题。

“大概总想把身边某些智能设备给拆了,我对自己的专业方向很笃定。”

无人机,智能车,电子秒表,公交车语音播报系统,工厂流水线上的自动化设备……一切在这个世界里按照某些书写规则在自动运转的东西,巩力铜都有好奇一探究竟的冲动。

像是找到了某个人生的入口,年少时的自我发现与确认,让他从未对专业选择有过踟躇和迷茫。

高三毕业的时候,他报了山东大学电子信息专业,并在此后的大学4年里,乐此不疲地进行着创新创业比赛,捣鼓出一个个如电子血压计、“跳一跳”物理外挂、自动走迷宫的智能车等小件儿和大件儿。

大三下学期,他入选了学校的崇新学堂,这是一个崇尚创新和动手实践的工科实验班。当时有一个【智能车自动走迷宫】的课题,用于做实验的车国外已经停产,而需要使用唯一这辆车的同学有近乎 30 个。

那怎么办呢?巩力铜和室友花了半年时间,居然自己造了一辆性能完全逼近的同款。

儿时拆遥控汽车的记忆涌来,他感觉得到自己每根神经都在亢奋。这辆可以自动避障的智能车,拥有着极高的感知能力系统,以及各类精巧的控制设备,想要在没有原厂支持的情况下复现同样的性能,难度近乎为不可能。巩力铜从淘宝上买来陀螺仪、声呐、蓝牙连接器等各类零件,自己尝试写各类驱动程序,把它们组装在一起。再然后……他就炸机了,端口被烧毁,零件部分失灵,一大堆铁皮晾在那里,仿佛宣告着凉凉的结局。

卷土再来,巩力铜细细审查整个操作系统,判定声呐是最为关键和复杂的地方,需要实时计算前方所有感知的距离和障碍来和内部计算系统和通信协议相连,构建智能车的行驶地图。在老师提供的高精度的声呐测量设备支持下,他们一步一个脚印,稳扎稳打,小步调试,最终竟然真的仿制出了一台差不多样的智能车。

巩力铜和室友组装的智能车

在实践中学习,是他一直以来奉行的最好学习方式。比起收获一台自己造的车,这个过程中他为解决每个具体问题而付出的查阅、调试、书写等各类努力,更能帮助这个少年塑造属于他的知识体系。

“只有经历过以后,才能更准确地知道问题在哪里。”

保研到中科院计算所,巩力铜选择了 CV 方向。对于逐渐有了开发经验的他来说,读研算法又是一个新的挑战了。当然更现实的理由是,2017年他的某门课大作业做了一个招聘信息数据库,爬虫完Java、NLP、CV等各类岗位信息后,他比同批开发小伙伴更敏锐地嗅到了人工智能当年井喷似的现状。

通过他的大作业数据库,他有了新的方向

对于开发刚转算法的小伙伴们,普遍问题都是怎么学习和上手。研一的巩力铜,读懂一篇 paper 要至少1个周,帮组里的项目配环境,又得要1个周。最焦虑的一次,他半夜3点多睡不着急匆匆跑去实验室,一直噼里啪啦到第二天上午11点,才算是把环境配置好。“没办法,对各个模块都不熟悉,慢慢实践过后才能有感觉。”

由此,他也爱上了打比赛。每个赛题通常代表着某一个领域的具体知识实践,巩力铜在完成前期的书本和视频知识学习后,就会把自己咣当扔进比赛里,研究该方向的脉络和最新进展,并不断测试模型和实践。整个研究生期间,他打了 10 多场算法比赛。比赛结果并不重要,他通过这样的方式学习了图像检索和分类、目标检测、OCR等各个方向的知识和实践。

他一直在试图总结和复盘心得与制胜点,“比如形成一段描述,或者一个算法,关注本质的逻辑,提炼出一套自己分析问题、解决问题的经验;另外,也试图能让别人听懂和理解。”

巩力铜目前还没有任何实习和工作经验,作为一名学生,他一直攀登在知识的高峰上,精心打磨着各项基础实践技能。他的比赛大多是个人参加的,比较少形成队伍,因为单人参赛拥有着更高的自由度和学习探索空间。

非常难能可贵的是,他依然清楚地知道自己未来工作会面临的挑战,这不是一个盲目沉浸在自己成就和学习之中的学霸

没有实际工作经验,他会有一段时间需要去打磨面向用户体验和业务的视角。

缺乏团队合作经验,他会需要尝试更多沟通和融合来达到共同目标,而不是仅仅做完一套子任务。

这是一个“在什么阶段做什么事”,同时“能看清下一阶段”的少年,因而他身上没有太多同龄人迷茫型的焦虑。在手上一堆秋招 offer 里,也有着明确的选择标准和方式。

“还没决定好具体去哪家呢。但是我比较重视技术的成长性,以及业务是否核心,能够让自己发挥出能力和优势。”

当然啦,因为自己憨憨的女朋友也在北京做技术开发,巩力铜也会留在这个距离家乡就 2 个多小时高铁路程的城市。秋天的北京那么明艳,香山的枫叶是他俩最喜欢的色彩。

“未来希望能够做真正有业务价值,能够服务于社会的技术。”

在实验室里做项目,大多是纯学术性、干净的数据集,来来去去要考虑的事情是如何找到更好的模型,以及提升刷点。对于在校生来说,巩力铜觉得这次淘宝直播商品识别比赛能带给他业务的思考,是非常有意义的。

“工业界的数据集和实际应用场景关联起来了,比如这个直播带货里的主播意图识别等,提升了我们在做这个任务的兴奋感。(*^▽^*)”

在这个怀抱着宏伟技术梦想的少年心里,技术的价值最终应该通过业务体现出来,能够真正利用创新和进步推动社会的进步。我们总有那么一瞬间想知道,眼前的生活有没有一种更完美的答案?它可能是一个技术问题,是一个数学问题,是基础科学构成的我们社会生活发展的根基。

价值可以很宏大,快乐可以很微小。

夜晚12点,和同学看完电影《我和我的家乡》回宿舍的路上,巩力铜的脑子里浮现出今天见到的某个手机体验店,突然福至心灵地 get 到了某个模型更好的解法。他冲回实验室,噼里啪啦叮里哐啷折腾到凌晨3点,发现“能行”、跑得通”、“数据更好了”!

对于技术人,这种时候的爽感,大于一切的快乐。