查看原文
其他

科学匠人|白静:拥抱变化,不断发现计算机科学中的新天地

微软亚洲研究院 微软研究院AI头条 2022-10-08


(本文阅读时间:11分钟)


编者按:在计算机领域,研究与产品的关系往往十分微妙。一方面,二者相辅相成、互相推动;另一方面,它们追求的目标又不尽相同——产品需要精确的 KPI 及短期落地目标,研究则更注重宏观的、长期的影响力。今天科学匠人的主人公,微软亚洲研究院首席研究员白静博士在产品与研究领域都深耕多年,她希望自己的研究能成为这两个领域之间融会贯通的纽带。在她看来,让研究成果与产品产生共振,进而推动彼此进化,是研究的价值所在。


从蒙特利尔大学博士期间从事信息检索(IR)和自然语言处理(NLP)的研究,到加入微软硅谷研发中心推动多个重要产品落地,再到微软亚洲研究院带领系统和算法等新领域的研究,微软亚洲研究院首席研究员白静的职业经历看似是“研究-产品-研究”的轮回,但实际上却是她在计算机科学领域的不断“螺旋上升”。每一次转型,她都将自己的工作惠及更多产品和用户——无论是将创新研究转化为用户最满意的产品,还是以产品需求为驱动力投身于研究,都是如此。

微软亚洲研究院首席研究员白静

从全局和长远视角做研究,创造全新机会不断激发产品潜力

2019年,白静从微软 Azure AI 团队加入了微软亚洲研究院。尽管此前她在 Azure AI 和微软必应(Bing)团队潜心研究机器学习和自然语言处理,但这次她希望挑战业界还未深入涉足并且能在微软产品中获得充分应用的领域——图深度学习(Graph Learning)。对于一直喜欢挑战未知的白静来说,这是一个足够“新”,且成果值得期待的领域。

“当时深度学习技术已经很流行了,但大多被应用于自然语言处理、计算机视觉等领域,在图学习领域还没有被广泛使用。微软的许多产品都与图相关,该如何将机器学习的热门技术应用到图领域,进而提高微软产品的性能和效率?”这是白静初入微软亚洲研究院时就在思考的问题。

在白静看来,图(Graph)作为一种通用数据结构,可以清晰地表现出多个元素之间的有机关联。在微软的很多产品中,图有着丰富的应用场景,例如 Office 的企业图谱中,用户与繁多的会议、文档、邮件之间的关联;领英(LinkedIn)的社交网络中,复杂的社交关系和给求职者的职位推荐;Ads 广告业务中,广告主与受众需求、点击预测、关键词之间的关系,以及大规模知识图谱等,这些隐藏在众多产品中的有机关联,在广义上都是图结构。

2019年底,在微软亚洲研究院院长周礼栋的协助下,白静团队主导并在微软公司内部成立了图神经网络工作组,为公司提供了一个从研究到产品的全局视野平台,以及和图学习相关的工具、算法,便于研究、产品、工程团队的跨部门协作、沟通和知识共享,从而提升图学习效率,促进系统和算法的研究创新。这一工作组的构建结束了各部门图深度学习研究和应用“各自为战”的局面,将“百花齐放”的算法统一在一个高效的平台上,不仅有利于激荡新思路,找到正确的研究方向,推动大规模的图学习应用和技术进步,还能将图学习算法上的创新成果快速迭代应用在相关的产品中。

两年来,白静与公司多个部门合作创新图深度学习算法,探索适合的应用场景。她带领团队与微软广告、Office、Azure 及 LinkedIn 等多个团队展开积极的合作,并将图学习算法应用到不同的产品中,提高了多个产品的运营效率,给公司业务带来了直接的商业效益。她说,“我们希望通过这些合作来带动核心研究,进一步提升平台和算法的性能和效率,继而推动全公司更大规模的产品和应用,而不只是某个单一产品。”

图深度学习及其应用的全局展示

虽然研究创新的最终目标之一是服务于产品,但是在“研究—产品—研究”的迭代中,白静认为,相比于产品快速落地的诉求,研究需要有长远和全局视角。她说,“每个产品的需求不尽相同,而我们做研究是希望尽可能把全公司的产品都推动起来,建立一个系统性的长期规划,这正是做研究和做产品的区别。”而这也是白静选择加入微软亚洲研究院的主要原因,“我希望可以从更广阔和长远的视角来思考研究问题,从个性化的产品需求中抽象出共性问题,从更底层赋能众多产品的研发和最终成果。”

深入一线的科研人员如何理解研究与产品之间的联系


白静对于研究与产品间相辅相成关系的深刻认识,来自于她多年在这两方角色转换的切身体会和经验积累。如何跳脱固有的思维框架,站在更加全局的角度思考问题并非易事。

在蒙特利尔大学获得计算机科学博士学位后,白静被硅谷多元开放的文化和创新热情所吸引,同时她也希望可以将自己的研究成果转化到产品中,服务千万用户。怀揣这样的理想,白静在2010年加入了微软硅谷研发中心,任职高级研究科学家。彼时微软正布局拓展搜索引擎业务,而白静的研究方向正好是信息检索,这让她的研究有了用武之地。

也是在这一时期,白静与微软中国团队“结缘”。2012年她受邀参与了新一代搜索引擎系统的研发工作,新系统采用了全新的网页索引结构和系统设计。作为微软必应搜索相关性的主要贡献者之一,白静敏锐地发现学术界前沿的诸多语义检索方法可以赋能新系统,从而给搜索相关性带来突破性创新,而这正是传统搜索引擎所不具备的。由此,她为微软必应开创了全新的语法语义搜索算法框架(Semantic Ranking Framework),并研发出了基于 PDI(Per Document Index)正排前瞻索引的一系列大规模语义模型,实现了全文语义检索,进而显著提高了必应搜索结果的相关性。此后多年,这项成果一直都是提升搜索相关性的最有效技术之一,许多相关模型应运而生。该项目也受到当时多位微软公司高管的高度评价,并通过微软的产品服务于上亿用户,同时还获得了多项国际专利。

语义搜索算法框架

在实现了全文语义检索的基础上,白静进一步思考能否通过更精确的用户意图分析,让搜索引擎直接给用户提供想要的答案,而不仅是列出相关网页链接。为了实现这一目标,她提出了深度搜索的构想,利用互联网动态信息和人工智能算法直接生成用户满意的答案。这个想法得到了当时微软全球执行副总裁陆奇的支持,一个新项目由此诞生。由于原算法的搜索结果包含的网页数量巨大,再去检索网页中相关度更高的信息,搜索空间会呈指数级增长。为了解决如何从海量的网页中匹配出用户需求这一问题,白静和团队首创了基于全网的大规模段落检索系统(Web-scale Passage Retrieval System),大胆地引入和改进了学术界前沿的研究成果,实现了从网络内容中直接生成搜索答案的目标,并推动了该系统在微软必应中的成功运用。该系统的上线开创了微软搜索引擎智能化的新方向,这项成果也成为了必应 AI 计划的第一个重要里程碑。

基于全网的大规模段落检索系统

随着计算机技术的不断发展,云计算和 AI 时代的到来吸引白静加入了微软 Azure AI 团队,迎接一个新的挑战——如何利用 AI 技术自动设计出更高效的深度学习模型。她带领团队与微软雷德蒙研究院合作,研发了 Azure 第一个适用于机器学习模型的自动化超参调优产品“HyperDrive”。该系统可以将用户从手工调参的繁琐工作中解放出来。正式上线仅半年,“HyperDrive”就成为了当时 Azure ML 中流量最大的产品,服务于第一方和第三方用户,在智能性和通用性上都处于业界领先地位。

在这几个重要产品的研发过程中,白静的工作都聚焦在产品与研究的有机结合,这让她更加深刻地理解到研究与产品之间的关联和差异。她认为产品和研究各有乐趣,“好比盖房子,产品开发可以聚焦在房子的具体建造,不同的产品部门分工合作,各自将某个房间或局部打造到极致,确保其准确和稳定,却往往没有很多机会跳出来思考;而研究工作则可以从全局视角思考整个房子的设计和构建,实现不同布局之间的融会贯通,甚至可以开创超越传统的设计,这样才能提供超出用户想象的最佳体验。”

“其实,从研究到产品不只是简单的产品落地,更多的时候需要从产品的角度重新审视研究成果,看它们能否给产品带来预期的效果。这需要我们结合研究和产品开发的双重洞察力,从多个不同视角和维度去思考问题,并不断积极主动地寻求解决问题的方案,”白静说。正是这种研究和产品有机结合所产生的独特价值激发了白静的热情,使她在工作中保持着极大的好奇心。她相信研究和产品应该相互推动彼此进化,只有将它们很好地融合在一起才能使效益最大化。

计算机科学的常态是变化,这是它最具吸引力的所在


如今,在微软亚洲研究院包容、开放、多元的研究氛围中,白静有了更大的施展空间,虽然工作重点从产品开发变成了科研创新,但对如何让研究产生更大价值的追求始终如一。她想让自己变成研究与产品之间的纽带,既可以沉浸于抽象、共性课题的研究,也可以与不同产品组合作进行成果转化。

过往项目的成功经验让白静深切体会到了跨团队、跨领域合作的优势,她清楚地看到,“团队合作的本质就是优势互补,创造双赢局面,从而达到事半功倍,1+1>2的效果。只有集思广益,突破传统的思维和认识,才能不断地实现跨界创新。”现在以研究员的视角与产品组合作,白静会更多地鼓励团队做核心技术的研究,用开创性思维拓展技术的边界,be bold and be creative(大胆创新),从不同的角度提供新鲜的灵感,给产品带来本质的提升,从而更好地激发产品组合作的积极性。


从搜索引擎到 AI,再到图深度学习,每一次的岗位变换都是在寻求新的挑战并不断超越自己,但白静并没有感到走出“舒适圈”的迷茫与困惑,反而更多地增加了探索新领域的新鲜感与好奇心。对此她表示,“不要抵触对新领域的陌生感,因为过往沉淀的方法与经验,可以让你快速适应变化。就像计算机知识会过时,但其核心和本质却万变不离其宗,比如过去我们研究了多年的 NLP,尽管现在有了 BERT、GPT 等新技术,但是我们之前积累起来的研究方法依然有效。”

在白静看来,计算机科学的常态就是变化,而这也是它最具吸引力的地方。就像业余时间,她喜欢通过旅行见识不同的文化和风景,新的变化带给白静的是新的景观和由此而激发出来的新的热情和动力。“在计算机科学领域,你永远不用担心一直重复做同样的事情。因为这里永远不乏新鲜感,而且能深切体会到你是真的在改变人们的生活,”白静说。






你也许还想看



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存