除了对他本人的技术研发之路有了更深的了解

2020-12-24 11:48

几个月前,ai 前线策划了一篇文章,题为《都说聊天机器人已死,为什么腾讯还要打造自己的智能客服?》,在这篇文章中,曾深入讨论过智能客服/问答产品和 nlp 技术的技术难点、解决思路、商业化落地的途径和未来发展,在极客邦科技主办的全球人工智能与机器学习技术大会-- aicon 2018上,极客邦科技有幸再次专访到腾讯数据平台部高级算法研究员陈松坚,除了对他本人的技术研发之路有了更深的了解,陈松坚也分享了许多有关 nlp 发展瓶颈以及技术趋势的看法。

自然语言处理被称为人工智能皇冠上的明珠,为了它,无数研究人员为之辛勤钻研,陈松坚就是这其中的一员。2009年,还是研究生的陈松坚选择了 nlp 作为自己的研究方向。为了这个选择,他与自己作了一番斗争。

陈松坚比喻说:“我认为,‘对知识表示的建模,是目前 nlp 乃至 ai 技术发展的瓶颈’,如果说 nlp 是皇冠上的明珠,那知识表示就是其中最大的一颗。”

※以上所展示的信息来自媒体转载或由企业自行提供,其原创性以及文中陈述文字和内容未经本网站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果以上内容侵犯您的版权或者非授权发布和其它问题需要同本网联系的,请在30日内进行。

他认为对于开发者来说,首先,“要尽早搞清楚业务的需求”,不同行业的问答解决方案很可能会涉及到不同的技术点,而且不同的业务场景对准确率指标的要求也不一样,这个也会影响算法落地的侧重点。比如腾讯小知最早接入的公安行业,知识库就特别复杂,分支条件很多,因此需要大量使用知识图谱来补全 faq 机器人的问答死角。

从业近十年,陈松坚也积累了大量的实践经验,在采访中他也毫不吝啬地将这些经验分享给了有同样困扰的开发者:

“强化学习在多轮对话中的应用”也是陈松坚重点关注的技术趋势,主要是在特定场景下进行对话策略的学习,例如订票订餐任务、商品推荐等。他认为,目前主流的任务机器人都是基于槽位填充的方法,对话策略主要基于事先约定的规则,不够灵活,而强化学习可以通过结合端到端模型来实现对话策略的灵活调整,并且能够实现在线学习,使得多轮对话模型可以持续优化。

考虑到 saas 场景下用户能够提供的训练语料非常欠缺,陈松坚和团队因此特地引入了迁移学习的策略来对应解决语料不足的问题。事实证明这些安排和策略都取得不错的效果。

他解释道,在腾讯小知刚起步的时候,团队里对深度匹配模型的经验较少,而又由于业务上线的进度比较紧迫,因此选择双线作战,一边开发基于传统机器学习模型(xgboost)的线上系统,另一边进行深度语义匹配模型的论文复现、调优和工程实践。

人工智能领域有这样一句名言:解决了 nlp 的难题,也就解决了 ai 领域80%的问题。从对话机器人 eliza 开始,人们就对“会说话的机器”出奇的着迷,随着人工智能技术的进步,越来越多的人投身自然语言处理(nlp)的研究中,为了开发出智能、易用的对话机器人而不懈努力着。

能够带领腾讯小知的算法团队,从零开始一步一步地建设这种面向行业的智能问答解决方案,让陈松坚倍感欣慰,一方面需要快速响应业务的需求,快速实现和上线新功能,切实解决客户提出的问题;另一方面又必须紧跟业界和学界最新的技术,并积极寻求实施落地的路径,陈松坚说,从个人角度来说,这是最有成就感的事情。

虽然长势喜人,但说起腾讯小知的成长历程,陈松坚还是发出了一声感叹:万事起头难。

从当时比较现实的角度看,算法或许更好就业,于是陈松坚选择了机器学习、nlp、计算机视觉、数据挖掘等几个方向作为备选。至于为什么最终选择 nlp,陈松坚说,主要是因为考虑自己当时对搜索引擎比较关注,尤其是智能搜索技术;而从理想的角度想,他说自己从小比较喜欢机器人,一直有个梦想开始建造自己的机器人系统,而 nlp 是其中的不可或缺的部分,于是也就自然地做出选择了。

兜兜转转过了十年,陈松坚也早已成长为一名专业的研发人员,但是手里的工作还是转回到了 nlp 相关的项目上来 -- 即腾讯小知,他开玩笑的说:或许是内心的召唤让自己重回智能对话这个研究领域。

第二,“要注意测评数据集的准确构建,尤其是线上环境的测试数据的收集”,需要保证线下实验能对齐模型在线上环境的效果。另外就是跟业务关联的评价体系的构建,这样才能朝着正确的方向,稳定地迭代优化。

而 nlp 问题往往需要更高级的方法,因为在语言理解中涉及到大量的上下文,而除了一般意义的语言上下文,更重要的是外部知识上下文。这对应的就是认知智能的范畴,即如何帮助机器人构建概念世界,并作用到 nlp 的处理过程中。

所以,他本人与研发团队思考的方向也是诸如:是否可以将所有概念和关系都利用深度学习技术向量化,以及如何将规则也使用模型表示等问题。

他说:“ai 领域目前解决的问题,使用的都是模式识别的方法”。进一步解释的话,就是通过大量的训练数据去找到数据内里的模式,然后再应用到实际数据的识别上,比如说语音的识别,图像的识别等,对应的是感知智能。

※有关作品版权事宜请联系中国企业新闻网:020-34333079 邮箱:cenn_gd@126.com 我们将在24小时内审核并处理。

他解释道,目前的知识都是基于符号表示的,比如知识图谱是利用了图节点来表示概念,关联边来表示概念之间的关系,但总的来说还是一个符号系统,所有的操作还是符号的检索和匹配,而跟当前的深度神经网络模型没办法有机结合。

免责声明:

腾讯小知是从去年7月开始启动研发的智能客服系统,经历1年多的核心功能打造,现已落地多个应用,日均回答百万量级。在之前的采访中,陈松坚曾说:腾讯小知目前落地在政务、零售、服务等多个行业,上线时间仅2个月,已落地了数套成熟行业解决方案,成长势头很好。