原创南京大学人工智能学院教授俞扬:从应用出发多角度设计,可得更优算法模型
时间:2019-10-29 14:10:41 热度:37.1℃ 作者:网络
俞扬认为学会思考应用中真正面临的问题并从多角度去解决问题,这很重要。
日前,“首届中文NL2SQL挑战赛”总决赛在南京大学计算机楼里落幕,南京大学人工智能学院教授俞扬被邀请担任评委。
对于公众来说,NL2SQL是一个全新的技术方向,它是自然语言处理(NLP)与数据库查询应用相结合的一个研究方向,是NLP技术研究范畴中的小分支。因此相较于AI领域内的各大赛事,这场比赛称不上“盛大”,但俞扬认为它对学术和产业界的价值是重大的。
图 | 中文NL2SQL挑战赛
“因为近年人工智能业界的关注点多在图像(视觉)上,相对而言,工业数据库等离散信息的分析较为冷淡,所以在这个领域里,像这样与具体应用结合的比赛是有开创意义的。这一次能够有这么多人来参加,也能够引起大家的关注,是一件好事。”
作为人工智能领域知名学者兼导师,多重身份让俞扬从这场比赛中看见了很多。在会后接受采访时,他也谈到了自己因观赛而生出的对于技术发展的诸多思考并分享了有关人才培养、技术研究方向上的建议。
AI与应用结合紧密大势初显
首先,俞扬认为比赛以NL2SQL为主题,某种程度上体现了业界对技术与应用深度结合研究方向的重视,同时也是业内对技术认知日趋客观的一种体现。
俞扬指出,受到各方面因素影响,虽是AI算法与自然语言应用结合的关键技术方向,但一直以来自然语言理解(NLP)相对计算机视觉等领域没有那么火热却是事实。
图 | 南京大学人工智能学院教授 俞扬
回顾这一波AI算法浪潮我们容易发现,神经网络在视觉领域的成功应用起到了关键带动作用,随后深度学习算法渗透到了各行各业。Google Trends曾发表数据指出,受深度学习算法影响,自2015年起,“机器学习”的搜索热度一度超过了人工智能本身。
而在这一波热潮中,因视觉领域是深度学习算法最开始发力的地方,大量产业和学界的资源涌入了计算机视觉(CV)领域。作为能够解决传统数据库查询的繁琐问题、有着实用价值的一项技术,NL2SQL在此时被提出,也能够吸引更多人的目光。
“从技术层面看,NL2SQL是将自然语言转化为SQL语句的一项任务,在研究领域是一个比较新的方向。但是它不仅仅是一个技术方向,更为重要的是它可以直接对应到一些应用上面,比如财务报表数据库,有人想知道里面的某一方面信息,运用这项技术,我们就可以用自然语言去提问,机器来回答,这样会更高效便捷。”
正如俞扬提到,NL2SQL是一个技术与应用结合的产物。这场关于NL2SQL的大赛,其意义不仅仅在于对一项技术的推动,而是业内对技术与应用深度结合的重视。
从NL2SQL看技术落地
具体去看,NL2SQL是如何帮助改进传统数据库查询的?
俞扬介绍说,在过去如果想要知道数据库里面的信息,就需要有专业程序员去写一段查询数据库的机器语言(SQL);现在,NL2SQL可以将自然语言自动翻译成机器语言(SQL)去查询,然后把答案反馈给用户。
“这大大降低了数据库的使用门槛。”
以比赛中的案例来看,俞扬提到选手用自然语言提问“某地在某日的天气是怎样的”,程序可以自动将问题变成在计算机里面可以跑出结果的机器搜索语言,并查询到结果。
俞扬特别补充说,“类似这样的案例都是能够产生实际价值的,这对技术的应用和推广有着直接积极的影响。”但同时他也指出,透过比赛可以看出NL2SQL还有很大的提升空间,比如说在算法泛化能力这一普遍关注点上。
“从大的方向来看,传统的语义知识是不足以支撑商用的,更希望能够引入一些常识,引入一些数据库里面没有出现过的东西,让它能够学习判断并应用在对没有见过的一些数据处理上,提升泛化能力。”
常识在这一次比赛中被反复提起,也是人工智能想要变得更加“聪明”所必须要弥补的部分。不过加入常识这件事并不容易。
“人有很多常识,但我们往往不知道常识从哪里来。可能因为我们没有课本专门去学习常识,所以就难以界定哪些东西是在我们的常识范围内,因此一开始数据的收集就比较困难。比如鸡有几条腿、兔子有几条腿的问题,大家都知道答案,但是我们没有在课本上学习过,甚至什么时候获得常识都不得而知。而当机器要解决比如鸡兔同笼问题,就必须依赖这些常识知识。”
专业人才应当看得更为长远
当然,除了对技术发展和行业的关注,作为导师,俞扬也更加关注人才培养。
此次比赛以学生给定程序的最终搜索精度为主要评定标准,这有积极意义,自然也有其局限性。
基于过往的经验和长远的发展角度,俞扬也特别给了学生一些自己的建议,“因为是比赛,选手们希望分越高越好,不过从长期的角度来看,比赛用的方法能够得到90分,但想要拿到最后的10分,可能往往需要颠覆现有的方法。所以对于选手们来说,不要过于看重分数,而应该将更多注意力放在背后的原理上。”
另外俞扬也提到,比赛所用数据集和实际应用有差距,所以学生们要学会思考应用中真正面临的问题。一方面,数据不干净、远比比赛复杂的处理要求需要考虑在内;另外一方面,也要学会从不同角度去设计来满足客户的需求,如界面的引导帮助用户修正问题表述,以间接提升搜索精度。
“通过其他角度来辅助设计可以帮助人工智能模型避免一些问题,对于训练模型的使用是有很好的帮助,这也是实际应用设计上不可忽视的一些小细节。”
最后
近年来,NLP的技术研究带来了一些创新型研究机会,NL2SQL是其中之一。目前,Salesforce、斯坦福、耶鲁等机构提出了WikiSQL、WikiTableQuestions、Spider、SParC等大规模数据集,并得到多次评测结果的提交。以WikiSQL为例,在排行榜上有多达19次的评测结果的提交。
不过基于中文数据集的NL2SQL技术还尚待发展,追一科技与南京大学计算机软件新技术国家重点实验室联合举办了这样一场比赛,无疑对这一技术在国内的应用起了重大推动作用,这也是俞扬十分看好它的原因之一。
更多优质内容,请持续关注镁客网~