> 毕家门户网站>科技>中文自动转SQL,准确率高达92%,这位Kaggle大师刷新

中文自动转SQL,准确率高达92%,这位Kaggle大师刷新

2019-11-28 15:24:24作者:匿名阅读:2728

郭溥仪来自南大仙林

量子位报告

在由大通一科主办的第一届中国nl2sql挑战赛中,又诞生了一项超越国外水平的nlp研究成果。

在nl2sql任务中,比赛的最佳结果达到了92.19%的准确率,超过了英语nl2sql数据集wikisql目前86.0%的完全匹配准确率和91.8%的最高匹配准确率。

实现这一结果的团队的名字是非常雄心勃勃的。它的名字是“不到90岁不要改名”。团队成员包括国防科技大学的张晓宇博士和赛彬大师,以及翁蒂艾的王苏红。他们赢得了这场比赛的冠军,拿走了8万英镑奖金。

冠军队伍来自cmu、北京大学、清华、上海、南大、中国科技大学和其他大学的1457支队伍,以及移动、平安和搜狗等公司。复旦大学竞赛评委兼教授肖华阳惊喜地说:“结果完全出乎意料”。

然而,另一位评委兼比赛组织者刘云峰首席技术官表示,这项任务的准确性已经从比赛开始时的最佳成绩的60%以上提高到92.19%以上,超出了他们的预期。

此外,本次比赛中使用的中文数据集的难度高于维基英文数据集,这证明在同样的设置下,冠军团队的方案已经超过了国外机构在中文任务中最佳算法(state-of-the foreign institutions)的表现。

Nl2sql,即把自然语言翻译成机器能够理解的sql语句,在人机交互中有很大的价值。这个结果意味着,在92.19%的情况下,你说的话可以被机器准确理解,你想要的答案可以给出。

然后,因为机器可以理解人们的话,所以很容易从众多复杂的数据库中找到信息。

肖华阳教授表示,阻碍大数据价值实现的最大问题是访问数据的门槛太高,依赖数据库管理员编写复杂的sql,并且考虑到中文表达式更加多样化,中文nl2sql比英文难多了。

△肖华阳教授

因此,通过解决将中文转换成sql的问题,与您交谈的人工智能系统将变得更加“智能”,更容易理解您的问题和找到答案,应用程序中的智能客户服务和家中的智能扬声器将不再那么无知。

在回答中国nl2sql的问题时,冠军队的张晓宇在比赛回复中透露了实施方法:

三角洲冠军队队长张晓宇

微软dynamics 365团队的x-sql是维基sql排名中的第一个,它有一些问题。模型框架并不完全合适。colume特征在值提取中不明显,容易提取混沌。

为了解决这些问题,冠军团队提出了m-sql,将x-sql原有的6个子任务改为8个子任务,增加了3个子任务s-num、值抽取和值匹配,一次抽取查询中包含的所有值,判断值与数据库表字段之间的隶属关系。

之后,一些细节得到了改进。例如,在数据预处理中,修改了数据、年份、单位、日期和同义词,以统一查询范式。在查询信息表达方面,用xls标记代替cls标记,离线验证集的准确率提高了0.3个百分点。

使用的预训练模型是哈尔滨工业大学发布的伯特-沃姆-ext模型。

最终的结果,张晓宇感到非常满意:“我认为这台机器比我运行得更好。我诚实地说,它已经超越了人类的水平。”

“90岁不变”队队长张晓宇(Zhang Xiaoyu)是一名国防学生,也是一名竞赛爱好者,专注于nlp领域。他在2018年米杯军事阅读理解挑战赛中获得第二名。他在2019年卡格莱宠物寻找者竞赛中获得金牌,现在是名单上的卡格莱大师。

另一名玩家赛宾是他在国防科技大学的同学,而王苏红是他在卡格尔社区遇到的队友,目前是卡格尔名单上的前1000名用户。

虽然他们赢得了冠军,但这个队比其他队花了更长的时间准备比赛。当他们开始准备时,其他小组已经进行了两周。

只剩一个月了。在这个月的准备阶段,三个人每天都在网上讨论这个计划。平均来说,他们每天必须工作五六个小时。

他们对第一名的结果并不惊讶。毕竟,它已经是排名榜的第一名,它的准确性也引领了行业在这项任务中并获得了第一名。

最后,关于比赛经历,张晓宇总结得很简单:点击更多的代码,阅读更多的文章。

大通一号总部设在深圳,在北京、上海、南京、香港、新加坡和白俄罗斯设有研发团队或分支机构。

大通一号成立三年来,已完成招商资本、创新工程、陈星资本、高蓉资本和ggv资本四轮投资,融资总额7000万美元。招商银行信用卡、中国移动、中国南方电网、中国PICC和腾讯都是大通一号的客户。

从融资规模来看,腾讯的人工智能公司已经是中国自然语言处理领域的领导者。

技术上,大通一号在所有自然语言处理任务上都取得突破,并获得了coqa、cmrc2018中文机器阅读理解等挑战的称号。

在nl2sql的任务上,曾在腾讯达到t4级别的刘云峰表示,中国nl2sql在竞争前只有一个,微软只有一个。通过比赛,如果能达到拾柴高火的目的,该技术就可以推广。

“顾客那边有个钉子,但我不知道用什么锤子敲它。但是我们人工智能公司有锤子,不知道在哪里可以找到钉子。通过这次比赛,我们可以很好地将钉子和锤子搭配在一起,找到这项技术的着陆场景。”

值得注意的是,虽然这场比赛是在自然语言处理领域,但它仍然吸引了许多计算机视觉研究人员。进入决赛“老大哥带我飞”的两名队员是简历研究生。

△首席技术官刘云峰

第一轨道技术公司的首席技术官刘云峰说,当该行业登陆时,有一种多模式集成的趋势。视觉和自然语言处理的结合越来越多,需要同时处理多个信号。人机交互不仅需要自然语言处理技术,还需要视觉技术。作为一家nlp公司,Track One Technology拥有自己的视觉和声音技术团队。

“人工智能主要从事商业服务。企业不仅仅需要一个方向(技术)。当他同时想要nlp和vision时,他不会找到两家公司,因为他无法整合这两种技术。

因此,刘云峰判断,未来的首席人工智能公司必须是全堆栈人工智能公司。尽管它将拥有最好的技术,但它不仅仅将技术放在一个领域。

最后,本次比赛的数据集将于稍后公布。也许这将是nlp竞争的下一个制高点。

冠军团队计划:

https://github.com/nudtnlp/tianchi-nl2sql-top1

参考:

http://天池. aliyun . com/competition/entry/231716/introduction

https://github.com/salesforce/wikisql

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

追踪“追踪人工智能技术和产品的新发展”

甘肃十一选五 贵州快3投注 湖南快乐十分 幸运快三手机APP

 

 

 

 
 

© Copyright 2018-2019 all2bd.com 毕家门户网站 Inc. All Rights Reserved.