导航：手游大全 > 科技资讯 >

Google发布超难问答数据集“自然问题”：30万对问答，BERT都达不到70分

发表于：2024-04-30 作者：游戏编辑

编辑最后更新 2024年04月30日，郭一璞发自凹非寺量子位报道|公众号QbitAI世界上最大的冰盖在哪里？Google现在想到了一个办法能让AI来回答这个问题，他们开放了一个名叫自然问题（Natu...

郭一璞发自凹非寺

量子位报道 | 公众号 QbitAI

世界上最大的冰盖在哪里？

Google现在想到了一个办法能让AI来回答这个问题，他们开放了一个名叫自然问题（Natural Questions, NQ）的数据集，能够训练AI阅读维基百科，并找到各种开放领域问题的答案。

就拿“世界上最大的冰盖在哪里”这个问题来说，在维基百科“Ice sheet（冰盖）”词条，看到“Antarctic ice sheet（南极洲冰盖）”这个部分的时候，找到了相关的一个自然段的描述，这是该问题的长答案。

之后，从这一段中得到“南极洲是世界上最大的冰盖”这个消息，于是找到了短答案：

南极洲。

另外，还有一些问题是直接用长答案回答的。

比如说，“汉语里的“中国”是什么意思”这个问题，答案在“Names of China”这个维基百科词条里，以一段话的形式解释。

整个数据集包含三个部分：

1、超过30万组问答，其中训练集有307,372组问答，包含152,148组长答案问答和110,724组短答案问答；

2、开发示例问答，包含有7830组“一问五答”的问答，也就是同一个问题，找五个人分别从维基百科中寻找答案，以此来衡量QA问答系统的表现；

3、测试集有7842组问答。

整个标注的过程中，需要标注者阅读整个维基百科页面，看看有没有这个问题的答案，之后一方面要找包含所需信息的长答案自然段，另一方面要从中找一两个单词或词组作为短答案，整个数据集的精确度超过90%。

数据集中所有的问题都是用户在使用Google搜索时提出的，QA问答系统需要阅读整篇维基百科相关词条的文章，也不一定每个问题的答案都能找得到，因此NQ要比以前的QA数据集更具挑战性。

另外，Google还为这个数据集定制了一个排行，衡量不同算法在NQ数据集上的表现，目前，无论是长答案还是短答案，BERT都处在排行榜上的领先位置。

当然，因为数据集刚刚推出，现在参赛选手比较少，只有Google自家的两个算法，BERT和DecAtt-DocReader。

不过，在这个数据集上，两个算法的表现跟人类相比还有不小差距，人类搜寻长答案的F1分数是87%，比BERT高了十几个百分点；搜寻短答案的F1分数是76%，比BERT高了二十几个百分点。

最后，这个数据集相关的论文Natural Questions: a Benchmark for Question Answering Research已经发表在了TACL上。

传送门

NQ数据集

https://ai.google.com/research/NaturalQuestions

论文：Natural Questions: a Benchmark for Question Answering Research

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

GitHub

https://github.com/google-research-datasets/natural-questions

作者系网易新闻·网易号“各有态度”签约作者

—完—

2018中国人工智能领航企业

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

喜欢就点“好看”吧 !

手机游戏巴士