当前位置:经济频道首页 > 国内经济新闻 > 正文

科大讯飞机器阅读理解挑战赛力压微软夺冠:水平相当6岁儿童

2017-08-02 09:23:32    澎湃新闻  参与评论()人

近日,科大讯飞(002230.SZ)与哈工大联合实验室(HFL) 提交的系统模型,在斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)挑战赛当中取得了第一名的成绩。这也是中国本土研究机构首次取得该赛事的榜首。

科大讯飞在斯坦福大学发起的SQuAD挑战赛中取得第一名

科大讯飞AI研究院副院长、哈工大讯飞联合实验室副主任王士进告诉澎湃新闻(www.thepaper.cn):“对机器来说,记忆海量知识并进行浅层推理,是一个相对较容易的工作,之前很多相关的工作证明了机器不比人类差,但精准的理解并实现推理,是一个相对更难的任务,为此目前全球最优秀的AI团队都在进行类似的研究。”

据王士进介绍,2015年5月,哈工大讯飞联合实验室开始启动研究机器阅读理解技术,是国内较早启动该项研究的团队。随后该团队又启动了内部项目 “六龄童阅读理解”,期待机器在认知智能上达到六岁儿童的智力,希望通过颠覆式的技术创新,做到机器看文章能够做出理解、推理和求解。

从众多外国研究机构手中拿下第一名

说到斯坦福大学发起的SQuAD测试,它被外界誉为“机器阅读理解界的ImageNet”。诸多来自全球学术界和产业界的研究团队都积极地参与其中,在科大讯飞今年获得第一名之前,微软亚洲研究院的自然语言计算研究组持续稳居榜首。此外,包括艾伦研究院、IBM、Salesforce、Facebook、谷歌以及CMU(卡内基·梅隆大学)、斯坦福大学等在内的全球自然语言处理领域的研究人员,都在共同推动着自然语言理解的进步。

SQuAD挑战赛通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题),将一篇几百词左右的短文给人工标注者阅读,让标注人员提出最多5个基于文章内容的问题并提供正确答案,短文原文则来源于500多篇维基百科文章。参赛者提交的系统模型在阅读完数据集中的一篇短文之后,回答若干个基于文章内容的问题,然后与人工标注的答案进行比对,得出精确匹配(Exact Match)和模糊匹配(F1-score)的结果。

根据SQuAD此次公布的结果,科大讯飞与哈工大的联合实验室提交的系统模型取得了精确匹配77.845%和模糊匹配85.297%的成绩,位列世界第一。