当前位置:经济频道首页 > 国内经济新闻 > 正文

科大讯飞机器阅读理解挑战赛力压微软夺冠:水平相当6岁儿童(2)

2017-08-02 09:23:32    澎湃新闻  参与评论()人

要解决机器阅读理解的问题,传统的自然语言处理(NLP)方式是采用分拆任务的方法将其分成问题分析、篇章分析、关键句抽取等一些步骤,只是这种方法容易造成级联误差的积累,很难得到很好的效果。

为了解决这种误差,科学家们又提出了完全端到端的神经网络建模。采用神经网络的方法能够通过大量的训练数据学习到泛化的知识表示,对篇章和问题从语义层面上高度抽象化。

科大讯飞此次提交给SQuAD的模型,也采用了神经网络架构注意之上的注意(attention-over-attention,简称AoA)模型。

王士进告诉澎湃新闻(www.thepaper.cn),实际上在此次挑战赛之前,哈工大讯飞实验室在Google Deepmind、Facebook等阅读理解测试集上都取得过最好成绩。但应用SQuAD公开测试集上表现并不理想,于是他们在原创技术上根据要求进行了大幅改进。

“因为SQuAD测试是通过众包的方式构建了一个大规模的机器阅读理解数据集,答案并不只是单个词,因此直接应用我们在完形填空式问题上使用的AoA Reader等原创技术效果并不理想。后来我们针对此类问题对AoA Reader做了大幅的改进,主要思想是根据给定的问题对篇章进行多次的过滤,同时根据已经被过滤的文章进一步筛选出问题中的关键提问点,同时我们利用了多个不同类型的模型进行融合,最终在效果上有了明显的提升。”王士进说。

机器会阅读思考之后,先让它帮忙改考卷

在科幻电影《她》中描述了这样的场景:人工智能操作系统萨曼莎在得到主人公的允许后,帮助他阅读邮件资料,总结出需要保留和删除的邮件,并帮他修改信件草稿中的错字,还能与主人公探讨她喜爱的信件片段。与此同时,萨曼莎通过阅读主人公的海量信息来了解他,也通过阅读互联网上的海量数据来了解世界。

这是科幻电影给我们提供的想象:当机器学会阅读理解后,能帮助我们更有效地处理工作、生活上的事务。也许你会说科幻电影太超前,以此来作为机器阅读理解的卖点还为时尚早,但这并不妨碍,科大讯飞将其利用在自己的业务上。

据科大讯飞介绍,哈工大讯飞联合实验室不仅能让机器在阅读理解比赛中“考出高分”,还能让机器给考卷的主观题评分。以语文考试的作文为例,在阅卷之前老师们先置一套通用的打分标准,包括字迹工整度、词汇丰富性、句子通顺度、文采、篇章结构、立意等多个层次,研究人员让机器来学习这套方案后进行阅卷。这每一项标准背后都需要精密复杂的技术支持,比如手写识别、主题模型、人工神经网络等。

目前,科大讯飞的全学科阅卷技术在四六级、部分省份的高考、中考等大规模考试中进行了试点验证,验证结果表明计算机评分结果已经达到了现场阅卷老师的水平,满足大规模考试的需要。这项技术应用到正式考试中,可以辅助人工阅卷,减少人员投入,降低人工阅卷中疲劳、情绪等因素的影响,进一步提升阅卷效率和准确性。

自2014年以来,科大讯飞就提出了“讯飞超脑”计划,其中的目标之一就是要让机器人考上重点大学。这次获得成绩也是为推进这一计划的努力之一。