当前位置:经济频道首页 > 正文

5个人2年时间 腾讯写稿机器人写得怎么样了?(2)

2017-04-18 16:41:10    第一财经  参与评论()人

写稿机器人DreamWriter,究竟是如何写出一篇新闻稿件的?

刘康表示,从文本的角度,机器写作实现从0到1,是相对简单的,例如,用技术团队简单做一个财报系统,或是给体育赛事做一个基本的描述这类模块化的写作,但是如何从1到3, 让机器人的稿子写得有“人情味儿”、对细节描述更加到位和精彩,花费了相当多的精力。

以写跳水新闻为例,这是一个评分制的比赛,评委对于走板、空中姿态、落水姿态、水花等等每个动作的打分,都有详实的数据被记录在数据库里。接下来,这些数据会被腾讯通过一定的算法和机器自己的识别——先让机器跑几十万篇的数据,跑一个规则出来,它会自己把这些数据重新还原。因为每一个分数都可以还原成一个动作,这样通过一定的算法把它还原成原先的场面就变得可行。

刘康提到,其实竞争对手也有很聪明的写稿机器人,不过对方的做法是抓直播间的描述,通过一定的算法和逻辑拼接成一篇文章,而腾讯写稿机器人DreamWriter不一样,是基于特别细颗粒化的数据进行还原。

“今天数据量非常细,细到可以描述到每一个数据的颗粒还原。”刘康说,“比如足球的一个动作怎么记进数据库里面,射门包括射偏、打中立柱、高出立柱……这些都可以用数据还原。 ”

而在写稿机器人背后的核心技术,主要涉及的有包括智能撰文技术、内容抽取技术、要闻萃取技术这三项。目前腾讯已经获得相关专利。

以内容抽取的技术为例,Dream Writer可以把一篇千字文章概括为数百字,其中涉及到统计学、深度学习等技术。在财经领域,写稿机器人更依赖统计学,但在其他内容领域,腾讯可能需要单独研发一款算法产品模型。

此外,针对写稿机器人所写的稿件,腾讯成立了一个专门的安全管理平台进行内容风险管控:第一轮,机器写作时会单独做一个算法和规则判断机器写的有没有问题;第二轮是经过安全审核;第三轮才能正式推出来。这中间衔接时间越少,意味着出来的作品既准确又迅速。

做一款和头条相反的产品

刘康对记者透露,目前DreamWriter在财经、科技、体育等领域的常规撰文、批量撰文已经开发完成,这款写稿机器人未来一年甚至更长的时间的工作重点,主要在于持续进行优化文本,并且将内容生产领域从目前的科技、财经和体育扩充到全品类。