当前位置:经济频道首页 > 经济要闻 > 正文

7亿活跃用户背后 Instagram要过滤社交媒体“污水池”(3)

2017-08-21 09:08:46    第一财经APP  参与评论()人

从互联网上删除不当言论一直是人类的工作,但是人工智能技术的应用使机器在这方面更胜一筹。

2016年6月,斯特罗姆在访问网红节VidCon的时候,Facebook推出了基于机器学习的文字理解引擎DeepText。DeepText运用了词嵌入(word embeddings)的理论,其中包含多种深度神经网络体系结构,可实现文字级别和字符级别的学习。当系统遇到新单词时,便可根据周围的其他单词推断出新词意义。分类引擎分析的数据越多便越发智能。像人类一样,可随时间的推移学习得更多;与人类不同的是机器学习不眠不休。

可以从这样一种角度理解DeepText的运作方式,它就像一颗全部记忆被清除的成年人的大脑,随时可被分配语言学习任务。Facebook就像拥有能为其工程师所用的装满大脑的冷冻室。其中一些可用来识别信息用户是否需要出租车,另一些用来指导用户如何在Marketplace上卖自行车。

了解DeepText后,斯特罗姆意识到工程师团队也可在Instagram上进行识别垃圾评论的训练。如同小孩学习语言一样,首先需要有人来教。所以斯特罗姆召集了一个团队负责分类平堆积在平台上的大量垃圾评论。

通过标注垃圾邮件与非垃圾邮件并导入DeepText,机器学习学习后很快能够分清语料内容到底是“金砖国家欲提供真正的经济合作伙伴关系”还是朋友之间的“回粉”。当系统能够足够准确地区分出垃圾信息时,Instagram才在去年11月秘密上线了这项功能。

随后,斯特罗姆产生了更大胆的想法:机器学习能够区分出字面背后的深意呢?如果一句话中没有粗鄙的字眼,但可以被歪曲出并不友好的引申含义,这样的双关语能否通过技术的手段进行分类呢? 斯特罗姆的团队仍然任重道远。

Instagram约有500名员工,相比其庞大的用户量,体量较小,用不恰当的方法计算,每名员工大约要负责150万个活跃用户。负责“训练”机器学习语言过滤的团队也很小巧,在《连线》记者6月下旬前去拜访时,办公室里只有20人, 桌椅板凳挤挤挨挨,废纸零星分散在各处。这支年轻团队人员构成也颇具多样性。他们的工作是通过评论判断用户是否遵守Instagram的“In Spirit”(注重精神)的社区准则,这项准则在2012年被首次提出,Instagram同时也出具了一版可供用户查询的1200字的准则(其想要传达的意思简言之就是:时刻保持尊重、穿好自己的衣服)。而在上述员工手中还有一份秘密的细则,用来判断用户的表现是否合规,评论评估人员至少掌握两种语言,他们已经分析了超过200万条评论,并且每条评论被评估了不止一次。

关键词:社交媒体AI