当前位置:经济频道首页 > 经济要闻 > 正文

7亿活跃用户背后 Instagram要过滤社交媒体“污水池”(4)

2017-08-21 09:08:46    第一财经APP  参与评论()人

即便是处理最具侵犯性的言论时也应注意细微处的差别。“如果你用具有种族歧视意味的字眼攻击其他用户时,将会被平台禁用”Instagram的内容营销总监James Mitchell表示:“如果你是用这样的词进行自我调侃、讲述一个故事或者是自己曾经被歧视的经历时,那么就可以不被禁言。”

评估人员对数据进行分类后,将其分类的文本中的五分之四导入DeepText。机器在学习过所有数据之后会寻找合适的模块对正常言论与不当言论进行分类。此后,Instagram的工程师们与DeepText再一同提出基于帖子内容和其他因素(如作者和评论者之间的关系)来识别负面评论的规则。该公司还使用了一个指标,主要用来描述用户历史发帖内容的质量,工程师在内部称之为“因果成绩”(karma score)。未导入DeepText的五分之一的内容将用来测试上述规则,以了解机器与人类评估的匹配程度。DeepText的打分区间在0—1,分数越高则评论越差,当超过某个阈值时,该条评论就会被删除。

用机器解决问题似乎更加纯粹,不像人类那样容易受偏见和矛盾左右,机器没有自身的情绪。尽管如此,机器依旧会在内置规则的影响下具有一定的局限性。今年早些时候,文本分析公司Luminoso的首席科学家Rob Speer基于词嵌入理论建立了一套算法,试图分析文本内容的倾向性。他用人们对于餐厅的评价作为语料进行测试却得到了意料之外的结果:人们墨西哥餐馆评价很低,而事实情况则是墨西哥餐厅颇受欢迎。后来Rob Speer通过数据挖掘找出了原因,系统是从网页上学到的墨西哥一词,而在互联网上,墨西哥一词往往与“非法”等负面词汇相关联,对于算法来说,这意味着一些不好的东西。

当《连线》杂志记者告诉斯特罗姆这个例子时,他很快就回答:“这听起来很可怕,”旋即指出,Instagram的评级不会基于这样的算法而是基于公司评估人员的判断。但是这些人也会具有自身的局限性,他们的观点将会影响过滤器的运作,进而影响到7亿用户的使用状况。

Instagram于2017年6月下旬,发布这两款新工具:自动评论过滤器、垃圾消息过滤器。目前来看用户回应似乎相当积极。其实也有人注意到,过滤器并不完美,它在理解语言表述在文化差异与双关语方面尚存问题。比如fag一词因意指男同性恋而被禁,但在英国俚语中也可以用来代之香烟。而黑人说唱歌手Kanye West的歌词也屡屡被禁,但nigga一类词其实在黑人说唱歌词中很常见。

关键词:社交媒体AI