再见了,键盘侠与僵尸粉!Instagram推出评论过滤功能,自动删除垃圾留言

人民时讯快报 次浏览

【猎云网(微信:ilieyun)】6月30日报道(编译:蔡妙娴)

每个单词独立开来的时候都有自己的意思,但是根据语境,甚至时间,这些单词的意思也会有多变化。原本中立的词语可能充满敌意,原本敌意的话语可能中立。

人类一向擅长分析语境,但机器做不到。为此,去年6月,Facebook宣布开发了一个文本分类系统,帮助机器理解不同语境下的词语意思。

这套系统名叫DeepText,基于近两年兴起的人工智能技术“单词嵌入”(word embeddings)——也就是模拟大脑处理语言的过程。当系统遇到新词时,会模仿大脑的行为,尝试通过其他词来解析意思。

举个例子,“white”这个词在和snow、Sox、House、power组合的时候,代表的是不同的含义。DeepText能够像人类一样思考,并越来越智能。

DeepText被嵌入一个内部工具中,Facebook员工可以用它对大量文本进行分类,创建分类规则,并借此开发产品帮助用户。如果你在Facebook上搜索White Sox(白袜子),系统会很快知道你说的是棒球。如果你搜索White House,它会知道你大概想看新闻了。

几乎在DeepText开发的同一时间,Instagram高管看到了平台打击刷屏信息的机会。用户使用Instagram是为了浏览照片,但常常因为评论里充斥着机器(有时候是真人)发布的产品宣传等垃圾信息感到心烦,而最终选择离开这一平台。

Instagram的第一步是招聘一支团队,筛查评论,并将这些信息分为垃圾内容和非垃圾内容。Instagram的筛查工作好比排雷,是社交媒体公司经常使用的手段。人类可以训练机器做这些枯燥甚至说令人泄气的工作,最终也一定会做得比人类更好。与此同时,用户的页面也变得清爽多了。

筛查团队对大量信息进行分类后,其中4/5都会被输入到DeepText中,然后Instagram的工程师会开发相应算法,将这些垃圾信息正确分类。

系统会分析每个句子的语义,同时考虑信息来源。不认识的人发过来的消息一般来说是垃圾信息,你关注的人发来的则不是;哪位明星的帖子下面如果出现不断重复的话,一般都是机器发布的。

接着,系统算法会被用于测试剩下1/5的内容,看是否能够达到人类筛查员的水平。最后,Instagram终于认可了测试结果,并于去年10月推出了这款产品。自那之后,Instagram上的垃圾信息开始“消失匿迹”。

Instagram没有透露这款工具到底减少了多少垃圾信息,或暴露了多少系统内部的秘密。如果你把自己的防御系统曝光在垃圾信息制作者面前,他们会想方设法来反攻你。不过对于Instagram CEO Kevin Systrom来说,他已经很高兴了。

实际上,因为太高兴,Systrom决定派DeepText前去完成更复杂的问题:让违反Instagram社区规定的评论消失,或者用该公司发言人的话来说就是,“从精神上消失”。社区规则是Instagram的“宪法”,长达1200字,它的要求包括用户应当保持尊重,不发布裸体内容,该公司员工一直以来也以社区规则为工作指导。

于是,另一支团队又组建起来了。这支团队负责浏览评论,判断它是否合适。如果答案是否定的,那么团队成员会将其放在各种的禁言行为分类中,包括欺凌、种族歧视、性骚扰等等。这些筛查员至少都懂两门语言,分析过200多万条评论,且每条评论至少被筛查两次。

与此同时,Instagram员工也在自己的手机上对系统进行测试,相关算法诞生至少进行了多次调整:能够正确筛查信息的就留下并加以修改,反之则删除。系统会给每条评论评分,从0到1,根据评论是否有攻击性或是否合适而定。超过一定的分数,评论就会被系统删除。

今日,Instagram宣布这一系统将具备实时筛查功能。当你输入刻薄、敌意或骚扰内容时,如果系统识别区来,你的内容就会消失。这项技术将自动运用于用户的消息推送中,但如果你想关闭也很简单,点击设置中的椭圆形按钮,再点击评论就可以了。

这一过滤器目前仅支持英语,之后会开发其他不同语言,包括西班牙语、葡萄牙语、阿拉伯语、法语、德语、俄语、日语和中文。

不过,某些仇恨性评论或许会“逃过一劫”,毕竟我们所说的是无所不有的互联网啊。过滤系统的推出或许也会带来新的风险,比方说无伤大雅甚至有所裨益的评论会被系统删除。曾帮助推特开发机器学习系统以识别仇恨言论的Thomas Davidson指出,Instagram想要解决的问题难度太高了。机器是很聪明,但它们可能会被不同语言、不同语境下的词语所迷惑,Davidson开发的系统出现过许多“漏网之鱼”。

说到被漏掉的具体语句,Instagram没有给出详细回应。他们只说,会出现错误。系统评分基于原评分者的判断,而人类都是会犯错的。此外,算法也不是完美无缺的,因为训练时的数据不同,它们本身或许也存在偏见。

在问到系统是否有些“野蛮”的时候,Systrom回答:“这是非常经典的问题。如果你要求精确度,那么一定会把一些实际上非常好的内容错误分类。比方说,我是你的朋友,和你开了几句玩笑话,这样的内容是应当能够通过筛查的。我们不想看到任何不应被屏蔽的内容被屏蔽。但现实是,这样的情况一定会发生,于是问题成了:这一代价是否值得?我们不是为了阻止自由言论的,也不是让朋友之间聊然无趣的,我们开发筛查系统,是为了防止Instagram上出现恶意评论。”

如果Systrom是对的,筛查系统起了作用,那么Instagram将成为互联网上最友好的平台。也或者,人们会认为它受到过多管控,Systrom很想知道到底会出现哪一种情况。

“机器学习技术的核心在于,它比以往任何算法都更能理解语言的细枝末节,甚至优于人类。我想我们要做的是,搞清楚如何处理灰色地带,评价算法的表现,看它是否真的让平台变好了。因为如果它不能带来好的结果,我们就得把它销毁,寻找新的途径。”