视频时代已然拉开帷幕。
根据2019年公布的数据,youtube全球月活已经突破19亿,微信也超过了10亿,可以说,视频产业已经关联到了全球的大部分人口。而随着这种使用人数的激增,用户时长和内容生产消费量级也呈现出了一个指数级的上升。在这海量的内容面前,无论是大平台还是小公司都面临着巨大的管理难度和审核挑战。毕竟在大量视频内容涌现的同时,暴力、色情内容也会随之进入互联网,成为用户视频浏览中的“定时炸弹”。
而这些大公司们自然也早有准备。2018年,facebook推出deeptext,利用深层神经网络架构理解内容。而youtube早就推出了content id,监测并删除涉及色情和暴力等违规视频,多年来总计在该技术上花费了超过1亿美元。在这个ai赋能一切的时代,人工智能似乎正在视频内容的审核中大展拳脚。甚至不少媒体都预言,ai将凭借着其对海量数据的组织能力,不久后会取代人工审核。
然而事实上,人工审核是很难被机器完全替代的。
ai审核存在两个技术难点,一个是算法准确率问题。在业内有句话,“脱离数据集来谈准确率都是耍流氓”,这就是说,用数据集训练出来的ai模型并不都能匹配实际行为,还存在用户行为偏差等诸多影响因素,即使ai审核的准确率达到了99%,考虑到用户上传的视频量,剩下1%的累计量也是惊人的。
另一个难关就是对内容的主观判断。简单来说,不是所有露骨的内容都是色情,也不是所有色情视频都有裸露,再加上视频内容中涉及到的文字、语音等多方面情景混杂,对人来说较容易判断,但对机器而言需要多个算法叠加。
要知道,ai参与视频审核并非近几年才有。早在2000年左右,就有公司在做这方面的尝试。但那时,视频审核需要人为设定特征和规则,一直等到深度学习得到发展后,视频审核才终于变得“灵活”了。但是,在视频审核上,目前业内普遍采用的仍然是“人机结合”的方式,并且人工在其中占据着重要比例。
youtube的算法工程师便曾表示,目前youtube上大部分视频仍需要经过人工审核,被审核视频一部分是ai检测出来,一部分是用户举报的,但最终都需要专业的审核师把关决定是否违规。
此外,在利用ai进行内容审核时还要注意以下三点:
一是对内容的审核需要文化意识和对相关社区标准的语境理解。尽管ai可以执行预调节,帮助减少人工审核的工作量,但人工参与仍是不可缺少的环节。
二是ai面临着公众不信任,特别是可能存在无意识的人类或技术偏见。此外,算法可能对违规内容起不到检测作用。针对此,一方面要定期分析并调整算法,利益相关者也应保证ai的透明度。
三是由于格式多样性和内容复杂度,用户生成的视频内容越来越难以分析,它们需要被解释为一个整体,以此来鉴定是否违规。为了更好地了解用户行为,及时更新违规有害内容的定义,平台和服务提供商之间最好能够共享数据集,这有利于利益相关者获得更好的文化意识和语境理解。
也正因此,目前业内有两种比较常见的“人机配合”审核方式——一种是ai将相对确定的视频进行分类,然后对部分用户做出推荐,观察用户反应,其中高热视频会人工率先审核;另一种则是ai将视频标记为“good”或“bad”,当审核师遇到标注有“bad”视频时再细致地审核,这也提高了审核效率。
比如说今日头条采取的是第一种模式。视频再得到大量推荐之前,会被机器试着推荐给首批用户,根据他们的反映,来判断你这条视频是不是值得更多的推荐。如果数据是正向的,则会被推荐给更多的人;如果数据是负向的,则会减少或者停止推荐。
而极链科技video++采取的则是第二种模式,针对目前行业面临的主要问题,结合人工智能技术,打造全栈式智能内容安全审核引擎——神眼系统,用ai技术帮助平台方减轻内容审核压力、降低内容审核成本,为客户提供一站式的智能内容安全解决方案。
未来,随着用户和内容数量的继续增长,内容审核的挑战会越来越严峻,政策相关的监管也会越来越严格,语音和视频的内容理解更加任重道远。作为时代洪流的见证者,且让我们拭目以待。
AiChinaTech