随着互联网的飞速发展,网上社交媒体、直播、短视频每日上传的图片超过10亿张,发文数量超过5亿条。不少色情、暴力等内容成为各大网站头疼的问题,聘用大量的人工鉴黄师也为企业增加了许多负担。近日阿里AI鉴黄师上线,一天能鉴数亿张图片,还支持鉴别语音、视频等,可分辨多国语言以及东北等地的方言。
据悉,2015年10月,阿里巴巴“绿网”上线,用人工智能识别网络上包括色情、暴力在内的违规信息,阿里AI鉴黄师应运而生。再通过大量的图片“喂养”,让它不断的学习。阿里巴巴安全部高级算法工程师威视介绍:“最初在获取样本时,我们筛选了近2000网站、6000多万色情图片,经过去重,标注1300多万张高质量的色情图片,可以说这是AI鉴黄最重要的一块基石。”
据悉,目前阿里AI鉴黄师每日可鉴别数亿张图片,识别准确率高于99.5%。还可鉴别语音、视频内容,可支持中文、日文、英文等多国语言,还支持东北、四川、广东等地方言。无语义的呻吟声也能识别出来。在实际应用中,如人工一天鉴别1万张图片的话,4亿图片就需要4万人。而AI鉴黄只需将其中20万张可疑的图片筛出来,由人工再审一道,这需要20人即可。
阿里安全部产品专家念夏还表示AI鉴黄并不能完全取代人工鉴黄,相比人工审核,机器还很难理解内容背后的深意。“最佳的审核方式是智能为主,人工为辅。人工鉴黄师群体数量少了,目前主要做打标和审查可疑图片的工作。”