智能内容安全审核产品 2023-06-25 17:29

基于深度学习技术,针对图片、视频、文本、音频、广告和审核一体机为主的内容安全服务产品矩阵,能够精准的识别色情、涉政、暴恐、广告等危害国家网络信息的内容。

内容安全审核系统( Content Audit System,CAS)产品架构包含了6大部分,自上而下分别是入口层、应用层、网关层、业务层、平台层和基础层,涉及了内容信息安全领域的图片安全审核、视频安全审核、文本安全审核、音频安全审核、广告安全审核和软硬件集成审核一体机。

1. 产品功能

1.1涉政检测

自研视觉智能安全引擎结合舆情监控分析体系,精准识别各类场景中的涉旗涉徽、政治人物、军装武器、暴乱游行、恶搞漫画、反动人物等涉政内容,帮助平台及时响应法律要求,规避内容风险。

1.2涉黄检测

通过神经网络算法和实时更新的海量数据样本库,精准识别淫秽视频、色情漫画、儿童裸露、低俗动作等涉黄内容,有效降低人工审核成本,适用于各类社交、媒体、电商平台,帮助平台规避涉黄潜在风险。

1.3恐暴检测

基于神经网络算法和全面的恐怖、暴力和血腥的标注数据集,精准识别恐怖组织、邪教集会、枪支刀具、血腥暴乱、车祸现场、肢体残缺、坦克武器、ACG图片等,帮助企业规避信息内容涉恐涉暴的潜在风险。

1.4广告检测

通过人工智能技术,将丰富的广告数据训练样本集,精准应用到识别二维码、水印、条形码、文本、头像、榜单、横幅、弹窗等广告内容,帮助客户去掉垃圾信息的烦扰,还原干净的办公和生活环境。

1.5语音检测

基于自主算法且融合GAN、RNN、NLP等模型,构建了复杂的语音模型和声学模型,从而规避单一模型的误杀和漏杀,能够精准识别音频中含有的娇喘、呻吟、耳骚、喊麦等违规内容,支持萝莉音、御姐音、大叔音、青年音、老年音等多种音色标签。

1.6文本检测

积累了千亿级海量样本库,百万级违规词库,数百种语义标签,精准的识别各类场景中涉政、色情、辱骂、违禁和广告导流等文本内容,其中包含了污辱、谩骂、诋毁、淫秽、污秽、色诱、文爱、赌博、刀枪、毒品、造假、贩假、水贴、刷屏等破坏网络文明环境的垃圾文本内容。

2. 产品优势

2.1简单易用

通过视频结构化和多模态识别技术,解决了复杂场景下内容安全审核的问题,避免错误识别,满足用户简单快捷的操作使用。

2.2准确率高

行业领先的深度学习算法,大规模数据样本训练,结合先进的图形图像算法,精准的识别违规内容。

2.3节约成本

全天24小时在线审核服务,人工智能精准识别,毫秒级审核结果响应,极大的降低人工审核成本。

2.4客户定制

针对客户的个性化需求,提供一对一的算法定制运营,可快速迭代更新,服务于客户的不同业务场景。

2.5灵活部署

系统不局限于单一审核场景,采用模块化的设计,像组合积木一样把不同的场景连接起来,做到灵活的适配,快速迭代更新。

2.6云边协同

通过网格区域化获取云端资源,控制台按需提供计量,边缘计算以分布式内容审核,减小传输延时,提高网络监控效率,满足终端海量内容实时审核。

3. 技术能力

3.1技术架构

本系统基于微服务架构,Docker容器,K8s编排,既满足公有云资源管理,又满足私有化安全部署 。核心模块分为三类:业务模块,基础组件模块和云计算模块。业务模块是总体技术平台中的核心模块,负责内容审核的具体业务实现,包括Django框架、前端、业务端、机审Mock模块、算法调度模块。基础组件模块,包含Nginx模块,Kafka模块,Ceph模块,Mysql模块、Redis模块和FTP服务。云计算模块Kubernetes是容器集群管理系统,是一个开源的平台,可以实现内容审核平台的自动部署和运维等功能。

3.2AI能力

内容安全审核系统( Content Audit System,CAS)AI审核基于领先的深度神经网络训练而成。尤其是人脸识别算法由博视未来公司MLab实验室研发的DeepVAC-FACEID SDK,该SDK基于困难样本的特征聚合算法和海量数据训练。在人脸识别的各个核心技术环节,如人脸检测、关键点定位、特征提取与比对等方面均达到业界先进水平。基于上千万张人脸训练图像、在不同肤色、年龄、性别人群的1:1和1:N比对场景上均有优势。常规的IPC监控场景中,在错误接受率(FAR)为万分之一时,正确识别率(TAR)为98%以上,识别准确率处于行业领先。

3.3核心设计

机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识 结构,使其不断改善自身的性能,是人工智能技术的核心领域。而深度学习是建立深层结构模型的机器学习方法,典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。 内容安全审核系统( Content Audit System,CAS)的机器学习策略管理模块的数据表记录了机器学习底库素材,机器学习阈值数据表记录,机器学习审核阈值设置数据,机器学习正确率统计表。