当前位置:主页 > 社科论文 > 逻辑论文 >

基于逻辑回归的敏感内容检测系统的设计与实现

发布时间:2021-06-18 13:18
  伴随信息技术的普及,网络飞速发展,越来越多人使用网络进行交互。如:在线看新闻、电子商务、在线办证等等。不仅提供了人们在生活和工作上另一种更便捷的方法,还提高了各个行业、各个部门的工作效率。但是,一些不法分子,针对网络技术的开放性、动态性、脆弱性,导致互联网的问题日益严重,甚至影响到正常社会秩序。人们越来越依赖Web站点源所带来的各种信息,政府网站发布的信息一直以来是权威的、受广大群众信任和接受的,一旦政府网站被入侵而对网民受到影响时,其权威性将会受到质疑。网络中的网页形式多种多样,针对许多Web站点上的一个问题:页面出现敏感内容。这些敏感内容(如:暴力、邪教、诈骗、黄赌毒等等)可能会影响用户的浏览体验和观感,这些都需要后台的管理者对敏感内容检测和过滤的操作,相应的,该岗位也必须具有相应语言专业基础,然而敏感词并没有显式的规则可循。因此,本文针对目前现有的方案,通过文本分析的操作,提出了一种基于逻辑回归的文本信息学习过滤模型,提取页面文字的特征为样本进行词法分析。以词频和加权的方法,来甄别该页面是否存在敏感内容。同时,该系统会在一段时间内,加入新文本重新建立新的模型,以适应新来的网络词语... 

【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于逻辑回归的敏感内容检测系统的设计与实现


网页被篡改本文从内容上入手,在网页文本上加以研究

训练语料


华 中 科 技 大 学 硕 士 学 位 论 文而变量中的概率数值并不是人为给定的,它需要一个学习的过程。对每一个概率数值,因约束条件限制而初始化为某一个数值,利用 Baum-Welch 算法[20]对其进行训练,训练需要用到已经分好词,并已知每个词词性的文章来学习。训练语料库格式如图 2-2 所示。实质上是不断执行 EM 算法[21-23],使用拉格朗日函数求导的方法求解其极大值[24],通过训练后得到一组新的三元组 = ( )。

内部链,策略管理,客户,站点


该功能提供多重条件语句查询,包括按时间戳、站称等条件。管理员通过查询功能,即可过滤到所需要的结果中率。某种情况下,快速查询能保证重点客户在紧急情况下,优敏感内容检测的有效信息。从服务的角度上,也方便对特定用续跟踪。管理模块理模块,主要有爬虫策略管理、通知模版和敏感内容检测设置处在于,该模块实现管理客户对系统检测服务的一些自定义配的配置,非客户自身身份证明的配置。虫策略管理,这里爬虫主要是以客户提供站点进行站点内部链素有:最大目录深度、最大连接深度、爬取页面数量、爬虫起置,使得客户能爬取合适于自身的内部链接集合。配置如图

【参考文献】:
期刊论文
[1]基于Celery的分布式视频计算处理框架[J]. 霍达,宋利.  电视技术. 2016(04)
[2]基于相关性及语义的n-grams特征加权算法[J]. 邱云飞,刘世兴,林明明,邵良杉.  模式识别与人工智能. 2015(11)
[3]基于Web的异构同步中间件系统[J]. 梅明.  现代计算机(专业版). 2015(13)
[4]不良文本变体关键词识别的词汇串相似度计算[J]. 李少卿,吴承荣,曾剑平,钟亦平.  计算机应用与软件. 2015(03)
[5]Django框架Web数据查询分页技术研究[J]. 齐金刚,李滔,李晋军.  电子设计工程. 2014(05)
[6]基于AMQP的校园消息总线系统的设计与实现[J]. 吴炜鑫,王宇,王兴伟.  通信学报. 2013(S2)
[7]基于云平台的逻辑回归模型构建算法的设计与实现[J]. 俞庆生.  科技通报. 2013(06)
[8]改进的基于词典的中文分词方法[J]. 莫建文,郑阳,首照宇,张顺岚.  计算机工程与设计. 2013(05)
[9]基于局部变化性的网页篡改识别模型及方法[J]. 魏文晗,邓一贵.  计算机应用. 2013(02)
[10]软件模块化设计和模块化管理[J]. 夏明忠,夏以轩,李兵元.  中国信息界. 2012(11)

硕士论文
[1]自动化补丁和自服务系统EasyPatch的设计与实现[D]. 韩天.南京大学 2015
[2]网页篡改检测模型的研究与实现[D]. 孙鹏建.北京邮电大学 2015
[3]网页篡改检测系统的设计与实现[D]. 陈文芳.湖南大学 2015



本文编号:3236731

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/ljx/3236731.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ae30***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com