当前位置:主页 > 科技论文 > 软件论文 >

基于网络平台的敏感内容防控技术研究

发布时间:2024-03-20 23:18
  在“互联网+”时代下,网络深入渗透了人们的工作生活,各类网络安全问题也愈来愈受关注。信息技术与社会经济的交汇融合促进了各类电子文档数据的频繁交换。与此同时,各类敏感信息的数据安全防控也成了关系到个人、社会和谐稳定发展的重点。目前关于敏感信息安全防控的相关研究主要围绕网络的内容平台、内容服务器与用户终端,但作为主流文档的Word、PDF文档中往往也会包含有个人、企业的敏感信息,如果不加以有效控制,在这些电子文档交换的过程中,也会存在泄露风险。现有的敏感数据内容保护措施多是针对某一具体文件类型,例如针对电子文档的文本敏感信息的检测与保护、针对敏感图像的识别与防止扩散、针对视频敏感信息的鉴别等等。考虑到Word、PDF等电子文档中的文本内容和图像也会包含不少的重要敏感信息,尤其是涉及工程图像、证件图像一类的文档,而目前针对在网络中传输的电子文档内的图像信息的识别与检测还少有研究涉及。考虑到应用中确实存在对文档内特定的某类敏感内容的防扩散需求,本文重点研究在线传输的电子文档(例如微软Word文档、PDF文档)内容解析与脱敏技术。论文首先分别针对微软Word文档与PDF文档研究了其内容解析技术,...

【文章页数】:63 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状及存在的问题
        1.2.1 数据脱敏现状
        1.2.2 PDF、Word电子文档解析技术研究现状
        1.2.3 图像分类识别研究现状
    1.3 论文主要工作及内容安排
第2章 PDF、Word文档格式
    2.1 PDF文档格式分析
        2.1.1 PDF对象类型与分类
        2.1.2 物理结构
        2.1.3 逻辑结构
        2.1.4 内容流分析
    2.2 DOC文档格式分析
        2.2.1 仓库和流
        2.2.2 扇区
        2.2.3 复合文档头
        2.2.4 扇区偏移与分配
    2.3 DOCX文档格式分析
    2.4 本章小结
第3章 文档内嵌图像解析与脱敏处理
    3.1 文档内图像定位
        3.1.1 DOC内嵌图像
        3.1.2 DOCX内嵌图像
        3.1.3 PDF内嵌图像
    3.2 图像识别
    3.3 图像脱敏处理
    3.4 算法联合设计分析
    3.5 本章小结
第4章 敏感内容防控系统的框架设计与实现
    4.1 系统流程及总体架构设计
        4.1.1 系统网络拓扑图
        4.1.2 文档内容脱敏流程
    4.2 HTTP协议
        4.2.1 HTTP协议原理
        4.2.2 HTTP协议报文请求与响应
    4.3 系统功能模块设计与实现
        4.3.1 反向代理模块
        4.3.2 HTTP协议解析模块
        4.3.3 内嵌图像识别与脱敏模块
        4.3.4 文本内容识别与脱敏模块
    4.4 实验结果分析
        4.4.1 脱敏效果测试
        4.4.2 系统压力测试
        4.4.3 联合算法有效性测试
    4.5 本章小结
结论
致谢
参考文献
攻读硕士学位期间发表的论文及科研成果



本文编号:3933453

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3933453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户c2569***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com