网页特征词典生成模型的设计与实现

发布时间：2023-12-04 18:23

　　随着WWW技术的不断发展,互联网成为人们发布和搜索信息的主要来源,网络上存在的信息也越来越多,五花八门。面对庞大的信息,人们希望从网上获得的信息更精确更快速,更加关注某一领域的动态。同时青少年的上网行为日渐普遍,他们对不良网站没有准确的辨别力,对游戏网站没有坚定的抵抗力,为了避免青少年受到负面信息的影响,需要为他们提供一个健康的上网环境。因此当前社会需要的是快速搜索所需资源,准确过滤特定主题的网页,营造一个绿色高效的互联网环境。网页分类技术的出现使得网页被准确归类,主题搜索更加容易便捷,也可以根据用户需求屏蔽掉特定类型的网页内容,因此成为网络海量信息挖掘中的研究热点。网页分类流程包括网页内容爬取、文本预处理、网页特征词典表示、分类器训练四个部分,最终形成网页自动分类模型。但是前提条件是保证特征词典能够精确完整地表示网页类型的特点,不会与其他类型混合。因此本文提出了一种网页特征词典生成模型。本论文做了以下工作： 1.对网页自动分类技术进行了综述,介绍了网页自动分类的流程以及主流的分类算法； 2.对网络爬虫技术和中文分词技术进行了研究,着重研究了常用的爬虫方法和几种爬行策略,中文分词...

【文章页数】：68 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 研究背景与意义
    1.2 网页分类技术的发展现状
    1.3 论文结构与主要工作
    1.4 本章小结
第二章相关技术与研究工作综述
    2.1 网页分类技术综述
        2.1.1 网页自动分类流程
        2.1.2 典型分类算法
    2.2 网络爬虫技术综述
        2.2.1 爬虫方法
        2.2.2 爬行策略
    2.3 中文分词技术综述
        2.3.1 中文分词常用方法
        2.3.2 歧义
        2.3.3 未登录词与停用词
        2.3.4 常用中文分词开源项目
    2.4 相关工具介绍
        2.4.1 Nutch
        2.4.2 Lucene
        2.4.3 Luke
    2.5 网络爬虫和中文分词技术研究现状
    2.6 本章小结
第三章网页特征词典生成模型的分析与概要设计
    3.1 模型的整体分析
    3.2 爬虫模块的分析与概要设计
        3.2.1 URL管理子模块
        3.2.2 页面爬取子模块
        3.2.3 信息过滤子模块
    3.3 分词模块的分析与概要设计
        3.3.1 分词前处理子模块
        3.3.2 中文分词子模块
        3.3.3 特征词计算子模块
    3.4 本章小结
第四章网页特征词典生成模型的详细设计与实现
    4.1 爬虫模块的详细设计与实现
        4.1.1 URL管理子模块
        4.1.2 页面爬取子模块
        4.1.3 信息过滤子模块
    4.2 分词模块的详细设计与实现
        4.2.1 分词前处理子模块
        4.2.2 中文分词子模块
        4.2.3 特征词计算子模块
    4.3 本章小结
第五章网页特征词典生成模型的测试
    5.1 生成汽车类别网页特征词典
    5.2 测试汽车类别网页特征词典
    5.3 结果分析
    5.4 本章小结
第六章总结及展望
    6.1 总结
    6.2 展望
参考文献
致谢
攻读硕士学位期间发表的学术论文

本文编号：3870467

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3870467.html

上一篇：网络攻防靶场实战核心系统研究及应用
下一篇：大数据时代的计算机网络安全及其防范对策研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|