当前位置:主页 > 科技论文 > 搜索引擎论文 >

网页文本分类及其在搜索引擎中的应用.pdf 全文

发布时间:2016-06-30 20:02

  本文关键词:网页文本分类及其在搜索引擎中的应用,由笔耕文化传播整理发布。


北京工业大学 硕士学位论文 网页文本分类及其在搜索引擎中的应用 姓名:徐学可 申请学位级别:硕士 专业:计算机软件与理论 指导教师:蒋宗礼 20080401摘要 皇??.?? 曼皇曼曼鼍曼曼皇 手陶 斐 网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息 资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、 搜索引擎的目录导航、信息过滤中相关问题的核心技术。研究网页自动文本分类 对于解决人们如何有效获取有效网络信息,研究新一代搜索引擎有着重要意义。 本文研究了网页文本分类及其在搜索引擎应用,主要工作如下: . 网页文本分类相关技术的研究:包括特征选择,特征抽取,分类算法, 网页处理等,在此基础上设计并实现一个网页文本分类子系统,对网 页分类各种技术进行整合,使其具有良好的框架和可扩展性。 . 提出了~种基于集成学习与类指示器的文本分类方法,该方法利用 .算法框架,在每一轮次中,自适应地计算类指示器,通 过加权组合所有成员类指示器,获得对理想类指示器的一种逼近。利 用最终的类指示器所得到的分类器不仅简单易于更新,而且泛化能力 强。 . 将集成学习方法与推拉策略结合来修正中心法的分类器偏差,基于 .方法,通过利用其自适应维护权重分布的特点,用每轮 的权重分布,修正传统中一法分类器偏差,突出被误分类的文档的影 响,降低其误分类概率。 . 开展文本分类中特征抽取的研究,论述了应用词条聚合进行文本分类 的特征抽取的基本思想与意义,设计了一种具体方案,利用改进的 进行词条聚合,并根据聚合特征的特点,提出了一种新的权 重计算方法。 . 将文本分类用于主题爬虫:探讨了主题爬虫的基本问题,主要包括主 题模型,网页优先级计算


  本文关键词:网页文本分类及其在搜索引擎中的应用,由笔耕文化传播整理发布。



本文编号:64066

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/64066.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1b972***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com