当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于WEB页面的关键词与关键概念提取技术

发布时间:2016-12-15 21:23

  本文关键词:智能搜索引擎中的同义词识别算法研究,由笔耕文化传播整理发布。


《北京工业大学》 2003年

基于WEB页面的关键词与关键概念提取技术

王明燕  

【摘要】: 关键词技术是文本信息处理的一项重要技术。目前,由于计算机在自然语言理解方面还有很大的不足,关键词提取是在进行文本自动摘要、文本自动分类、主题词提取、主题提取等凡是涉及到文本信息理解的工作时,都要应用到的一项关键技术。 本论文详细介绍了一种基于Web页面的关键词与关键概念提取技术及其实验系统的设计与实现,并对该技术在搜索引擎中的应用进行了探讨。论文的核心内容包含以下三部分: 首先,关键词提取系统介绍。围绕着Web页面的特殊性开始,依据Web页面不同于一般文本的特殊性,介绍了一种基于Web页面的关键词提取技术。该技术的实现充分利用了Web页面中的各种标记。 然后,关键概念提取系统介绍。语言是一种不断发展的文化,新概念层出不穷,同时还存在很多人名、地名、机构名等专有名词。这些概念的存在影响了关键词的提取质量。从常用的N元语法入手,,分析该方法存在的问题——N元截断效应,提出了一种基于上下文和互信息的关键概念提取方法。该方法的实现克服了N元算法的截断效应,实现了可变长的概念提取方法。同时,本文又结合规则选词的方法,对提取结果进行了优化,取得较好的实验效果。 最后,论文对该技术在搜索引擎中的应用在理论进行了简单的探讨。通过对搜索引擎中“相关性(系统角度的相关性与用户角度的相关性)”问题的分析,提出了一种改进的系统角度的“相关性”模型,并对该模型的系统实现进行了构想与设计。

【关键词】:
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:TP393.092
【目录】:

  • 中文摘要7-9
  • 英文摘要9-11
  • 第1章 绪论11-16
  • 1.1 课题性质11
  • 1.2 课题研究的背景11-12
  • 1.3 本课题的理论基础——自然语言处理技术12-14
  • 1.3.1 自然语言处理技术12
  • 1.3.2 自然语言处理研究的历史与发展现状12-14
  • 1.3.3 自然语言处理的研究方法14
  • 1.4 论文的框架结构14-16
  • 第2章 基于Web页面的关键词及关键概念提取技术16-24
  • 2.1 引言16-17
  • 2.2 关键词与关键概念17-18
  • 2.2.1 关键词与关键概念的定义17-18
  • 2.2.2 关键词的特征18
  • 2.3 关键词及关键概念提取技术的发展与意义18-21
  • 2.3.1 关键词提取技术的发展18-20
  • 2.3.2 关键概念提取技术的发展20-21
  • 2.3.3 关键词提取技术意义21
  • 2.4 基于Web页面的关键词与关键概念提取的实现系统21-22
  • 2.4.1 基于Web页面的关键词提取21
  • 2.4.2 基于Web页面的关键概念提取21-22
  • 2.4.3 系统在搜索引擎中的应用22
  • 2.5 系统框架图22-23
  • 2.6 评估方法23
  • 2.7 本章小结23-24
  • 第3章 关键词提取系统的建立与实现24-38
  • 3.1 引言24
  • 3.2 Web页面的特殊性24-25
  • 3.3 关键技术介绍25-27
  • 3.4 基于Web的关键词提取系统27-37
  • 3.4.1 关键词提取系统的实现流程27-29
  • 3.4.2 Web页面分析模块29-33
  • 3.4.3 加权因子提取33-34
  • 3.4.4 权重计算34-36
  • 3.4.5 关键词提取36
  • 3.4.6 实验结果与分析36-37
  • 3.5 本章小结37-38
  • 第4章 关键概念提取系统的建立与实现38-51
  • 4.1 引言38
  • 4.2 基于“N元语法”统计模型的新词发现38-40
  • 4.2.1 ”N元语法”统计模型简介38-39
  • 4.2.2 基于二元语法和规则的方法39-40
  • 4.2.3 评价40
  • 4.3 基于上下文和互信息的关键概念提取40-50
  • 4.3.1 词语上下文40-41
  • 4.3.2 互信息41-42
  • 4.3.3 基于统计系统的具体实现42-46
  • 4.3.4 系统的核心数据结构设计46
  • 4.3.5 实验结果分析46-47
  • 4.3.6 影响关键概念提取结果的主要因素47
  • 4.3.7 规则选词47-49
  • 4.3.8 规则选词的结果分析49-50
  • 4.4 本章小结50-51
  • 第5章 系统在搜索引擎中的应用51-61
  • 5.1 引言51
  • 5.2 传统搜索引擎简介51-52
  • 5.3 搜索引擎中的“相关性”问题研究52-56
  • 5.3.1 系统角度的相关性53-54
  • 5.3.2 用户角度的相关性54-56
  • 5.3.3 讨论56
  • 5.4 关键词与关键概念在搜索引擎中的应用探讨56-60
  • 5.4.1 改进的系统角度的相关性判断模型的提出56-57
  • 5.4.2 系统框架设计构想57-60
  • 5.5 本章小结60-61
  • 结论61-64
  • 参考文献64-69
  • 致谢69
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【相似文献】

    中国期刊全文数据库 前10条

    1 曹玉娟;牛振东;赵堃;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期

    2 卢转华;;概念图的网络导航分析[J];牡丹江教育学院学报;2011年04期

    3 ;[J];;年期

    4 ;[J];;年期

    5 ;[J];;年期

    6 ;[J];;年期

    7 ;[J];;年期

    8 ;[J];;年期

    9 ;[J];;年期

    10 ;[J];;年期

    中国重要会议论文全文数据库 前10条

    1 ;关于摘要和关键词的说明[A];中国人民解放军医学会第九届放射诊疗专业学会论文集[C];2005年

    2 李玉亭;温智虹;姜莹;;重视科技论文摘要的撰写 提高关键词的准确性[A];中国地震学会第十次学术大会论文摘要专集[C];2004年

    3 ;规范关键词选择的决定(试行)[A];薄膜技术学术研讨会论文集[C];2003年

    4 ;化学与社会论坛[A];中国化学会第二十四届学术年会论文摘要集[C];2004年

    5 ;生命科学中的分析化学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年

    6 ;化学生物学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年

    7 ;化学信息学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年

    8 陈儒;张宇;刘挺;;面向网络实时数据流的中文信息多模式模糊匹配[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年

    9 ;理论化学、计算与模拟化学[A];中国化学会第二十四届学术年会论文摘要集[C];2004年

    10 张建方;;试验设计中五个关键词的翻译问题[A];中国现场统计研究会第12届学术年会论文集[C];2005年

    中国重要报纸全文数据库 前10条

    1 本报记者 何飞;[N];政府采购信息报;2005年

    2 记者 毛绍清;[N];西南电力报;2005年

    3 ;[N];电脑报;2005年

    4 伟成;[N];中国乡镇企业报;2005年

    5 ;[N];中国企业报;2005年

    6 陈磊 张显峰 李丽云;[N];科技日报;2005年

    7 记者 周哲 谢季宏;[N];重庆商报;2005年

    8 本报记者 侯晓轩;[N];计算机世界;2005年

    9 本报记者 刘猛;[N];证券时报;2000年

    10 中国光大银行 林虹;[N];中国证券报;2004年

    中国博士学位论文全文数据库 前10条

    1 洪国彬;基于随机Petri网的企业业务流程重组的理论与优化方法研究[D];天津大学;2003年

    2 卫军英;整合营销传播观念及其理论构架[D];浙江大学;2005年

    3 卫军英;整合营销传播观念的理论建构[D];浙江大学;2007年

    4 方攀峰;爪蟾肌肉发生过程中xTbx6 基因的功能和相应的上下游分子机制的研究[D];中国科学院研究生院(上海生命科学研究院);2004年

    5 张艳梅;海派市民小说与现代伦理叙事[D];东北师范大学;2004年

    6 黄汉平;拉康与后现代文化批评[D];暨南大学;2004年

    7 李思捷;身份书写与跨文化心态透视[D];暨南大学;2003年

    8 邹西峰;骨髓源干细胞在损伤脑组织中迁移和分化的研究[D];第一军医大学;2004年

    9 金建军;血管内皮生长因子在膀胱肿瘤血、尿中的表达和反义基因治疗的研究[D];复旦大学;2003年

    10 张大江;经导管肝动脉热碘油栓塞治疗原发性肝癌机理研究[D];复旦大学;2003年

    中国硕士学位论文全文数据库 前10条

    1 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年

    2 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年

    3 何均洪;[D];电子科技大学;2004年

    4 郭丽娜;俄语广告语的民族文化特性研究[D];华中师范大学;2007年

    5 何念慈;Internet上的教学资源搜索系统的研究与实现[D];暨南大学;2000年

    6 王锋;《古诗十九首》的言“情”艺术[D];西北大学;2000年

    7 徐艳英;科研论文英文文摘及其写作[D];长春理工大学;2004年

    8 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年

    9 陈威;生脉注射液对血流动力学及血管因子影响作用的研究[D];军医进修学院;2001年

    10 袁莉;1925年:关于鲁迅的四个关键词[D];西南师范大学;2003年


      本文关键词:智能搜索引擎中的同义词识别算法研究,由笔耕文化传播整理发布。



    本文编号:214411

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/214411.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户b4b90***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com