当前位置:主页 > 科技论文 > 搜索引擎论文 >

Web新闻自动摘要方法研究

发布时间:2017-04-28 09:14

  本文关键词:Web新闻自动摘要方法研究,由笔耕文化传播整理发布。


【摘要】:伴随互联网的迅速发展,网络中的信息资源呈指数级增长,导致了“信息爆炸时代”的到来。信息的巨增给信息检索带来了新的挑战,如何从数以千亿计的资源中便捷快速地找到所需信息越来越成为研究的重点。搜索引擎从一定程度上解决了信息检索的难度,用户输入检索的关键词,就可以找到相关的信息,但是有时一个检索关键词,可能就会返回几百甚至上千条结果。这些结果主要以标题列表的形式呈现给用户,用户仍然需要逐条点击进去浏览网页才能知道是不是所要的资源。摘要是一篇文档内容的概述,包含了文档的主题。若搜索引擎能在检索的时候可以同时返回标题和摘要,这将大大减少用户逐一浏览网页花费的时间。人工摘要需要花费大量时间,自动摘要技术被提出。自动摘要是使用计算机从输入的文档中自动提取主题,是自然语言理解研究的重要方向之一。近些年自动摘要技术的研究取得了较大进展,文中提出了一种适合Web新闻网页的基于改进TF*IDF算法与句子相似度相结合的方法自动生成摘要。本文首先介绍了摘要的含义以及自动摘要的必要性,通过对国内外研究现状的了解,明确了现有技术存在的问题和局限性,提出了本课题的研究意义和主要内容。然后分析了自动摘要的相关理论知识,包括摘要的分类和方法,鉴于研究对象为Web网页这一特殊性,介绍了网页去噪和正则表达式的原理。研究了文中要实现的摘要系统在开发过程中需要用的关键技术,包括基于行块分布函数的网页正文抽取算法、基于分治法的小标题识别方法、中文分词原理和分类、改进TF*IDF算法、基于语义相似度与结构相似度的句子相似度计算方法。接着从软件开发的角度重点阐述了使用文中提出的方法生成摘要系统的详细设计与实现,包括系统功能、数据库表设计、子功能模块的设计。对于系统中的关键模块,使用逻辑流程图或伪代码算法描述的方法给予说明,加深了对其功能与实现原理的认识。最后,对系统的各个子模块进行实验,并分析实验结果。通过实例的方法展示了文中开发系统的用户界面,使用文中实现的系统做统计实验,对结果的分析表明基于改进TF*IDF算法与句子相似度相结合的方法自动生成摘要的可行性及有效性。
【关键词】:自动摘要 新闻网页 改进TF*IDF算法 句子相似度
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-8
  • 目录8-10
  • 第1章 引言10-16
  • 1.1 研究背景与意义10-11
  • 1.2 研究历史与现状11-14
  • 1.2.1 国外自动摘要研究11-13
  • 1.2.2 国内自动摘要研究13-14
  • 1.3 课题研究的主要内容14-15
  • 1.4 论文组织结构15-16
  • 第2章 自动摘要相关理论知识介绍16-24
  • 2.1 摘要分类与方法16-20
  • 2.1.1 摘要的分类16-17
  • 2.1.2 自动摘要方法17-20
  • 2.2 网页去噪20-22
  • 2.3 正则表达式22-23
  • 2.4 本章小结23-24
  • 第3章Web新闻自动摘要关键技术研究24-46
  • 3.1 基于行块分布函数的网页正文抽取算法24-31
  • 3.1.1 Web网页特征24-25
  • 3.1.2 行块分布算法思想25-28
  • 3.1.3 行块分布算法实现应用实例28-31
  • 3.2 基于分治法的小标题识别算法31-33
  • 3.3 中文分词33-37
  • 3.3.1 基于字符串匹配分词法34-35
  • 3.3.2 基于统计分词法35
  • 3.3.3 基于知识理解分词法35-37
  • 3.4 基于改进TF*IDF的词语权重计算方法37-39
  • 3.5 基于语义与结构相似度的句子相似度计算方法39-45
  • 3.5.1 基于《知网》的句子语义相似度计算方法39-45
  • 3.5.2 句子结构相似度计算45
  • 3.6 本章小结45-46
  • 第4章Web新闻自动摘要系统设计与实现46-57
  • 4.1 系统功能46
  • 4.2 数据库表结构设计46-48
  • 4.3 功能模块设计与实现48-56
  • 4.3.1 网页清洗48-49
  • 4.3.2 结构分析49-52
  • 4.3.3 文本分词52-53
  • 4.3.4 计算权重53-55
  • 4.3.5 生成摘要55-56
  • 4.4 本章小结56-57
  • 第5章 实验结果与分析57-66
  • 5.1 网页清洗实验57-59
  • 5.2 文本分词实验59
  • 5.3 句子相似度计算实验59-61
  • 5.4 生成摘要实验与评价61-65
  • 5.5 本章小结65-66
  • 第6章 总结与展望66-68
  • 6.1 本文工作总结66
  • 6.2 研究工作展望66-68
  • 参考文献68-71
  • 致谢71-72
  • 附录72

【相似文献】

中国期刊全文数据库 前10条

1 沈洲,王永成,许一震,吴芳芳;一种面向新闻文献的自动摘要系统的研究与实践[J];计算机工程;2000年09期

2 李爱红;试论自动摘要技术[J];图书情报工作;2000年04期

3 沈洲,王永成,韩客松;一种基于主题敏感辞分析的新闻文献自动摘要系统的研究与实践[J];高技术通讯;2001年09期

4 王彩霞;试论自动摘要技术[J];晋图学刊;2003年02期

5 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期

6 王建会;周水庚;胡运发;;基于聚类的自动摘要[J];模式识别与人工智能;2004年03期

7 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期

8 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期

9 李念峰;;基于自动摘要的网络情报收集系统研究[J];现代情报;2007年11期

10 郭琳虹;张小松;;文本自动摘要的方法研究[J];福建电脑;2008年06期

中国重要会议论文全文数据库 前8条

1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

2 吴中勤;黄萱菁;吴立德;;基于有监督分类技术的文本自动摘要研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年

4 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

6 刘娜;肖智博;路莹;唐晓君;肖鹏;;自适应主题融合的多文档自动摘要算法[A];2013年中国智能自动化学术会议论文集(第五分册)[C];2013年

7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年

中国重要报纸全文数据库 前1条

1 记者 熊伟;863成果衍生搜索引擎[N];计算机世界;2003年

中国博士学位论文全文数据库 前2条

1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年

中国硕士学位论文全文数据库 前10条

1 程娟;中文文档自动摘要技术[D];山东大学;2006年

2 周凯;中文突发事件新闻自动摘要的研究[D];上海交通大学;2008年

3 宋锐;特定领域的自动摘要生成策略[D];大连理工大学;2009年

4 李阜;基于滑窗取词的单文档自动摘要技术研究[D];国防科学技术大学;2010年

5 刘海涛;面向新闻文本的自动摘要技术研究[D];国防科学技术大学;2005年

6 章芝青;基于语义的单文档自动摘要研究[D];浙江大学;2010年

7 商s,

本文编号:332546


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/332546.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5d4ee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com