当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种高效的Web新闻发表时间提取方法

发布时间:2017-07-03 01:02

  本文关键词:一种高效的Web新闻发表时间提取方法


  更多相关文章: 信息抽取 发表时间抽取 Web新闻 高效方法


【摘要】:Web网页的发表时间在Web搜索中起到重要的作用,因为用户获取的结果往往是与时间密切相关的.本文围绕Web新闻发表时间的提取,提出了一种高效的Web新闻发表时间提取方法.该方法考虑到了Web新闻网页URL地址隐含时间信息的特性,信息发表时间与新闻标题的距离约束.在主流的7个中文搜索引擎,使用了30个关键字,共获取3827篇Web新闻信息进行了提取时间的准确率及时间消耗的实验分析与比较,结果显示本文提出方法的准确率为95.5%,时间消耗为88秒.
【作者单位】: 淮海工学院计算机工程学院;中国矿业大学计算机科学与技术学院;
【关键词】信息抽取 发表时间抽取 Web新闻 高效方法
【基金】:国家自然科学基金项目(60975033)资助 连云港市科技攻关项目(CG1121)资助
【分类号】:TP391.3
【正文快照】: 1引言随着社会信息化的迅猛发展,互联网已经成为人们获取信息的重要来源.由于互联网信息具有海量、复杂、非结构化等特点,这为互联网信息的获取带来了很大困难.大量的舆情监测系统的应用推广表明,对互联网上各种不同的信息载体(比如新闻网、博客、论坛、微博、贴吧等)进行信息

【参考文献】

中国期刊全文数据库 前6条

1 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期

2 邬桐;周雅倩;黄萱菁;吴立德;;自动构建时间基元规则库的中文时间表达式识别[J];中文信息学报;2010年04期

3 谭红叶;郑家恒;梁吉业;;时间关系识别研究进展[J];中文信息学报;2011年05期

4 李君婵;谭红叶;王风娥;;中文时间表达式及类型识别[J];计算机科学;2012年S3期

5 林静;曹德芳;苑春法;;中文时间信息的TIMEX2自动标注[J];清华大学学报(自然科学版)网络.预览;2008年01期

6 孙荣;周文;刘宗田;;用规则抽取句子中事件信息[J];小型微型计算机系统;2011年11期

【共引文献】

中国期刊全文数据库 前6条

1 王风娥;谭红叶;钱揖丽;;基于最大熵的句内时间关系识别[J];计算机工程;2012年04期

2 李君婵;谭红叶;王风娥;;中文时间表达式及类型识别[J];计算机科学;2012年S3期

3 肖升;何炎祥;李勇帆;;基于依存分析的中文时间表达式类型判定[J];计算机应用;2013年06期

4 沈思;苏新宁;谢靖;王东波;;基于清华汉语树库的时间表达式抽取模型构建研究[J];图书情报工作;2012年18期

5 昝红英;张腾飞;张坤丽;;规则与统计相结合的介词用法自动识别研究[J];计算机工程与设计;2013年06期

6 冷伏海;白如江;祝清松;;面向科技文献的混合语义信息抽取方法研究[J];图书情报工作;2013年11期

中国硕士学位论文全文数据库 前5条

1 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年

2 王风娥;汉语文本中的时间关系识别技术研究[D];山西大学;2012年

3 刘明;马尔可夫逻辑网在基于信任的推荐系统与中文时间关系识别中的应用[D];重庆大学;2012年

4 刘莉;中文时间事件关系识别的方法研究[D];重庆大学;2012年

5 朱孟侠;农作物病虫害抽取与全文检索技术研究[D];浙江工商大学;2013年

【二级参考文献】

中国期刊全文数据库 前10条

1 贺瑞芳;秦兵;潘越群;刘挺;李生;;基于启发式错误驱动学习的中文时间表达式识别[J];高技术通讯;2008年12期

2 徐永东;徐志明;王晓龙;刘远超;;中文文本时间信息获取及语义计算[J];哈尔滨工业大学学报;2007年03期

3 刘宗田;黄美丽;周文;仲兆满;付剑锋;单建芳;智慧来;;面向事件的本体研究[J];计算机科学;2009年11期

4 付剑锋;刘宗田;付雪峰;周文;仲兆满;;基于依存分析的事件识别[J];计算机科学;2009年11期

5 姜吉发;一种事件信息抽取模式获取方法[J];计算机工程;2005年15期

6 张仰森;;基于最大熵模型的汉语词义消歧与标注方法[J];计算机工程;2009年18期

7 汤庸;林鹭贤;罗烨敏;潘炎;;基于自动问答系统的信息检索技术研究进展[J];计算机应用;2008年11期

8 黄高辉;姚天f ;刘全升;;基于CRF算法的汉语比较句识别和关系抽取[J];计算机应用研究;2010年06期

9 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期

10 王昀,苑春法;基于转换的时间-事件关系映射[J];中文信息学报;2004年04期

【相似文献】

中国期刊全文数据库 前10条

1 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期

2 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期

3 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期

4 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期

5 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期

6 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期

7 于薇;;包装器的自动生成方法介绍[J];才智;2009年28期

8 张涛;胡正华;夏明星;;远洋运输业业务邮件信息抽取系统的设计及实现[J];电脑知识与技术;2010年01期

9 朱青;吕晓旭;;基于机器学习的HTML标题抽取[J];微计算机信息;2010年09期

10 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期

中国重要会议论文全文数据库 前10条

1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年

2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年

3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

6 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年

7 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

8 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年

9 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年

10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

中国重要报纸全文数据库 前10条

1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年

2 彭芳;搜索也专业[N];中国计算机报;2004年

3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年

4 上海交通大学APEX数据和知识管理实验室 王昊奋邋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年

5 董振东;到用户中去[N];中国计算机报;2003年

6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年

7 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年

8 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年

9 马志彦;悄然而至的EIP[N];中国计算机报;2002年

10 本报记者 于翔;BI:电信业渗透中[N];网络世界;2004年

中国博士学位论文全文数据库 前10条

1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年

2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年

5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年

6 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年

7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年

8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年

9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年

10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年

中国硕士学位论文全文数据库 前10条

1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年

2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年

3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年

4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年

5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年

6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年

7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年

8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年

9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年

10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年


  本文关键词:一种高效的Web新闻发表时间提取方法


  更多相关文章: 信息抽取 发表时间抽取 Web新闻 高效方法




本文编号:511823

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/511823.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8a5b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com