当前位置:主页 > 科技论文 > 搜索引擎论文 >

XML的DOM树结构在WEB挖掘中的应用

发布时间:2017-07-28 19:12

  本文关键词:XML的DOM树结构在WEB挖掘中的应用


  更多相关文章: WEB挖掘 XML Tidy DOM树


【摘要】:面对飞速发展的信息时代,WEB数据的挖掘日益重要,而传统的搜索引擎难以胜任对数据的挖掘处理。基于XML良好的结构性和层次性,提出了利用DOM树进行WEB挖掘的方法。首先利用Tidy工具库将WEB数据转换成良好结构的XML文件,简化生成DOM树,然后通过遍历解析XML的DOM树结构,提取需要的WEB信息,实现对WEB数据挖掘。实验表明,该方法能够方便地对数据进行结构化存储和信息处理。
【作者单位】: 四川理工学院自动化与电子信息学院;四川理工学院网络管理中心;
【关键词】WEB挖掘 XML Tidy DOM树
【基金】:四川理工学院研究生创新基金项目(y2012007)
【分类号】:TP311.13
【正文快照】: 引言随着WEB信息技术的飞速发展,WEB信息也以指数级日益增加,因此,如何从海量的数据中准确得到相关有效数据,成为了急需解决的问题。搜索引擎是从海量信息中获取指定数据的有效方式,但传统的基于HT-ML的搜索引擎仅仅能抓取和呈现孤立的数据本身,而难以对获取的数据进行有效的

【参考文献】

中国期刊全文数据库 前8条

1 秦鸿;基于Web的数据挖掘[J];电子科技大学学报;2002年S1期

2 黄磊,黄汉永;XML技术在Web挖掘中的应用[J];信息技术;2003年05期

3 李龙;李丽丽;高玲;;一种网络课程答疑系统分词器的设计[J];河北工程大学学报(自然科学版);2012年02期

4 余静;刘万军;;基于网页分块的主题爬虫研究[J];计算机与信息技术;2008年10期

5 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期

6 熊一利;徐鹏;;基于XML的网页数据挖掘[J];科技广场;2010年01期

7 李霞;蒋盛益;;基于DOM树及行文本统计去噪的网页文本抽取技术[J];山东大学学报(理学版);2012年03期

8 陈金森;原福永;张园园;;XML搜索引擎研究[J];图书情报工作;2007年01期

【共引文献】

中国期刊全文数据库 前10条

1 牛彦成;包莹;;Web数据挖掘中XML的应用研究[J];电脑知识与技术;2011年01期

2 胡双双;秦杰;;搜索引擎技术及其发展趋势[J];福建电脑;2008年06期

3 丁瑾;基于Web数据挖掘的综述[J];科技情报开发与经济;2004年12期

4 汪剑;;基于Web的数据挖掘在信息服务领域的应用[J];软件导刊;2008年10期

5 张向锋;丁斗章;;基于免疫学习算法的Web数据挖掘方法[J];上海电机学院学报;2007年03期

6 丁瑾;;多媒体数据挖掘技术在数字档案中的应用[J];兰台世界;2006年22期

7 彭伟;;Web气象信息树型提取算法与LED显示设计[J];实验室研究与探索;2013年01期

8 丁瑾;蒋华;;数字档案馆中多媒体数据挖掘技术研究[J];浙江水利水电专科学校学报;2005年04期

9 金艳云;;Web数据挖掘综述[J];现代计算机(专业版);2012年33期

10 李爱飞;冀振燕;王经纬;;一种基于页面价值和跳转偏爱度挖掘频繁访问路径的模型[J];计算机系统应用;2013年03期

中国重要会议论文全文数据库 前1条

1 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

中国博士学位论文全文数据库 前3条

1 傅明;基于Web的空间数据挖掘研究[D];中南大学;2004年

2 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年

3 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年

中国硕士学位论文全文数据库 前10条

1 李伟利;面向普通教育的内容管理系统研究[D];北京林业大学;2011年

2 沈旭昌;隐私保护的分布式数据挖掘系统[D];浙江工业大学;2004年

3 廖江军;Web预取中的数据挖掘研究[D];上海师范大学;2005年

4 汤国行;Web日志聚类分析及应用[D];山东大学;2006年

5 王利;Web使用挖掘方法及其在个性化学习系统中的应用研究[D];苏州大学;2006年

6 单明辉;改进的关联规则算法在采购数据挖掘中的应用[D];上海交通大学;2008年

7 肖卓磊;基于Ajax技术的搜索引擎研究[D];武汉理工大学;2009年

8 黄仲清;互联网主题信息定向采集研究[D];华东师范大学;2010年

9 祁鹏;基于移动搜索的Spider爬行策略的研究和实现[D];成都理工大学;2010年

10 郭晓初;基于VRML的虚拟哈尔滨机场建筑的设计与实现[D];吉林大学;2012年

【二级参考文献】

中国期刊全文数据库 前10条

1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期

2 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期

3 袁新颜;;简析XML与HTML的结合[J];电脑知识与技术(学术交流);2007年07期

4 牛彦成;包莹;;Web数据挖掘中XML的应用研究[J];电脑知识与技术;2011年01期

5 姜良华;;网络辅助答疑系统的设计与实现[J];电脑知识与技术;2011年26期

6 胡青松;张申;;通用网络辅助教学支撑平台的研制[J];电气电子教学学报;2008年03期

7 吴劲,陈泽琳;基于部分匹配的XML文本文档向量检索模型[J];电子学报;2002年S1期

8 姜大仲;王新秀;崔善珠;;发展终身学习型城市网络的战略——以首尔市冠岳区案例为中心[J];高等函授学报(哲学社会科学版);2011年05期

9 李睿,李明;Web数据挖掘技术探讨[J];甘肃科技;2001年03期

10 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期

中国博士学位论文全文数据库 前1条

1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

【相似文献】

中国期刊全文数据库 前10条

1 蒋社想;;基于XML的WEB数据挖掘[J];长沙通信职业技术学院学报;2006年04期

2 熊一利;徐鹏;;基于XML的网页数据挖掘[J];科技广场;2010年01期

3 赵小礼;陆鑫;;基于XML的有效的Web挖掘系统设计研究[J];软件导刊;2005年18期

4 史哲;;基于XML的Web数据挖掘及应用模式研究[J];科技创新导报;2011年02期

5 蒋君毅;宋中山;;基于XML进行Web数据挖掘的应用研究[J];软件导刊;2006年15期

6 连瑞梅;;Web内容挖掘中XML技术的应用[J];科技经济市场;2007年07期

7 赵艳秋;封志宏;;基于XML的Web搜索推荐系统中用户兴趣模型的建立研究[J];网络安全技术与应用;2009年03期

8 曾瑛;李志杰;;Web挖掘工具与数字图书馆信息服务[J];高校图书馆工作;2006年04期

9 陈尧妃;倪应华;陈焕通;;基于XML的Web挖掘框架设计[J];仪器仪表学报;2006年S3期

10 李垒;李怀刚;;基于语义网络的Web挖掘[J];广西轻工业;2008年02期

中国重要会议论文全文数据库 前10条

1 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

2 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

中国重要报纸全文数据库 前10条

1 北京邮电大学 张剑;XML的显示——XSL样式单(上)[N];计算机世界;2001年

2 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年

3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年

4 湖北 张海;编程日日帖[N];电脑报;2005年

5 孤独笑 乌咪;打造你的音乐万年历(上)[N];电脑报;2003年

6 北京邮电大学 张剑;XML技术入门[N];计算机世界;2001年

7 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年

8 ;Web收获:吸纳有用信息[N];计算机世界;2004年

9 广东 麦国恒;浅谈应用程序XP风格的实现[N];电脑报;2003年

10 杭州商学院 徐建平;使用ASP访问XML文件[N];计算机世界;2001年

中国博士学位论文全文数据库 前10条

1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年

2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年

3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年

4 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年

5 张晨静;XML关键字过滤技术[D];复旦大学;2011年

6 胡文生;XML数据流上基于窗口的查询处理方法研究[D];武汉大学;2012年

7 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年

8 朱晓冬;数字博物馆关键技术研究[D];西北大学;2004年

9 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年

10 雷向欣;XML索引和过滤查询若干关键技术研究[D];复旦大学;2005年

中国硕士学位论文全文数据库 前10条

1 马宏伟;基于XML的Web文本挖掘应用研究[D];合肥工业大学;2009年

2 史西兵;基于XML的Web信息抽取技术研究[D];西北大学;2008年

3 张忆;基于XML的频繁模式发现研究[D];合肥工业大学;2006年

4 邱亚娜;信息化教育领域的Web信息抽取技术研究[D];天津师范大学;2008年

5 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年

6 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年

7 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年

8 郭鹏;基于Web数据挖掘分类算法的个性化信息服务[D];太原理工大学;2003年

9 牟刚;基于XML的Web信息挖掘技术的研究[D];重庆大学;2004年

10 詹晶晶;基于WEB挖掘的网络蜘蛛的研究与实现[D];厦门大学;2007年



本文编号:585592

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/585592.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7d3d9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com