当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于分布式路由思想的实体知识推荐模型

发布时间:2017-06-02 11:05

  本文关键词:一种基于分布式路由思想的实体知识推荐模型,由笔耕文化传播整理发布。


【摘要】:大数据时代,Web信息呈爆炸性增长,数据量的巨大给人们带来了新的挑战,传统关系数据库在海量数据存储和处理上捉襟见肘,为了提高运算性能和解决系统可扩展问题,利用分布式平台处理数据提取知识势在必行。虽然数据量日益庞大,但其价值密度却比较低,用户面临着信息过载带来的知识获取困扰。如何从数据海洋中挖掘知识并推荐给用户,成为了当今亟待解决的问题。 知识推荐是指根据用户当前搜索,将与之相关的知识从隐形或显性的资源中提取并推荐的过程。知识推荐通常作为搜索引擎的一部分实现,传统的知识推荐多是基于“关键词”的,鉴于这种方式的推荐不能“理解”用户的语义,Google、Bing等搜索引擎已开始尝试将Web中的信息按实体的方式表示、集成和推荐。基于实体的搜索和推荐已成为搜索引擎竞争的新领域,代表了未来搜索引擎的发展方向。在搜索引擎向实体技术革新的阶段,如何利用分布式平台存储和处理数据,,并基于实体给用户进行可视化的知识推荐是一个值得研究的综合性课题。 基于上述背景,本文提出了一种基于分布式路由思想的实体知识推荐模型,模型能从维基百科中抽取出大量实体数据,并通过分布式运算获取实体之间的关系,然后以关系为基础为用户进行知识推荐。其中,数据采集过程模拟了网络爬虫的工作机制,为避免数据的重复抽取引入了Bloom Filter算法。采集好的初始数据通过预处理后转换成实体数据保存于搭建好的Hadoop云平台中。同时提出并采用了一种基于分布式路由思想的实体关系提取方法ERA(Entity RelationAcquisition)进行快速、分布式的实体关系提取。ERA的核心思想是将实体模拟成路由器,让实体按照类似动态路由的方式自发地去探寻它与周围实体形成的关系世界。最后对推荐结果进行了可视化展示,并引入了力导向算法优化界面布局。本文详细描述了模型设计及实现方法,通过实验测试验证了模型的有效性。
【关键词】:Hadoop 路由思想 实体知识推荐 网络爬虫 Bloom Filter 可视化 力导向算法 Processing
【学位授予单位】:四川师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP391.3
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 1 绪论9-15
  • 1.1 研究背景与意义9-11
  • 1.2 研究现状与存在的问题11-13
  • 1.3 本文研究内容及结构安排13-14
  • 1.3.1 本文主要研究内容13
  • 1.3.2 本文的组织结构安排13-14
  • 1.4 本章小结14-15
  • 2 知识背景与相关技术15-24
  • 2.1 实体相关概念概述15
  • 2.2 网络爬虫 URL 去重技术概述15-16
  • 2.2.1 Bloom Filter 布隆过滤器16
  • 2.3 路由原理概述16-19
  • 2.3.1 路由寻径与消息转发17
  • 2.3.2 动态路由协议17-19
  • 2.4 Hadoop 概述19-20
  • 2.5 数据可视化技术概述20-23
  • 2.5.1 图布局算法20-22
  • 2.5.2 Processing 可视化编程语言22-23
  • 2.6 本章小结23-24
  • 3 基于分布式路由思想的实体知识推荐模型24-41
  • 3.1 模型核心思想概述24
  • 3.2 模型框架概要设计24-26
  • 3.3 模型框架详细设计26-40
  • 3.3.1 数据采集器设计26-29
  • 3.3.2 知识推荐器设计29-37
  • 3.3.3 可视化处理器设计37-40
  • 3.4 本章小结40-41
  • 4 模型编码设计与实现41-54
  • 4.1 数据文件设计41
  • 4.2 数据采集器实现41-44
  • 4.3 知识推荐器实现44-48
  • 4.4 可视化处理器实现48-53
  • 4.5 本章小结53-54
  • 5 模型实验测试与分析54-62
  • 5.1 模型实验环境54
  • 5.2 实验测试与分析54-61
  • 5.3 本章小结61-62
  • 6 总结与展望62-64
  • 6.1 工作总结62-63
  • 6.2 工作展望63-64
  • 参考文献64-67
  • 致谢67

【参考文献】

中国期刊全文数据库 前10条

1 薛羽;李炜;沈奇威;;基于SQL-Like语言的分布式推荐系统 [J];电信工程技术与标准化;2012年11期

2 任永功;于戈;;数据可视化技术的研究与进展[J];计算机科学;2004年12期

3 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

4 张伟明;罗军勇;王清贤;;网络拓扑可视化研究综述[J];计算机应用研究;2008年06期

5 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期

6 李国杰;程学旗;;大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J];中国科学院院刊;2012年06期

7 丁振国;吴宝贵;辛友强;;基于Bloom Filter的大规模网页去重策略研究[J];现代图书情报技术;2008年03期

8 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期

9 王彦明;奉国和;薛云;;近年来Hadoop国外研究综述[J];计算机系统应用;2013年06期

10 黄勋;游宏梁;于洋;;关系抽取技术研究综述[J];现代图书情报技术;2013年11期

中国硕士学位论文全文数据库 前1条

1 张丹;HDFS中文件存储优化的相关技术研究[D];南京师范大学;2013年


  本文关键词:一种基于分布式路由思想的实体知识推荐模型,由笔耕文化传播整理发布。



本文编号:415059

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/415059.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户571d8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com