当前位置:主页 > 科技论文 > 软件论文 >

大规模语义数据存储优化方案研究与实现

发布时间:2024-03-16 04:56
  随着RDF数据的迅猛增长,RDF语义数据集总量已超过800亿,作为W3C标准之一,RDF数据的应用愈加广泛,涉及多种领域。面对大规模语义数据,传统的搜索引擎在实时性方面能力不足,同时,基于搜索引擎直接获取富含语义信息的知识集合面临着很大挑战,因此,针对语义数据的管理,近年来涌现出不少RDF语义数据管理平台,例如jena-tdb、gStore、RDF-3X等等。但由于语义数据的爆炸式增长,现有的主流RDF管理平台主要面临着面向大规模数据处理能力不足,语义查询有效性较低等问题。本文提出了一种面向大规模语义数据知识图谱分布式管理方案,通过最大网格构建索引,利用并行计算框架实现对知识图谱高效地语义查询。为提高对存储空间的利用,本文提出采用哈希码对语义数据编码。为提高语义查询的有效性,本文在RDF语义图中挖掘最大网格,然后基于最大网格构建知识图谱索引结构。为实现大规模语义数据的分布式管理,本文采用DBSCAN聚类算法实现分布式数据划分,将整个RDF语义图划分为多个RDF语义子图。本文采用BORDER边界点检测算法识别语义子图边界点,从而实现边界点关系数据在多个节点中的存储,满足跨节点语义查询的数...

【文章页数】:77 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 论文工作内容
    1.4 论文组织结构
第二章 数据管理基础理论与技术
    2.1 大规模RDF数据管理
        2.1.1 基于关系的RDF数据管理方法
        2.1.2 基于图的RDF数据管理方法
    2.2 大规模数据聚类
        2.2.1 聚类分析概述
        2.2.2 聚类算法分类
    2.3 本章小结
第三章 基于最大网格的大规模数据索引构建方法
    3.1 问题分析与解决方案
        3.1.1 问题分析
        3.1.2 解决方案
    3.2 知识图谱构建过程
        3.2.1 哈希编码
        3.2.2 基于哈希码的编码模式
        3.2.3 最大网格挖掘算法
        3.2.4 知识图谱索引构建
    3.3 基于DBSCAN聚类算法的数据划分
        3.3.1 数据划分方式选择
        3.3.2 聚类算法选择
    3.4 本章小结
第四章 基于分布式计算的大规模数据管理
    4.1 跨节点数据冗余存储
        4.1.1 边界点检测算法
        4.1.2 边界点关系数据冗余存储
    4.2 基于CLARANS聚类算法的可达实体扩展
        4.2.1 聚类算法选择
        4.2.2 聚类扩展可达实体
    4.3 基于SPARQL查询的查询引擎构建
        4.3.1 查询场景分类
        4.3.2 查询模式构建
    4.4 分布式解决方案
    4.5 本章小结
第五章 实验与结果分析
    5.1 实验准备工作
        5.1.1 实验环境
        5.1.2 实验数据集
        5.1.3 实验度量标准
    5.2 实验过程
        5.2.1 基于哈希码的语义数据编码
        5.2.2 基于最大网格挖掘算法的索引构建
        5.2.3 基于DBSCAN聚类算法的数据划分
        5.2.4 基于CLARANS聚类算法的可达实体扩展
        5.2.5 基于SPARQL查询的语义数据查询
    5.3 实验结果分析
    5.4 本章小结
第六章 结束语
    6.1 论文工作总结
    6.2 后续工作展望
参考文献
致谢
作者简介



本文编号:3929146

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3929146.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户c9ac3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com