当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习的可学习哈希索引研究

发布时间:2022-12-18 10:05
  当今人们正处于高度信息化的时代,数据作为信息的载体记录着日常生活中的一切。在这种数据爆炸的时代背景下,如何高效地检索信息已然成为了数据科学及相关领域关注的热门话题。面对海量数据,对其进行高效、准确的查询并非易事,查询过程中很难同时满足高效率和高精度两方面的要求。哈希索引作为一种高效的信息检索方式被广泛应用于各类信息检索系统中,但是在大数据环境下,传统哈希索引的性能还是受到了严峻的挑战,为了能够保证检索效率,不得不牺牲一定的查询精度以换取更高的查询效率。另外,传统哈希索引方法在实现过程中利用了人为构造的空间映射,这也使得哈希函数在表达数据的内在相关性上存在局限性。近些年随着机器学习不断发展,机器学习方法逐渐涉足各个领域,这也为构建哈希索引提供了一种新思路,即利用机器学习模型来构建哈希索引,Google提出的可学习索引架构正是这一思路的产物。本文对前人利用机器学习构建哈希函数的工作进行了总结,在可学习索引架构的基础上提出了一种基于深度学习的局部敏感哈希的可学习哈希索引框架LLSHF,该框架包含四层,每一层都定义了具体的任务规则。相较于前人的工作,本文创新性的将机器学习构建哈希索引归纳成具体... 

【文章页数】:75 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 可学习索引研究现状综述
    1.3 主要工作及创新点
    1.4 论文组织结构
第2章 相关工作
    2.1 NNS问题
    2.2 广义局部敏感哈希
    2.3 可学习索引架构
    2.4 神经网络
    2.5 自编码器
    2.6 本章小结
第3章 可学习局部敏感哈希框架——LLSHF
    3.1 LLSHF框架概述
    3.2 表征层
        3.2.1 PCA提取表征
        3.2.2 NMF提取表征
        3.2.3 word2vector表征
        3.2.4 迁移学习提取表征
    3.3 映射层
    3.4 模型层
    3.5 查询层
        3.5.1 二进制编码转换
        3.5.2 查询任务
    3.6 本章小结
第4章 基于LLSHF的低维数据哈希方法
    4.1 构造表征数据集
    4.2 基于Hilbert曲线映射的累积分布函数
        4.2.1 Hilbert曲线的正向映射算法
        4.2.2 Hilbert曲线的反向映射算法
        4.2.3 Hilbert曲线映射算法优化
        4.2.4 累积分布函数构建
    4.3 面向低维数据的哈希模型
    4.4 本章小结
第5章 基于LLSHF的图像检索方法
    5.1 基于迁移学习的图像表征提取
    5.2 构建图像数据的累积分布函数
    5.3 基于Fine-turning构建哈希模型
    5.4 本章小结
第6章 实验与分析
    6.1 数据集
        6.1.1 构造数据集
        6.1.2 MNIST数据集
        6.1.3 CIFAR-10数据集
    6.2 实验评估指标
        6.2.1 LSH有效性评估
        6.2.2 图像检索评估
    6.3 实验环境
    6.4 低维数据哈希实验结果及分析
    6.5 图像检索实验结果及分析
        6.5.1 MNIST数据集实验
        6.5.2 CIFAR-10数据集实验
    6.6 本章小结
第7章 总结与展望
    7.1 本文总结
    7.2 不足与展望
参考文献
攻读硕士学位期间完成的科研成果
致谢



本文编号:3721858

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3721858.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4f9a9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com