当前位置:主页 > 社科论文 > 逻辑论文 >

大数据环境下的多分类逻辑回归算法研究与应用

发布时间:2023-02-26 14:26
  随着产业界数据量的爆炸式增长,大数据中蕴含的价值受到了越来越多的关注。如何从大数据中挖掘出有效的信息,成为了一个重要的研究课题。逻辑回归算法是进行数据分类的常用方法之一,由于其模型简单、训练速度快而在医疗、金融等领域有着广泛的应用。在对逻辑回归模型进行训练时,由于训练数据集的规模增大,对执行计算的客户端的内存容量要求越来越高,传统的逻辑回归算法就显得无能为力。本文基于HBase实现了多分类逻辑回归,针对逻辑回归模型在训练数据集时可能遇到的内存限制的问题对算法进行了改进,提出了块批量梯度下降算法,用于计算回归模型的系数。本论文主要完成的工作如下:首先,将训练数据集存入HBase后,然后针对训练数据集可能超出客户端的内存限制问题,块批量梯度下降算法通过设置表扫描对象的起始行键参数,取出大小合适的含训练样本及结果值的数据块,同时避免了客户端到服务端频繁的RPC调用,每一次取出的数据块可进行多次迭代计算,加快了系数的收敛速度。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块,如此循环,一直到系数收敛或者达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为...

【文章页数】:72 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题研究背景及意义
    1.2 国内外相关技术的发展
        1.2.1 大数据和机器学习的研究现状
        1.2.2 逻辑回归算法的研究现状
    1.3 本文的研究内容和章节安排
        1.3.1 主要研究内容
        1.3.2 论文章节安排
第2章 逻辑回归算法及大数据平台相关技术
    2.1 逻辑回归模型
    2.2 梯度下降法
        2.2.1 批量梯度下降法
        2.2.2 随机梯度下降法
    2.3 Hadoop平台相关技术
        2.3.1 Hadoop平台简介
        2.3.2 HDFS分布式文件系统
        2.3.3 HBase分布式列存储数据库
    2.4 本章小结
第3章 基于HBase的多分类逻辑回归算法研究
    3.1 训练数据表存储结构
    3.2 块批量梯度下降
    3.3 系数收敛判断
    3.4 块批量梯度下降法算法的实现
        3.4.1 读取训练样本
        3.4.2 求结果值与预测值的偏差量数组
        3.4.3 求分类系数
    3.5 多分类逻辑回归问题
    3.6 多分类逻辑回归模型评价
    3.7 本章小结
第4章 实验环境的搭建与测试结果
    4.1 Hadoop平台及HBase集群的搭建
        4.1.1 Hadoop分布式平台搭建
        4.1.2 HBase分布式数据库搭建
    4.2 存储训练数据集
        4.2.1 数据集预处理
        4.2.2 存储结构的实现
        4.2.3 导入训练数据集
    4.3 测试过程与结果分析
        4.3.1 测试过程
        4.3.2 对比测试结果
    4.4 测试结果
    4.5 实验总结
第5章 总结与展望
    5.1 总结
    5.2 展望
参考文献
攻读硕士期间已发表的论文和科研成果
致谢



本文编号:3750476

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/ljx/3750476.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户9356e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com