通信高效的分布式并行随机优化算法的研究

发布时间:2022-10-18 18:41
  随着大数据时代的到来,机器学习模型规模变得越来越大,随机梯度下降(Stochastic Gradient Descent,SGD)算法及其分布式并行变体成为大规模机器学习任务的主要优化算法。虽然现有的分布式随机梯度下降算法在理论上具有优秀的线性加速比性质,但是由于在实践中分布式训练需要引入额外的通信开销,这些算法很难实现真正的线性时间加速比。因此,设计通信高效的分布式并行算法在机器学习的研究中至关重要。本文从两种不同的角度提出改进算法以减小分布式优化中的通信代价。针对大规模深度学习任务,我们提出计算与通信解耦的分布式随机梯度下降(Computation and Communication Decoupled SGD,CoCoD-SGD)算法,通过并行执行计算和通信以减小通信开销。我们从理论上证明了所提出的算法在同构和异构两种计算环境中都具有线性加速比。另外,相比于已有的分布式优化算法,所提出的算法具有更低的通信开销和更高的时间加速比。具体来说,当使用N个计算设备协同地进行T次迭代,CoCoD-SGD的通信复杂度为O(N3/4T3/4),与目前最优的算法局部随机梯度下降(Local-SG... 

【文章页数】:86 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
        1.1.1 关注的问题
        1.1.2 基本算法
    1.2 研究现状与研究动机
    1.3 符号、定义和假设
        1.3.1 符号
        1.3.2 定义
        1.3.3 假设
    1.4 本文主要贡献
    1.5 本文组织结构
第2章 相关工作
    2.1 通信高效的分布式随机优化算法
        2.1.1 高效通信算法
        2.1.2 低通信复杂度算法
        2.1.3 计算和通信并行
    2.2 Local-SGD算法扩展
        2.2.1 联邦学习场景
        2.2.2 自适应通信周期
        2.2.3 利用方差约减加速
    2.3 阶段性算法
第3章 CoCoD-SGD算法
    3.1 算法流程
    3.2 CoCoD-SGD相关理论
        3.2.1 收敛性分析
        3.2.2 时间加速比分析
第4章 STL-SGD算法
    4.1 元算法:Local-SGD
    4.2 STL-SGD算法
        4.2.1 STL-SGD~(sc)算法
        4.2.2 STL-SGD~(nc)算法
    4.3 与已有研究结果的对比
第5章 实验
    5.1 CoCoD-SGD算法的相关实验
        5.1.1 实验设置
        5.1.2 同构环境
        5.1.3 异构环境
    5.2 STL-SGD算法的相关实验
        5.2.1 凸问题
        5.2.2 非凸问题
第6章 总结与展望
    6.1 研究内容总结
    6.2 工作展望
参考文献
补充材料
    .1 第3章中理论结果的证明
    .2 第4章中部分理论结果的证明
致谢
在读期间发表的学术论文与取得的研究成果



本文编号:3692848

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3692848.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户af319***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]