分布式深度学习平台DisPyTorch

发布时间：2024-04-20 07:46

　　随着大数据与人工智能的发展,深度学习模型面对的问题越来越复杂,模型参数越来越多,处理的数据集规模也越来越大。为了突破单机计算资源的限制,构建一个高效易用的分布式深度学习平台已经成为学术界和工业界广泛关注的问题。已有的大部分分布式深度学习平台仅支持静态计算图,且都是基于参数服务器单一框架的。相较于静态计算图,动态计算图可以在运行过程中修改或定义图中节点从而能够处理更复杂的网络模型。单一的分布式深度学习框架无法高效地处理不同的现实应用场景,比如网络模型的大小不同、分布式节点的多少不同和各节点计算资源均匀与否等多种场景。目前国际上仍没有一个支持多种分布式框架、支持动态计算图的分布式深度学习平台。为了填补这一国际空白,本文基于PyTorch设计并研发了一个分布式深度学习平台DisPyTorch。为了能够处理各种复杂应用场景,本文在DisPyTorch平台上设计并实现了三种分布式深度学习框架:MR-DisPyTorch、RA-DisPyTorch和PS-DisPyTorch。用户可以根据实际的应用场景选择合适的框架。本文的贡献如下:一、设计并实现了一种基于MapReduce编程模型的分布式深度学...

【文章页数】：75 页

【学位级别】：硕士

【部分图文】：

图１．２：单隐层前馈网络??

?第一章绪论???输出??１?Ｉ?１??输出层?ｐ．．．厂）…ｒ）??／?＼??隐层?〇?－?〇■？■〇？？？〇??、Ｘ?＇、、ｙ?，??ｐＫ??输入层?（）＿＿？（）？■？（）??Ｖ?Ｙ?Ｙ??输入??图１．２：单隐层前馈网络??表Ｕ：常见ＣＮＮ的参数大小??模型?｜层数｜??....

图１．３：?ＢＰ算法中的变量??

?第一章绪论???入爲知。那么，对于训练数据（Ｘｆｃ，ｙｆｃ），令ｈ为神经网络的输出，则??神经网络在数据（Ｘｆｃ，ｙｆｃ）上的误差表示为￡＾?＝?Ｌｊｙｆｃ，；＾）。令对为输出层第ｊ个??神经元的输出，我们根据这个训练数据，可以利用ＢＰ算法，求得￡；ｆｃ关于??和ｕ＾｝的梯度，....

图１．４：数据并行??

?第一章绪论???！模型ｍ?ｉ?！模型ｍ?；?！模型ｍ?ｉ??ｉ曜?ｉ嘱?：ｗ；??？］．．．??！?＾Ｂ；?！?＾Ｓ；?！?＾９；??节点１?节点２?节点ｐ??图１．４：数据并行??每个节点分别负责不同数据上的计算量，将多个节点上求得的梯度通过网??络通信来进行模型参数的更新。....

图１．５：模型并行??

?第一章绪论???丨节点ｐ??Ｌ＝ｔ＝ｌ???Ｉ?■??■?■?■?Ｉ?■??■?■??：ｒ－４—＼???■■?ｉ节点２??■■丨节点ｌ??！?；??图１．５：模型并行??通过模型并行构成多机流水线，就可以训练非常大的神经网络，克服了单??机无法保存大模型的困难［４］。一方面，在....

本文编号：3959104

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3959104.html

上一篇：精密跟踪系统非线性建模控制与验证系统研发
下一篇：基于证据理论的邻域覆盖多粒度粗糙集的相对约简

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|