如何处理训练过程中出现oom 显存不足？

现象描述：gpu上网络运行过程中出现oom（显存不足）

工具/软件

mindspore1.5.0

windows10

第1步

原因分析

出现该现象，可能原因如下：

1.训练batchsize过大。

2.输入数据的shape是变化的（输入数据动态shape）。

3.输出结果的tensor保存起来了。

4.网络中的算子里出现显存泄漏（算子里每次launch都申请显存，并且不释放）。

第2步

解决方法

步骤1：排查训练的batchsize是否过大，可以逐步缩小batch，如果觉得batch不够大，还是出现oom，则排除这个原因。

第3步

步骤2：确认输入数据是否是动态shape，当前动态shape还不支持输入shape可变，因为针对这种场景，每次step训练都会编译新图，导致显存不断申请最后oom，可以通过图的个数是不是不断增长来判断。

第4步

步骤3：输出tensor里会挂接device上的地址，方便print时同步device数据输出，在tensor析构的时候会释放device地址，因此如果每次step训练都把输出tensor保存起来的话，导致tensor不会析构，随着训练step的增加则会oom。

第5步

步骤4：前面3个步骤确认都没有问题的话，则有可能是算子实现bug，可以排查下是否有新增算子，算子里是否有申请显存的操作导致显存泄漏。

第6步

案例代码：

```

bool launch(const std::vector &inputs, const std::vector &workspace,

const std::vector &outputs, void *stream_ptr) override { t *input = getdeviceaddress(inputs, 0); s *indices = getdeviceaddress(inputs, 1); t *updates = getdeviceaddress(inputs, 2); t *output = getdeviceaddress(outputs, 0);

const size_t indices_len = sizeof(s) * out_strides_.size();

void *indices_stride_work =device::gpu::gpumemoryallocator::getinstance().alloctensormem(indices_len); if (indices_stride_work == nullptr) { ms_log(exception)

如何处理训练过程中出现oom 显存不足？

零古网

如何处理训练过程中出现oom 显存不足？

推荐文章

利用纯css实现图片翻转的效果

PPT粘贴怎么保留原格式 PPT粘贴保留原格式的方法

html用title属性实现鼠标悬停显示文字

系统装到f盘了怎么办装系统装到d盘了怎么办

电脑怎么改变开机方法电脑开机怎么修改

阅读排行

ppt转pdf ppt怎么转换成pdf

红米note 11pro录像有卡顿怎么解决处理手机反应慢的方法

WPS如何在手稿中输入数学公式？

?电脑版wps文档如何删除页面边框

更换SSD固态硬盘怎么装系统更换固态硬盘怎么重装系统

网页设计学习XHTML应用小结

巴法络WCR G300无线路由器的WDS设置方法【图解】

css中引入svg来兼容部分安卓机显示0.5px边框的示例

网络不能连接?电脑本地连接没有了的几种情况解决方法

腾达4G302无线路由器怎么修改无线密码和名称

零古网

如何处理训练过程中出现oom 显存不足？

推荐文章

利用纯css实现图片翻转的效果

PPT粘贴怎么保留原格式 PPT粘贴保留原格式的方法

html用title属性实现鼠标悬停显示文字

系统装到f盘了怎么办 装系统装到d盘了怎么办

电脑怎么改变开机方法 电脑开机怎么修改

阅读排行

ppt转pdf ppt怎么转换成pdf

红米note 11pro录像有卡顿怎么解决 处理手机反应慢的方法

WPS如何在手稿中输入数学公式？

?电脑版wps文档如何删除页面边框

更换SSD固态硬盘怎么装系统 更换固态硬盘怎么重装系统

网页设计学习XHTML应用小结

巴法络WCR G300无线路由器的WDS设置方法【图解】

css中引入svg来兼容部分安卓机显示0.5px边框的示例

网络不能连接?电脑本地连接没有了的几种情况解决方法

腾达4G302无线路由器怎么修改无线密码和名称

系统装到f盘了怎么办装系统装到d盘了怎么办

电脑怎么改变开机方法电脑开机怎么修改

红米note 11pro录像有卡顿怎么解决处理手机反应慢的方法

更换SSD固态硬盘怎么装系统更换固态硬盘怎么重装系统