diff --git a/figures/model_faq56_1103.png b/figures/model_faq56_1103.png new file mode 100644 index 0000000000000000000000000000000000000000..95772a623efc952d3e7d9a0708cc8908bcab0189 Binary files /dev/null and b/figures/model_faq56_1103.png differ diff --git a/figures/model_faq57_1103.png b/figures/model_faq57_1103.png new file mode 100644 index 0000000000000000000000000000000000000000..80fba3e0e000b582ae1983721bbc51cef4a25f03 Binary files /dev/null and b/figures/model_faq57_1103.png differ diff --git a/figures/model_faq58_1103.png b/figures/model_faq58_1103.png new file mode 100644 index 0000000000000000000000000000000000000000..21660eb4e0a6fb3ede42f7f22199604ee1a179f3 Binary files /dev/null and b/figures/model_faq58_1103.png differ diff --git "a/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" "b/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" index c449ff3b585769204255d4645d0f415fd0fbe5a4..adc33fda652b2013cb1c10677cf80a4e148cdd0f 100644 --- "a/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" +++ "b/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" @@ -59,6 +59,9 @@ - [FAQ53、arm环境import sklearn和torch冲突](#faq53arm环境import-sklearn和torch冲突) - [FAQ54、GPU 1P训练到59%报Killed错误](#faq54GPU-1P训练到59%报Killed错误) - [FAQ55、GPU 2P训练正常,8P训练报错](#faq55GPU-2P训练正常-8P训练报错) + - [FAQ56、在GPU环境,编译安装华为pytorch后,安装detectron2报错](#faq56GPU环境-编译安装华为pytorch后-安装detectron2报错) + - [FAQ57、GPU dump数据时报错No such operator torchvision::nms](#faq57GPU-dump数据时报错-No-such-operator-torchvision::nms) + - [FAQ58、训练报错NPU INTERNAL ASSERT FAILD](#faq58训练报错NPU-INTERNAL-ASSERT-FAILD) - [2.2 NPU模型分布式运行常见问题FAQ](#22-npu模型分布式运行常见问题faq) - [FAQ1、在模型分布式训练时,遇到报错 host not found.](#faq1在模型分布式训练时遇到报错-host-not-found) - [FAQ2、在模型运行时,遇到eval模式下loss值特别大,过万.](#faq2在模型运行时遇到eval模式下loss值特别大过万) @@ -1146,6 +1149,39 @@ GPU 2P训练正常, GPU 8P训练报错,报错信息如下: - 处理方法 loss_scale有128减小为64,8P GPU训练正常 +### FAQ56、在GPU环境,编译安装华为pytorch后,安装detectron2报错 +- 现象描述 +模型整网精度比对过程中,在GPU环境,编译安装华为pytorch后,安装detectron2报错如下: +![](https://gitee.com/xiaxia3/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq56_1103.png) + +- 原因分析 +可知是缺少文件acl_base.h,但是环境中能查到这个文件,然后是个人conda环境没有这个文件 + +- 处理方法 +将正常npu环境的/usr/local/lib/python3.7/dist-packages/torch/include/third_party 拷贝到个人conda环境/root/miniconda3/envs/wxx/lib/python3.7/site-packages/torch/include/目录下,问题解决。 + +### FAQ57、GPU dump数据时报错,RuntimeError:No such operator torchvision::nms +- 现象描述 +模型整网精度比对过程中,在GPU dump数据时,算子报错,RuntimeError:No such operator torchvision::nms +![](https://gitee.com/xiaxia3/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq57_1103.png) + +- 原因分析 +用官网torch包训练正常,根据报错信息可知是torchvision包里的算子nms报错,原因是要源码编译安装torchvision + +- 处理方法 +卸载torchvision编译源码安装,然后再次运行,问题解决。 + +### FAQ58、模型训练报错,NPU-INTERNAL-ASSERT-FAILD +- 现象描述 +模型打通过程中,报RuntimeError: options.device().type() == DeviceType::NPU INTERNAL ASSERT FAILD,详情如下: +![](https://gitee.com/xiaxia3/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq58_1103.png) + +- 原因分析 +查找Pytorch源码,可能是输入参数不在同一个设备上报错 + +- 处理方法 +打印报错位置的输入tensor的device,一个在cpu上,一个在npu,将在cpu上的tensor to npu,问题解决。 + ## [2.2 NPU模型分布式运行常见问题FAQ](#22-NPU模型分布式运行常见问题FAQ) ### FAQ1、在模型分布式训练时,遇到报错 host not found.