其实不难发现,我报错的位置基本都是从 gpu 往 cpu 转换的时候出现的问题。
gpu
cpu
shm_size: 64G → shm_size: 128G
后续发现其实是某张卡有问题,
例行吐槽,第一次遇到这个错误,我是非常无语的。以前是不报错的,和以前相比,不同的地方有
感觉上可能会和显存有点关系吧
第一次报错
batch_size
按照这个思路继续把 batch_size 调小(8→5),又换了个位置报错。。
换思路
报错信息是CUDA丢出来的一个运行时错误,发生了非法内存访问。网上关于这个问题的讨论也很多,但是并没有发现有找到真正原因的。
很多都是靠感觉的
参考: