1)在window中安装步骤
对于在 Windows 操作系统下运行代码,以下是相应的修改后代码:
1. 安装 lsof 工具
在 Windows 中,我们需要通过其他方式安装 lsof 工具,例如从开放源代码软件网站上下载。在安装完成后,可以将其添加到环境变量中。
2. 安装 Horovod
安装 Horovod 需要将原来的命令行修改为下面这个:
set HOROVOD_GPU_ALLREDUCE=NCCL
set HOROVOD_NCCL_LINK=SHARED
set HOROVOD_WITH_PYTORCH=1
pip install --no-cache-dir horovod==0.19.4
注意,设置环境变量的方式在 Windows 下与 Linux 不同。
3. 安装 pillow-simd
同样地,我们需要修改命令行:
pip uninstall pillow
set CC=“cc -mavx2”
pip install -U --force-reinstall pillow-simd
4. 下载英文模型
在 Windows 中,这个操作仍然是相同的:
python -m spacy download en
注意,需要确保已经安装了正确版本的 Python 和 spacy 包。
遇到的问题1:安装lsof
使用Windows版本的Cygwin软件来模拟类Unix环境,并在其中安装lsof。执行以下步骤:
-
首先,下载并安装Cygwin软件。您可以从此处下载:
Cygwin Installation
-
安装Cygwin时,请确保在“选择包”步骤中包括“lsof”软件包。您可以在此处搜索该软件包并选择它:
Cygwin Packages
-
等待Cygwin安装和配置lsof软件包。
-
安装完成后,打开Cygwin终端并输入以下命令来验证lsof是否正在运行:
lsof -v
如果lsof已成功安装和配置,则应显示版本信息。现在,您可以使用lsof命令来监视Windows上打开的文件和进程。
遇到的问题2: ERROR: Could not build wheels for horovod, which is required to install pyproject.toml-based projects
系统缺乏必要的编译依赖项,如CMake
cmake下载地址:
Download | CMake
遇到的问题3: error: CUDA library was not found (see error above).
Please specify correct CUDA location with the HOROVOD_CUDA_HOME environment variable or combination of HOROVOD_CUDA_INCLUDE and HOROVOD_CUDA_LIB environment variables.
这个错误提示说明在构建Horovod时没有找到CUDA库。要解决这个问题,你可以按照以下步骤进行:
1. 确认CUDA已经正确安装。你可以在终端中使用`nvcc --version`来检查CUDA是否正确安装并获取版本号。
2. 确认HOROVOD_CUDA_HOME环境变量已经设置,并且指向正确的CUDA路径。你可以通过运行`echo $HOROVOD_CUDA_HOME`来检查环境变量是否正确设置。
3. 如果HOROVOD_CUDA_HOME环境变量没有设置,可以使用HOROVOD_CUDA_INCLUDE和HOROVOD_CUDA_LIB环境变量来指定CUDA库的路径。HOROVOD_CUDA_INCLUDE环境变量指定CUDA头文件的路径,HOROVOD_CUDA_LIB环境变量指定CUDA库文件的路径。
参考文章:
error: CUDA library was not found · Issue #734 · horovod/horovod · GitHub
遇到的问题4: error: None of TensorFlow, PyTorch, or MXNet plugins were built. See errors above.
中间报了MPI错误
解决办法:
要在Windows上安装OpenMPI,您需要遵循以下步骤:
1.下载合适的安装程序
您需要从open-mpi.org网站下载适用于Windows的二进制安装程序。此页面包含适用于不同版本的Windows的不同安装程序,包括MSI和zip。
只有老版本有exe安装包:
Open MPI: Version 1.6
2.运行安装程序
下载完成后,运行安装程序并按照提示进行安装。您可以在默认安装目录中安装OpenMPI或选择自定义目录。
3.配置环境变量
在成功安装OpenMPI之后,您需要将OpenMPI路径添加到Windows的环境变量中。这可以通过以下步骤完成:
a)在Windows资源管理器中,右键单击“此电脑”,选择“属性”。
b)单击“高级系统设置”。
c)单击“环境变量”。
d)在“用户变量”或“系统变量”中创建一个新变量,并将其命名为“OMPI_HOME”,然后将其值设置为OpenMPI安装的目录。
e)在现有的“Path”变量中添加%OMPI_HOME%\bin。这将确保在任何位置都可以访问OpenMPI命令。
遇到问题5:MSBuild version 17.5.1+f6fdcf537 for .NET Framework
MSBUILD : error MSB1001: 未知开关。error: None of TensorFlow, PyTorch, or MXNet plugins were built. See errors above.
这个错误提示意味着您在 MSBuild 命令行中使用了一个未知的开关。您需要检查您的命令行并确保所有使用的开关都是正确的。另外,请注意您的 MSBuild 版本是否与您正在构建的项目兼容。如果您不确定您的命令行是否正确或您的 MSBuild 版本是否正确,请参阅相关文档或与开发人员社区寻求帮助。
解决办法:
Install error: None of TensorFlow, PyTorch, or MXNet plugins were built. See errors above. · Issue #1334 · horovod/horovod · GitHub
pip install --no-cache-dir git+https://github.com/horovod/horovod
相当于将horovod下载到本地,再安装!
安装horovod遇到的问题,Horovod是一种分布式深度学习框架,可在多个GPU服务器之间执行深度学习模型训练。 Horovod的设计目的是使分布式训练尽可能简单,开发人员只需稍微修改现有的单机代码即可实现分布式训练。与其他分布式深度学习框架相比,Horovod具有出色的可伸缩性和效率,并且能够应对处理大型数据集训练的需要。Horovod支持多种深度学习框架,例如TensorFlow,PyTorch和Keras等。
包装器,用于在docker容器中
安装
horovod
和OpenMPI。 在Dockerfile中用作ENTRYPOINT。
如果提供以下环境设置之一:
OpenMPI =版本(例如4.0.0):
安装
版本4.0.0的OpenMPI
HOROVOD
=版本(例如0.23.1或“最新”):
安装
horovod
库
如果提供的是
HOROVOD
env,但未提供OpenMPI ,则首先
安装
默认的OpenMPI版本(现在:4.1.0)。
Dockerfile.example:是使用
horovod
_entrypoint的Dockerfile的示例。
Docker使用示例
docker run -e OpenMPI=4.1.0 -e
HOROVOD
=latest repo/dockerimage:tag < user>
该脚本期望c
服务器linux环境下
horovod
安装
和报错信息处理(RuntimeEror:Failed to detenmine if Gloo support has been built.)
ERROR:Could not build wheels for pycocotools, which is required to install pyproject.toml-based
File "/home/wugaosheng/anaconda3/envs/ctc/lib/
python
3.6/site-packages/
horovod
/tensorflow/__init__.py", line 25, in <module>
check_extension('
horovod
.tensorflow', '
HOROVOD
_WIT
分布式训练框架
Horovod
使用文章目录一、
Horovod
简介二、
Horovod
框架的
安装
Install1、
安装
OpenMPI2、
安装
Horovod
三、
Horovod
框架的使用
由于近期需要提高网络训练的速度,所以去找了一条捷径,想走快点,就找到了
Horovod
框架,对TensorFlow搭建的网络训练提速特别有效,好吧,让我们一起开启愉快的
Horovod
之旅吧. Oh, no 是痛苦的Ho...
有几个可能的原因:
1.
安装
依赖
问题
:
Horovod
需要依赖MPI和NCCL等库,如果这些依赖没有正确地
安装
,
Horovod
就无法正常
安装
。可以尝试先
安装
这些依赖库,再
安装
Horovod
。
2. 环境变量
问题
:
Horovod
安装
需要设置一些环境变量,如CUDA_HOME、NCCL_HOME等,如果这些环境变量没有设置正确,
Horovod
也无法正常
安装
。可以检查一下环境变量是否设置正确。
3. 版本兼容
问题
:
Horovod
和其他库的版本兼容性可能存在
问题
,需要确保版本兼容性。可以查看
Horovod
的官方文档,了解
Horovod
与其他库的版本兼容性。
4. 编译器
问题
:
Horovod
需要使用支持C++11的编译器,如果使用的编译器不支持C++11,
Horovod
就无法正常
安装
。
如果以上方法都无法解决
问题
,可以尝试在
Horovod
的GitHub页面上提出
问题
,或者在相关论坛或社区中寻求帮助。