添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

1)在window中安装步骤

对于在 Windows 操作系统下运行代码,以下是相应的修改后代码:

1. 安装 lsof 工具
在 Windows 中,我们需要通过其他方式安装 lsof 工具,例如从开放源代码软件网站上下载。在安装完成后,可以将其添加到环境变量中。

2. 安装 Horovod
安装 Horovod 需要将原来的命令行修改为下面这个:

set HOROVOD_GPU_ALLREDUCE=NCCL
set HOROVOD_NCCL_LINK=SHARED
set HOROVOD_WITH_PYTORCH=1
pip install --no-cache-dir horovod==0.19.4

注意,设置环境变量的方式在 Windows 下与 Linux 不同。

3. 安装 pillow-simd
同样地,我们需要修改命令行:

pip uninstall pillow
set CC=“cc -mavx2”
pip install -U --force-reinstall pillow-simd

4. 下载英文模型
在 Windows 中,这个操作仍然是相同的:

python -m spacy download en

注意,需要确保已经安装了正确版本的 Python 和 spacy 包。

遇到的问题1:安装lsof

使用Windows版本的Cygwin软件来模拟类Unix环境,并在其中安装lsof。执行以下步骤:

  1. 首先,下载并安装Cygwin软件。您可以从此处下载: Cygwin Installation
  2. 安装Cygwin时,请确保在“选择包”步骤中包括“lsof”软件包。您可以在此处搜索该软件包并选择它: Cygwin Packages
  3. 等待Cygwin安装和配置lsof软件包。
  4. 安装完成后,打开Cygwin终端并输入以下命令来验证lsof是否正在运行: lsof -v

如果lsof已成功安装和配置,则应显示版本信息。现在,您可以使用lsof命令来监视Windows上打开的文件和进程。

遇到的问题2: ERROR: Could not build wheels for horovod, which is required to install pyproject.toml-based projects

系统缺乏必要的编译依赖项,如CMake

cmake下载地址: Download | CMake

遇到的问题3: error: CUDA library was not found (see error above).
Please specify correct CUDA location with the HOROVOD_CUDA_HOME environment variable or combination of HOROVOD_CUDA_INCLUDE and HOROVOD_CUDA_LIB environment variables.

这个错误提示说明在构建Horovod时没有找到CUDA库。要解决这个问题,你可以按照以下步骤进行:

1. 确认CUDA已经正确安装。你可以在终端中使用`nvcc --version`来检查CUDA是否正确安装并获取版本号。
2. 确认HOROVOD_CUDA_HOME环境变量已经设置,并且指向正确的CUDA路径。你可以通过运行`echo $HOROVOD_CUDA_HOME`来检查环境变量是否正确设置。
3. 如果HOROVOD_CUDA_HOME环境变量没有设置,可以使用HOROVOD_CUDA_INCLUDE和HOROVOD_CUDA_LIB环境变量来指定CUDA库的路径。HOROVOD_CUDA_INCLUDE环境变量指定CUDA头文件的路径,HOROVOD_CUDA_LIB环境变量指定CUDA库文件的路径。

参考文章: error: CUDA library was not found · Issue #734 · horovod/horovod · GitHub

遇到的问题4:  error: None of TensorFlow, PyTorch, or MXNet plugins were built. See errors above.

中间报了MPI错误

解决办法:

要在Windows上安装OpenMPI,您需要遵循以下步骤:

1.下载合适的安装程序
您需要从open-mpi.org网站下载适用于Windows的二进制安装程序。此页面包含适用于不同版本的Windows的不同安装程序,包括MSI和zip。

只有老版本有exe安装包: Open MPI: Version 1.6

2.运行安装程序
下载完成后,运行安装程序并按照提示进行安装。您可以在默认安装目录中安装OpenMPI或选择自定义目录。

3.配置环境变量
在成功安装OpenMPI之后,您需要将OpenMPI路径添加到Windows的环境变量中。这可以通过以下步骤完成:

a)在Windows资源管理器中,右键单击“此电脑”,选择“属性”。
b)单击“高级系统设置”。
c)单击“环境变量”。
d)在“用户变量”或“系统变量”中创建一个新变量,并将其命名为“OMPI_HOME”,然后将其值设置为OpenMPI安装的目录。
e)在现有的“Path”变量中添加%OMPI_HOME%\bin。这将确保在任何位置都可以访问OpenMPI命令。

遇到问题5:MSBuild version 17.5.1+f6fdcf537 for .NET Framework
MSBUILD : error MSB1001: 未知开关。error: None of TensorFlow, PyTorch, or MXNet plugins were built. See errors above.

这个错误提示意味着您在 MSBuild 命令行中使用了一个未知的开关。您需要检查您的命令行并确保所有使用的开关都是正确的。另外,请注意您的 MSBuild 版本是否与您正在构建的项目兼容。如果您不确定您的命令行是否正确或您的 MSBuild 版本是否正确,请参阅相关文档或与开发人员社区寻求帮助。

解决办法:

Install error: None of TensorFlow, PyTorch, or MXNet plugins were built. See errors above. · Issue #1334 · horovod/horovod · GitHub

pip install --no-cache-dir git+https://github.com/horovod/horovod

相当于将horovod下载到本地,再安装!

安装horovod遇到的问题,Horovod是一种分布式深度学习框架,可在多个GPU服务器之间执行深度学习模型训练。 Horovod的设计目的是使分布式训练尽可能简单,开发人员只需稍微修改现有的单机代码即可实现分布式训练。与其他分布式深度学习框架相比,Horovod具有出色的可伸缩性和效率,并且能够应对处理大型数据集训练的需要。Horovod支持多种深度学习框架,例如TensorFlow,PyTorch和Keras等。 包装器,用于在docker容器中 安装 horovod 和OpenMPI。 在Dockerfile中用作ENTRYPOINT。 如果提供以下环境设置之一: OpenMPI =版本(例如4.0.0): 安装 版本4.0.0的OpenMPI HOROVOD =版本(例如0.23.1或“最新”): 安装 horovod 库 如果提供的是 HOROVOD env,但未提供OpenMPI ,则首先 安装 默认的OpenMPI版本(现在:4.1.0)。 Dockerfile.example:是使用 horovod _entrypoint的Dockerfile的示例。 Docker使用示例 docker run -e OpenMPI=4.1.0 -e HOROVOD =latest repo/dockerimage:tag < user> 该脚本期望c
服务器linux环境下 horovod 安装 和报错信息处理(RuntimeEror:Failed to detenmine if Gloo support has been built.)
ERROR:Could not build wheels for pycocotools, which is required to install pyproject.toml-based
File "/home/wugaosheng/anaconda3/envs/ctc/lib/ python 3.6/site-packages/ horovod /tensorflow/__init__.py", line 25, in <module> check_extension(' horovod .tensorflow', ' HOROVOD _WIT
分布式训练框架 Horovod 使用文章目录一、 Horovod 简介二、 Horovod 框架的 安装 Install1、 安装 OpenMPI2、 安装 Horovod 三、 Horovod 框架的使用 由于近期需要提高网络训练的速度,所以去找了一条捷径,想走快点,就找到了 Horovod 框架,对TensorFlow搭建的网络训练提速特别有效,好吧,让我们一起开启愉快的 Horovod 之旅吧. Oh, no 是痛苦的Ho...
有几个可能的原因: 1. 安装 依赖 问题 Horovod 需要依赖MPI和NCCL等库,如果这些依赖没有正确地 安装 Horovod 就无法正常 安装 。可以尝试先 安装 这些依赖库,再 安装 Horovod 。 2. 环境变量 问题 Horovod 安装 需要设置一些环境变量,如CUDA_HOME、NCCL_HOME等,如果这些环境变量没有设置正确, Horovod 也无法正常 安装 。可以检查一下环境变量是否设置正确。 3. 版本兼容 问题 Horovod 和其他库的版本兼容性可能存在 问题 ,需要确保版本兼容性。可以查看 Horovod 的官方文档,了解 Horovod 与其他库的版本兼容性。 4. 编译器 问题 Horovod 需要使用支持C++11的编译器,如果使用的编译器不支持C++11, Horovod 就无法正常 安装 。 如果以上方法都无法解决 问题 ,可以尝试在 Horovod 的GitHub页面上提出 问题 ,或者在相关论坛或社区中寻求帮助。