本教程介绍如何在不使用中间主机的情况下,使用数据复制服务引入数据。 数据复制服务在 Microsoft Azure Data Box 本地运行,通过 SMB 连接到网络连接存储 (NAS) 设备,并将数据复制到 Data Box。
数据复制服务:
可在中间主机不可用的 NAS 环境中使用。
可用于复制需要花费数周时间来引入和上传其中数据的小型文件。 数据复制服务能够大幅缩减小型文件的引入和上传时间。
在本教程中,你将了解如何执行以下操作:
将数据复制到 Data Box
在开始之前,请确保:
已完成以下教程:
设置 Azure Data Box
。
已收到 Data Box 设备,并且门户中的订单状态为“已送达”。
具有复制数据时要连接的源 NAS 设备的凭据。
已连接到高速网络。 我们强烈建议你至少建立一个 10-Gb 以太网 (GbE) 连接。 如果 10-GbE 连接不可用,可以使用 1-GbE 数据链路,但复制速度会受影响。
将数据复制到 Data Box
连接到 NAS 设备之后,下一步是复制数据。 在开始复制数据之前,请查看以下注意事项:
复制数据时,请确保数据大小符合
Azure 存储和 Data Box 限制
一文中所述的大小限制。
如果 Data Box 上传的数据同时已由 Data Box 外部的其他应用程序上传,则可能会导致上传作业失败和数据损坏。
如果数据复制服务读取数据时数据正在修改,则可能会出现失败或数据损坏的情况。
请确保保留源数据的副本,直到可以确认 Data Box 已将数据传输到 Azure 存储中为止。
若要使用数据复制服务复制数据,需要创建一个作业:
在 Data Box 设备的本地 Web UI 中,转到“管理”>“复制数据”。
在“复制数据”页上,选择“创建”。
在“配置作业并启动”对话框中填写以下字段:
用于访问数据源的用户名,采用
\\<DomainName><UserName>
格式。 如果本地管理员正在连接,他们将需要显式的安全权限。 右键单击文件夹,选择“属性”,然后选择“安全性”。 这应该会在“安全性”选项卡中添加本地管理员。
用于访问数据源的密码。
目标存储帐户
从列表中选择要将数据上传到的目标存储帐户。
从列表中选择目标存储类型:“块 Blob”、“页 Blob”、“Azure 文件存储”或“块 Blob (存档)”。
目标容器/共享
输入目标存储帐户中要将数据上传到的容器或共享的名称。 该名称可以是共享名称或容器名称。 例如,使用
myshare
或
mycontainer
。 也可以输入
sharename\directory_name
或
containername\virtual_directory_name
格式的名称。
复制文件匹配模式
可按以下两种方式输入文件名匹配模式:
-
使用通配符表达式:
通配符表达式中仅支持
*
和
?
。 例如,表达式
*.vhd
匹配扩展名为
.vhd
的所有文件。 类似地,
*.dl?
匹配扩展名为
.dl
或以
.dl
开头的所有文件,例如
.dll
。 同理,
*foo
匹配名称以
foo
结尾的所有文件。
可以直接在该字段中输入通配符表达式。 默认情况下,在该字段中输入的值被视为通配符表达式。
-
使用正则表达式:
支持基于 POSIX 的正则表达式。 例如,正则表达式
.*\.vhd
匹配扩展名为
.vhd
的所有文件。 对于正则表达式,请直接提供
<pattern>
作为
regex(<pattern>)
。 有关正则表达式的详细信息,请转到
正则表达式语言 - 快速参考
。
启用此功能后,引入期间会打包小于 1 MB 的文件。 打包可以加快小型文件的数据复制速度。 如果文件数远远超出目录数,则打包还可以显著节省时间。如果使用文件优化:
-
运行“准备交付”后,可以
下载 BOM 文件
(其列出了原始文件名),以帮助确保已复制所有正确的文件。
-
请勿删除文件名以“ADB_PACK_”开头的打包文件。 如果删除已打包的文件,则在将来复制数据时不会上传原始文件。
-
请勿通过 SMB、NFS 或 REST API 等其他协议复制通过复制服务复制的相同文件。 使用不同的协议可能会导致在数据上传过程中发生冲突和失败。
-
Azure 文件存储不支持文件优化。 若要查看针对未优化的数据复制作业复制了哪些时间戳、文件属性和 ACL,请查看
传输的元数据
。
如果取消或暂停作业,大型文件可能只复制了一部分。 这些部分复制的文件将以相同的状态上传到 Azure。 取消或暂停作业时,请确保文件已正常复制。 若要验证这些文件,请查看 SMB 共享或下载 BOM 文件。
-
如果网络假死等暂时性错误导致作业失败,可以重启作业。 但是,如果作业已达到终结状态(例如,状态为“成功”或“已完成但出错”),则无法重启该作业。 作业失败可能是文件命名或文件大小问题造成的。 系统会记录这些错误,但作业完成后,便无法将其重启。
如果遇到失败并且无法重启作业,请下载错误日志,并查看日志文件中的失败。 更正问题后,创建新的作业来复制文件。 也可以
通过 SMB 复制文件
。
-
在此版本中无法删除作业。
-
可以创建无限个作业,但在任意给定时间,最多只能同时运行 10 个作业。
-
如果启用了“文件优化”,则引入时会打包小型文件,以提高复制性能。 在这种情况下,你会看到一个打包的文件(GUID 为文件名)。 请不要删除此文件。 此文件会在上传过程中解包。
-
当作业正在进行时,在“复制数据”页上:
-
在“状态”列中,可以查看复制作业的状态。 状态可以为:
-
已完成但出错
-
在“文件”列中,可以看到正在复制的文件的数目和总大小。
-
在“已处理”列中,可以看到已处理的文件的数目和总大小。
-
在“作业详细信息”列中,选择“查看”可以查看作业详细信息。
-
如果在复制过程中出现了“错误数”列中所示的任何错误,请转到“错误日志”列,并下载错误日志以用于故障排除。
等待复制作业完成。 由于某些错误仅记录在“连接并复制”页上,因此,在转到下一步骤之前,请确保复制作业已完成且未出错。
为确保数据完整性,复制数据时将以内联方式计算校验和。 复制完成后,选择“查看仪表板”以检查设备上的已用空间和可用空间。
复制作业完成后,可以选择“准备交付”。
复制作业正在进行时,无法运行“准备交付”。
请继续学习下一篇教程,了解如何将 Data Box 设备寄回 Microsoft。
将 Azure Data Box 设备寄送到 Microsoft