Alluxio 2.3.0专注于简化混合云部署中的用户体验。在混合云部署当中,Alluxio和计算一同部署在云端来访问本地数据。诸如环境校验工具和并发元数据同步等特性极大地充实了Alluxio的功能。而由于集成了AWS EMR、Google Dataproc、K8s以及AWS Glue,使得Alluxio能够十分容易地在多样化的云环境中使用。在这篇文章里,我们将会分享该版本的几个最重要的部分,想要了解更多全面信息,请访问我们的 发行说明页面 。
下载地址可以在 这里 找到。你可以加入我们的 Slack频道 成为数千名成员中的一员,在这里你可以提问任何问题并且提供你的反馈!感谢为这个版本做出贡献的每一个人!
迁移到云上的趋势无疑会影响整个行业,数据分析和机器学习都无一例外,但是我们已经看到许多Alluxio使用者更喜欢混合云的方式,而不是搬家法(lift and shift)。事实证明,Alluxio的计算云上扩容但 数据零拷贝的能力 已经被证明在组织/机构利用云平台时具有很大价值。
Alluxio2.3解决了几个重要的可用性挑战,并且极大地提升了在混合部署中的系统效能。
体验一下我们在 AWS EMR 或者是 Google Dataproc 上的混合云部署样例。
第一次部署Alluxio应该是容易的,能够重复地在栈中使用Alluxio进行定制化的部署是云中部署的关键。与本地部署中常用的长期维护模型相反,云上资源通常是弹性的或者短暂的。
为了与terraform脚本集成,Alluxio发布了相关的工件。有经验的用户可以以Alluxio所提供的工件(更多细节参考上述教程)为基础来构建自己的terraform部署。注意该功能目前只在企业版本可用。
部署之后,将云上的Alluxio连接到远程数据的障碍是Alluxio新用户所面临的最大挑战。我们创建了一个指导性的体验指南,从而在部署后的该首个环节中帮助用户。
Alluxio企业版在用户界面有一个远程连接页面,该页面可以对整个安装过程进行故障排除和校验。 社区版本和企业版本都有三个全新的校验工具来帮助用户在他们的部署过程中进行故障排除,这些工具都是命令行bin/alluxio的一部分。
runHdfsMountTests检查将目标HDFS路径安装到Alluxio的相关配置。
runUfsIOTest测量从Alluxio集群到目标HDFS的读写IO吞吐量。
runHmsTests验证给定的配置足以运行HiveMetastore操作。
对于长时间运行的生产环境混合云部署,用户们发现Alluxio中虚拟化的文件和目录能够和本地数据保持几乎实时的同步是十分重要的。在以前,这对于包含大量文件的命名空间是不可行的。
在Alluxio 2.3中,新的并发元数据同步算法将性能提高了一个数量级或者更多,尤其是对于有着并发操作的大型命名空间。
Alluxio最常见的使用场景之一就是和像Presto以及SparkSQL这样的框架一起用在OLAP大数据工作负载中。Alluxio结构化数据服务(SDS)是在Alluxio中的一个子系统,它使得Alluxio能够和这些框架在结构化数据层面上进行集成,而不是在原始数据和目录层面。在这里阅读多关于 SDS 的内容。
Alluxio 2.3极大地提高了SDS的兼容性,尤其是在云环境中。 Glue UDB支持
Alluxio目录服务现在支持连接AWS Glue的元数据服务。除了已有的对Hive Metastore的支持外,这还使得Alluxio能够对存储在AWS Glue中的表格元数据提供结构化数据服务。 ORC File支持
现在,利用Alluxio目录服务进行转换,ORC也是一种支持的输入格式(此外还有CSV和Parquet格式)。
你能够在 2.3.0官方发行说明 中找到更多信息。
想要听到核心开发者的意见吗?加入我们关于 2.3版本发布的在线会议 吧!
有任何问题?可以来加入 Community Slack Channel 。