借助
适用于 Azure SQL 数据库和 SQL Server 的 Apache Spark 连接器
,这些数据库可以充当 Apache Spark 作业的输入数据源和输出数据接收器。 由此,可在大数据分析中使用实时事务数据,并保留临时查询或报告的结果。
与内置 JDBC 连接器相比,此连接器能够将数据批量插入 SQL 数据库。 它的性能可以比逐行插入快 10 倍到 20 倍。 适用于 SQL Server 和 Azure SQL 数据库的 Spark 连接器还支持 Microsoft Entra ID(以前称为 Azure Active Directory)身份验证,从而使你可以使用 Microsoft Entra ID 帐户从 Azure Databricks 安全地连接到 Azure SQL 数据库。 它提供类似于内置 JDBC 连接器的接口。 可以轻松迁移现有的 Spark 作业以使用此连接器。
适用于 SQL Server 的 Spark 连接器有两个版本:一个用于 Spark 2.4,一个用于 Spark 3.x。 Spark 3.x 连接器需要 Databricks Runtime 7. x 或更高版本。 连接器受社区支持,不包括 Microsoft SLA 支持。 在
GitHub
上提出问题以寻求社区帮助。
支持的版本