link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

Azure AI 语音中有哪些新增功能？

项目
01/13/2025
快速听录现已正式发布。它可以比实际音频持续时间更快地听录音频。有关详细信息，请参阅快速听录 API 指南。
Azure AI 语音工具包扩展现已可供 Visual Studio Code 用户使用。它包含一系列语音快速入门和场景示例，只需单击即可轻松构建和运行。有关详细信息，请参阅 Visual Studio Code 市场中的 Azure AI 语音工具包。
Azure AI 语音高清 (HD) 语音现已推出公共预览版。 HD 语音可以理解内容，自动检测输入文本中的情绪，并实时调整说话语调，使之与情绪匹配。有关详细信息，请参阅什么是 Azure AI 语音高清 (HD) 语音？。
Azure AI 语音服务现已推出视频翻译功能。有关详细信息，请参阅什么是视频翻译？。
Azure AI 语音服务支持 OpenAI 文本转语音声音。有关详细信息，请参阅什么是 OpenAI 文本转语音声音？。
定制声音 API 可用于创建和管理专业和个人神经网络定制声音模型。

选择服务或资源

文本转语音服务

语音转文本服务

语音 SDK 1.42.0：2024 年 12 月发行版

Java：使用 FileLogger、MemoryLogger、EventLogger 和 SpxTrace 的类添加了诊断日志 API。
支持将会议参与者的 JSON 属性“details”发送到服务
Go：添加了公共属性 ID SpeechServiceConnection_ProxyHostBypass，用于指定未使用代理的主机。
JavaScript、Go：添加了公共属性 id Speech_SegmentationStrategy，用于确定口语短语何时结束以及何时应生成最终识别结果（包括语义分段）
JavaScript、Go：添加了公共属性 id Speech_SegmentationMaximumTimeMs，根据 Java、Python、C#、C++ 中的时间确定口语短语的结束

Bug 修复

如果未设置语音名称，则修复每次合成时嵌入的 TTS 语音（重新）加载的问题。
修复了在某些情况下使用 MeetingTranscriber 时的偏移计算问题。
修复了并行注册多个诊断事件侦听器时可能出现的死锁问题。
(JavaScript) 修复了音频结束时可能丢失 NoMatch 结果的问题。此修复还使语音结束时的行为与其他 SDK 语言保持一致，并可能导致不再引发某些空事件。
(JavaScript) 修复了结果 JSON 中的偏移量，以便与结果对象的偏移量保持一致。以前仅修复了结果对象的偏移属性以考虑服务重新连接。
Go 语言：修复了编译错误 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
修复了重新连接到服务时会议听录中的结果偏移。
修复了日志记录中的死锁问题。
更新了 C# 示例，以使用 .NET 8.0。
Java 示例使用诊断日志 API 来演示新诊断日志类的用法。

2024 年 11 月版本

适用于 Visual Studio Code 的 Azure AI 语音工具包扩展

Azure AI 语音工具包扩展现已可供 Visual Studio Code 用户使用。它包含一系列语音快速入门和场景示例，只需单击即可轻松构建和运行。有关详细信息，请参阅 Visual Studio Code 市场中的 Azure AI 语音工具包。

文本转语音头像代码示例

我们向 Android 和 iOS 添加了文本转语音虚拟形象代码示例。这些示例演示了如何在移动应用程序中使用实时文本转语音虚拟形象。

语音 SDK 1.41.1：2024 年 10 月版本

添加了对 Amazon Linux 2023 和 Azure Linux 3.0 的支持。
添加了公共属性 ID SpeechServiceConnection_ProxyHostBypass，用于指定未使用代理的主机。
添加了用于控制新短语分段策略的属性。
修复了不完全支持 2024 年 8 月之后生成的关键字识别高级模型的问题。
https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
请注意，在 iOS 上使用 Swift 时，项目必须使用 MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip（下载网址 https://aka.ms/csspeech/iosbinaryembedded ）或 MicrosoftCognitiveServicesSpeechEmbedded-iOS Pod（包含高级模型支持）。
修复了 C# 中与字符串使用情况相关的内存泄漏。
修复了 Objective-C 和 Swift 中无法从 SPXConversationTranscriptionResult 获取 SPXAutoDetectSourceLanguageResult 的问题。
修复了将 Microsoft Audio Stack 用于识别时偶尔出现的崩溃问题。
修复了 Python 中的类型提示。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
修复了在使用自定义终结点时无法提取 TTS 语音列表的问题。
修复了使用短名称指定语音时，每次朗读请求都会重新初始化嵌入式 TTS 的问题。
修复了 RecognizeOnce 音频最大持续时间的 API 参考文档。
修复了在 JavaScript 中处理任意采样率时出现的错误
- 感谢 rseanhall 对此做出的贡献。
- 修复了在 JavaScript 中计算音频偏移量时出现的错误
  - 感谢 motamed 对此做出的贡献。
  - Windows ARM 32 位上的关键字识别支持已删除，因为此平台所需的 ONNX 运行时不可用。
  - 在语音识别中增加了对 G.722 压缩音频流式处理的支持。
  - 在语音合成中的输入文本流式处理中增加了对音调、速率和音量设置的支持。
  - 通过在语音合成中引入 PersonalVoiceSynthesisRequest 增加了对个人语音输入文本流式处理的支持。此 API 为预览版，在未来版本中可能会发生变化。
  - 增加了在使用 ConversationTranscriber 时对中间结果进行分割聚类的支持。
  - 由于 CentOS 7 终止服务且 RHEL 7 维护支持 2 结束，删除了 CentOS/RHEL 7 支持。
  - 使用嵌入式语音模型现在需要模型许可证而不是模型密钥。如果你是现有的嵌入式语音客户，想要进行升级，请联系 Microsoft 的支持人员以获取有关模型更新的详细信息。
  - 使用 _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR 标志为 Windows 生成语音 SDK 二进制文件，来表明已缓解 Visual C++ 运行时问题：升级到 VS 2022 版本 17.10.0 后 std::mutex::lock 发生访问冲突 - 开发者社区 (visualstudio.com) 。如果使用语音 SDK 的 Windows C++ 应用程序的代码使用 std::mutex，则这些应用程序可能需要应用相同的生成配置标志（请参阅链接问题中的详细信息）。
  - 已修复 OpenSSL 3.x 检测在 Linux arm64 上不起作用的问题 ( https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420 )。
  - 已修复部署 UWP 应用时，MAS NuGet 包中的库和模型不会复制到部署位置的问题。
  - 已修复 Android 包中的内容提供程序冲突 ( https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463 )。
  - 已修复后处理选项不适用于中间语音识别结果的问题。
  - 已修复有关特定于分发的运行时标识符的 .NET 8 警告 ( https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244 )。
  - 已将嵌入式语音示例更新为使用模型许可证而不是密钥。
  - 升级了语音 SDK Linux 平台要求：
    - 新的最低基线为 Ubuntu 20.04 LTS，或与 glibc 2.31 或更高版本兼容。
    - 根据 Ubuntu 20.04 平台支持移除了适用于 Linux x86 的二进制文件。
    - 请注意，RHEL/CentOS 7 仍然受支持，直到 6 月 30 日（CentOS 7 终止服务且 RHEL 7 维护支持 2 结束）。适用于它们的二进制文件将在语音 SDK 1.39.0 版本中移除。

Azure AI 语音中有哪些新增功能？

语音 SDK 1.42.0：2024 年 12 月发行版

Bug 修复

2024 年 11 月版本

适用于 Visual Studio Code 的 Azure AI 语音工具包扩展

文本转语音头像代码示例

语音 SDK 1.41.1：2024 年 10 月版本

语音 SDK 1.4.0：2024 年 8 月版

Bug 修复

语音 SDK 1.38.0：2024 年 6 月版本

Bug 修复

语音 SDK 1.37.0：2024 年 4 月发布

语音 SDK 1.36.0：2024 年 3 月版

语音 SDK 1.35.0：2024 年 2 月版本

语音 SDK 1.34.1：2024 年 1 月发布版

中断性变更

Bug 修复

语音 1.34.0：2023 年 11 月版本

中断性变更

Bug 修复

语音 CLI 1.34.0：2023 年 11 月版本

Bug 修复

语音 SDK 1.33.0：2023 年 10 月版本

中断性变更通知

Bug 修复

语音 CLI 1.33.0：2023 年 10 月版本

Bug 修复

语音 SDK 1.32.1：2023 年 9 月版本

Bug 修复

语音 SDK 1.31.0：2023 年 8 月版

中断性变更

Bug 修复

Bug 修复

语音 SDK 1.29.0：2023 年 6 月版本

Bug 修复

语音 SDK 1.28.0：2023 年 5 月版本

Bug 修复

语音 SDK 1.27.0：2023 年 4 月发布

关于即将进行的更改的通知

Bug 修复

语音 SDK 1.26.0：2023 年 3 月发布

语音 SDK 1.25.0：2023 年 1 月发布版

Bug 修复

语音 SDK 1.24.2：2022 年 11 月版本

Bug 修复

语音 SDK 1.24.1：2022 年 11 月版本

Bug 修复

语音 SDK 1.24.0：2022 年 10 月版本

Bug 修复

语音 SDK 1.23.0：2022 年 7 月版本

Bug 修复

语音 SDK 1.22.0：2022 年 6 月版本

Bug 修复

示例 ( GitHub )

语音 SDK 1.21.0：2022 年 4 月版本

Bug 修复

GitHub 示例

语音 SDK 1.20.0：2022 年 1 月发布

Bug 修复

GitHub 示例

Speech SDK 1.19.0：2021-Nov 版本

Bug 修复

GitHub 示例

语音 SDK 1.18.0：2021 年 7 月发行版

突出显示摘要

Bug 修复

语音 SDK 1.17.0：2021 年 5 月发行版

突出显示摘要

Bug 修复

语音 SDK 1.16.0：2021-March 版本

Bug 修复

语音 SDK 1.15.0：2021 年 1 月发行版

突出显示摘要

Bug 修复

语音 SDK 1.14.0：2020 年 10 月版本

Bug 修复

COVID-19 缩减测试

语音 SDK 1.13.0：2020 年 7 月发行版

Bug 修复

COVID-19 缩减测试