![]() |
善良的白开水 · 024-Oracle排序、单行函数 - 知乎· 1 年前 · |
![]() |
温暖的海豚 · NumPy style arrays ...· 1 年前 · |
![]() |
活泼的红金鱼 · SQL——count的嵌套使用_LOOCOO ...· 1 年前 · |
![]() |
睿智的玉米 · Qt中打包程序运行时出现:0xc000007 ...· 2 年前 · |
你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn 。
选择服务或资源
文本转语音服务 语音转文本服务Azure AI 语音工具包扩展现已可供 Visual Studio Code 用户使用。 它包含一系列语音快速入门和场景示例,只需单击即可轻松构建和运行。 有关详细信息,请参阅 Visual Studio Code 市场中的 Azure AI 语音工具包 。
我们向 Android 和 iOS 添加了文本转语音虚拟形象代码示例。 这些示例演示了如何在移动应用程序中使用实时文本转语音虚拟形象。
语音 SDK 版本 1.39.0 是一个内部版本,没有丢失。
G.722
压缩音频流式处理的支持。
PersonalVoiceSynthesisRequest
增加了对个人语音输入文本流式处理的支持。 此 API 为预览版,在未来版本中可能会发生变化。
ConversationTranscriber
时对中间结果进行分割聚类的支持。
glibc
2.31 或更高版本兼容。
修复了在 SynthesisStarted 事件期间调用 Stop 时未触发的 SynthesisCanceled 事件。
修复了嵌入式语音合成中的干扰问题。
修复了并行运行多个识别器时嵌入式语音识别中的崩溃问题。
修复了 v1/v2 终结点上的短语检测模式设置问题。
修复了 Microsoft Audio Stack 的各种问题。
SpeechRecognizer
已更新为默认情况下(即未显式指定 URL 时)使用新的终结点,对于大多数属性,该终结点不再支持查询字符串参数。 请使用相应的 API 函数,而不是直接使用 ServicePropertyChannel.UriQueryParameter 设置查询字符串参数。
语音 SDK 1.31.0 公共预览版支持 实时话者分离 。 此功能在以下 SDK 中可用:C#、C++、Java、JavaScript、Python 和 Objective-C/Swift。
通过音频播放同步语音合成文字边界和唇形活动
MeetingTranscriber
而不是
ConversationTranscriber
,使用
CreateMeetingAsync
而不是
CreateConversationAsync
。 尽管 SDK 对象和方法的名称已更改,但重命名操作不会更改功能本身。 使用会议听录对象来听录具有用户配置文件和语音签名的会议。 有关详细信息,请参阅
会议听录
。 “对话翻译”对象和方法不受这些更改的影响。 你仍然可以将
ConversationTranslator
对象及其方法用于会议翻译方案。
ConversationTranscriber
对象。 新的“对话听录”对象模型和调用模式类似于对
SpeechRecognizer
对象的连续识别。 主要区别在于,
ConversationTranscriber
对象设计为用于要区分多个说话人的对话方案(话者分离)。 用户配置文件和语音签名不适用。 有关详细信息,请参阅
实时话者分离快速入门
。
ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant
1
ParticipantChangedReason
1
User
1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting
2
1
、
Participant
、
ParticipantChangedReason
和
User
对象同时适用于会议听录和会议翻译方案。
2
Meeting
对象是新的,与
MeetingTranscriber
对象一起使用。
CSharp
JavaScript
DisplayWords
的支持。
ConnectionMessageReceived
事件的支持。
public
Java API 方法已变更为包
internal
、
protected
或
private
。 此更改应该不会影响开发人员,因为我们预计应用程序不会使用这些更改。 此处注明是为了提高透明度。
LocaleName
属性添加到
VoiceInfo
类的社区贡献。 感谢 GitHub 用户
shivsarthak
的拉取请求。
hi-IN
区域设置的支持。
NoMatchReason::EndSilenceTimeout
。 这与使用实时语音服务进行识别时的行为匹配。
PropertyId
枚举值时设置
SpeechTranslationConfig
的属性。
PropertyId::Speech_SegmentationSilenceTimeoutMs
设置的支持。
LanguageUnderstandingServiceResponse_JsonResult
获得。
SpeechServiceConnection_LanguageIdMode
。 这个单一属性取代了之前的两个属性(
SpeechServiceConnection_SingleLanguageIdPriority
和
SpeechServiceConnection_ContinuousLanguageIdPriority
)。 在最近的模型改进之后,不再需要在低延迟和高准确度之间进行优先排序。 现在,你只需在进行连续语音识别或翻译时,选择是运行启动时语言识别还是连续语言识别即可。
PronunciationAssessmentGranularity.FullText
时获取发音评估结果的问题(
客户问题
)
添加了展示如何使用嵌入式语音的示例
为 MAUI 添加了语音转文本示例
请参阅 语音 SDK 示例存储库 。
AudioStreamWaveFormat
将 ALAW 和 MULAW 直接流式传输到语音服务(除了现有的 PCM 流)。
libMicrosoft.CognitiveServices.Speech.extension.mas.so
的大小减少了大约 70%。
fr
、
de
、
es
、
jp
的正字法支持
es
的预生成整数支持。
connectionMessage
为空时识别的回调(
客户问题
)。
recognizeOnceAsync(text)
时操作挂起的问题。
zh-cn
和
zh-hk
的支持。
AnyCPU
.NET Framework 生成的支持
说话人辨识服务现在正式发布 (GA)。 可以通过 C++、C#、Java 和 JavaScript 来使用语音 SDK API。 通过说话人辨识服务,你可以根据说话人独特的语音特征准确地验证和识别说话人。 有关此主题的详细信息,请参阅 文档 。
我们已经与 Azure DevOps 和 GitHub 一起取消了对 Ubuntu 16.04 的支持。 Ubuntu 16.04 已于 2021 年 4 月结束生命周期。 请将 Ubuntu 16.04 工作流迁移到 Ubuntu 18.04 或更高版本。
Linux 二进制文件中的 OpenSSL 链接已更改为动态。 Linux 二进制文件大小减少了约 50%。
增加了对基于 Mac M1 ARM 的芯片支持。
C++/C#/Java:增加了新的 API 以通过 Microsoft 音频堆栈实现对语音输入的音频处理支持。 文档在 此处 。
C++:新增了用于意图识别的 API,有助于更高级的模式匹配。 这包括 List 和 Prebuilt Integer 实体,而且支持将意图和实体分组为模型(文档、更新和示例正在开发中,将于近期发布)。
Mac :与 GitHub 问题 1244 相关的 CocoaPod、Python、Java 和 NuGet 包支持基于 Arm64 (M1) 的芯片。
iOS/Mac :iOS 和 macOS 二进制文件现已打包到与 GitHub 问题 919 相关的 xcframework 中。
iOS/Mac:支持与 GitHub 问题 1171 相关的 Mac 催化剂。
Linux:针对 CentOS7 新增了 tar 包
关于语音 SDK
。 Linux .tar 包现在包含
lib/centos7-x64
中 RHEL/CentOS 7 的特定库。 lib/x64 中的语音 SDK 库仍适用于所有其他受支持的 Linux x64 分发版(包括 RHEL/CentOS 8),不适用于 RHEL/CentOS 7。
JavaScript :VoiceProfile 和 SpeakerRecognizer API 为异步/可等待。
JavaScript :新增了对美国政府 Azure 区域的支持。
Windows:新增了对通用 Windows 平台 (UWP) 上的播放的支持。
Android:适用于 Android 包的 OpenSSL 安全更新(更新到版本 1.1.1l)。
Python:解决了在 Python 上选择扬声器设备失败的 bug。
核心:连接尝试失败时自动重新连接。
iOS :在使用 GStreamer 时,iOS 包会因稳定性和 bitcode 生成问题而禁用音频压缩。 可以通过 GitHub 问题 1209 了解详细信息。
Mac/iOS:更新了示例和快速入门,改为使用 xcframework 包。
.NET:更新了示例,改为使用 .NET core 3.1 版本。
JavaScript:增加了语音助手的示例。
请注意:在 此处 开始使用语音 SDK。
VoiceProfileClient
类添加了新 API
GetActivationPhrasesAsync()
,用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
SpeechRecognizer
和
TranslationRecognizer
对象上添加了
对连续语言标识 (LID) 的支持
。
SourceLanguageRecognizer
的
新 Python 对象
,以执行一次性或连续的 LID(不进行识别或翻译)。
VoiceProfileClient
类添加了
getActivationPhrasesAsync
API,用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表。
VoiceProfileClient
的
enrollProfileAsync
API 现在为异步可等待
。 有关示例用法,请参阅
此独立标识代码
。
Microsoft.CognitiveServices.Speech.core
二进制:x64 Linux 小了 475KB(减少了 8.0%);Arm64 Windows UWP 小了 464KB(减少了 11.5%);x86 Windows 小了 343KB(减少了 17.5%);x64 Windows 小了 451KB(减少了 19.4%)。
AudioWorkletNode
而不是已弃用的
ScriptProcessorNode
。 有关详细信息,请参阅
此文
。
enrollProfileAsync()
的新用法。 请参阅
此处
的示例。
单击 此处 ,开始使用语音 SDK。
SourceLanguageRecognizer
API 实现新的独立开始时和连续语言检测。 如果只希望检测音频内容中使用的语言,此 API 可帮你做到这一点。 查看
C++
和
C#
的详细信息。
connection
对象。 这有助于管理和监视与语音服务的连接,尤其有助于进行预连接以减少延迟。 参阅
此处
的文档。
SpeechSynthesisResult
中公开了延迟和欠载运行时间,以帮助你监视和诊断语音合成延迟问题。 请分别参阅
C++
、
C#
、
Java
、
Python
、
Objective-C
和
Go
的详细信息。
retrieveEnrollmentResultAsync
、
getAuthorizationPhrasesAsync
和
getAllProfilesAsync()
,以方便用户管理给定帐户的所有语音配置文件。 请分别参阅
C++
、
C#
、
Java
、
JavaScript
的文档。 这解决了
GitHub 问题 #338
。
DialogServiceConnector.stopListeningAsync
可能导致错误的问题。
ConversationTranslator
会抛出“this.cancelSpeech 不是函数”错误。
AudioConfig
可能会导致“ReferenceError: MediaStream 未定义”的问题。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 可从 此处 下载。
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
设置为
false
以禁用此功能。 有关
C++
、
C#
、
Java
、
Objective-C
、
Python
的详细信息。
AudioConfig.fromWavFileInput
API
。 这解决了
GitHub 问题 #252
。
GetVoicesAsync()
方法,用于返回所有可用的合成语音。 有关
C++
、
C#
、
Java
、
Objective-C
和
Python
的详细信息。
VisemeReceived
事件,用于返回同步的视素动画。 参阅
此处
的文档。
BookmarkReached
事件。 你可以在输入 SSML 中设置书签,并获取每个书签的音频偏移量。 参阅
此处
的文档。
DialogServiceConnector
无法使用
CustomCommandsConfig
来访问自定义命令应用程序,会发生连接错误。 可以通过使用
config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
手动将应用程序 ID 添加到请求来解决此错误。 在下一版本中,将还原
CustomCommandsConfig
的预期行为。
minifyEnabled
设置为 true 时回叫不起作用的问题。
TCP_NODELAY
会被正确设置为 TTS 的基础套接字 IO 以降低延迟。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 可从 此处 下载。
EndpointId
设置自定义语音的支持(
C++
、
C#
、
Java
、
JavaScript
、
Objective-C
、
Python
)。 在此项更改之前,自定义语音用户需要通过
FromEndpoint
方法设置终结点 URL。 现在,客户可以像处理预生成语音一样使用
FromSubscription
方法,然后通过设置
EndpointId
来提供部署 ID。 这简化了自定义语音的设置。
IntentRecognizer
获取比首要意向更多的信息。 它现在支持使用
verbose=true
uri 参数通过
LanguageUnderstandingModel FromEndpoint
方法来配置包含所有意向(而不仅仅是首要评分意向)的 JSON 结果。 这解决了
GitHub 问题 #880
。 请参阅
此处
的已更新文档。
DialogServiceConnector
(
C++
、
C#
、
Java
)现有一个与
ListenOnceAsync()
配合使用的
StopListeningAsync()
方法。 此方法会立即停止音频捕获并正常等待结果,因此非常适合用于按动“立即停止”按钮的场景。
DialogServiceConnector
(
C++
、
C#
、
Java
、
JavaScript
)现有一个新的
TurnStatusReceived
事件处理程序。 这些可选事件对应于机器人上的每个
ITurnContext
解决方案,并且将在发生轮次执行失败(例如,由于 Direct Line Speech 与机器人之间发生未经处理的异常、超时或断网)时予以报告。 使用
TurnStatusReceived
可以更轻松地对失败状况做出响应。 举例而言,如果机器人在后端数据库查询(例如查找产品)上花费的时间太长,
TurnStatusReceived
将允许客户端适时地以“抱歉,我有点迷糊,请重试”或类似内容重新发出提示。
DialogServiceConnector
现有一个
setSpeechActivityTemplate()
方法,以前无意中从该语言中排除了此方法。 此方法相当于设置
Conversation_Speech_Activity_Template
属性,并会请求由 Direct Line Speech 服务发起的所有未来 Bot Framework 活动将提供的内容合并到其 JSON 有效负载中。
Connection
类现有一个
MessageReceived
事件。 此事件提供对服务传入的数据的低级别访问,并且对诊断和调试非常有用。
BotFrameworkConfig
更轻松地设置语音助理和机器人。该类现有
fromHost()
和
fromEndpoint()
工厂方法,与手动设置属性相比,这些方法简化了自定义服务位置的使用。 我们还标准化了
botId
的可选规范,以便在各个配置工厂中使用非默认机器人。
DialogServiceConnector
存在的垃圾回收问题,解决了
GitHub 问题 #794
。
DialogServiceConnector
上多次设置语音授权令牌或活动模板。
DialogServiceConnector
以前不遵循
BotFrameworkConfig
的工厂中指定的可选
botId
参数。 这样,就需要手动设置
botId
查询字符串参数才能使用非默认机器人。 该 bug 已予纠正,现在会遵循并使用提供给
BotFrameworkConfig
的工厂的
botId
值,包括新添加的
fromHost()
和
fromEndpoint()
。 这也适用于
CustomCommandsConfig
的
applicationId
参数。
speech.config
,从而浪费了带宽。
ConversationTranslator
和
ConversationTranscriber
中的类型错误导致 TypeScript 用户遇到编译错误。
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 可从 此处 下载。
KeywordRecognizer
API 的支持。 文档见
此处
。
ServicePropertyChannel::HttpHeader
设置任何
HttpHeader
键/值的支持。
ConversationTranscriber
API 的支持。 阅读
此处
的文档。
AudioDataStream FromWavFileInput
方法(以读取 .WAV 文件)。
stopSpeakingAsync()
方法以停止文本转语音合成。 请参阅
此处 (C++)
、
此处 (C#)
、
此处 (Java)
、
此处 (Python)
和
此处 (Objective-C/Swift)
的参考文档。
Connection
类添加了
FromDialogServiceConnector()
函数,该函数可用于监视
DialogServiceConnector
的连接和断开连接事件。 请参阅
此处 (C#)
、
此处 (C++)
和
此处 (Java)
的参考文档。
SetServiceProperty
中的 1.13 回归(带有某些特殊字符的值被忽略)。
KeywordRecognizer
输入时内存管理崩溃的问题。
DialogServiceConnector
在第一次调用后禁用
ListenOnce
调用的修补程序。
IntentRecognizer
中的连续识别添加了修补程序。
IntentRecognizer
中 australiaeast 和 brazilsouth 的错误 URL。
VoiceProfileType
作为创建
VoiceProfile
对象时的参数。
AudioDataStream
时潜在的
SPX_INVALID_ARG
。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
Windows 版语音 SDK 依赖于 Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ Redistributable。 从 此处 下载并安装它。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
KeywordRecognizer
对象和 API。 在
此处
阅读该文档。 有关示例代码,请参阅下面的“示例”部分。
改进与优化
IntentRecognizer
结果原因未正确设置的问题。
SpeechRecognitionEventArgs
结果偏移量的问题。
TranslationRecognizer
可重现。
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了什么内容,请在
GitHub
上告诉我们。
请保重身体!
ConversationTranscriptionResult
中添加了
UtteranceId
,这是在所有中间产物和最终的语音识别结果中保持一致的一个 ID。 请参阅适用于
C#
、
C++
的详细信息。
Language ID
的支持。 参阅
GitHub 存储库
中的 speech_sample.py。
SendMessageAsync
现在以二进制类型发送二进制消息。 请参阅适用于
C#
、
C++
的详细信息。
Connection MessageReceived
事件时在
Connection
对象之前释放
Recognizer
可能会导致故障的问题。 请参阅适用于
C#
、
C++
的详细信息。
fromSubscription
API 中增加了对中国的区域的支持。 有关详细信息,请参阅
此文
。
Language ID
添加了示例。 有关详细信息,请参阅
此文
。
Covid19 缩减测试:
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动的设备验证测试。 例如,我们无法在 Linux、iOS 和 macOS 上测试麦克风输入与扬声器输出。 我们没有做我们认为可能会破坏这些平台上的任何东西的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
感谢你长久以来的支持。 与往常一样,请在
GitHub
或
Stack Overflow
上发布问题或反馈。
请保重身体!
客户必须根据 这些说明 配置 OpenSSL。
.aar
包添加了关键字识别支持,并添加了 x86 和 x64 风格的支持。
SendMessage
和
SetMessageProperty
方法添加到
Connection
对象。 参阅
此处
的文档。
std::wstring
用作合成文本输入,这样,在将 wstring 传递给 SDK 之前,无需先将其转换为字符串。 请参阅
此处
的详细信息。
Connection
对象,以便从语音服务以回调
receivedServiceMessage
的形式传递自定义消息。
FromHost API
的支持,以方便与本地容器和主权云配合使用。 参阅
此处
的文档。
NODE_TLS_REJECT_UNAUTHORIZED
。 请参阅
此处
的详细信息。
OpenSSL
已更新到版本 1.1.1b,并静态链接到适用于 Linux 的语音 SDK 核心库。 如果未在系统的
/usr/lib/ssl
目录中安装收件箱
OpenSSL
,这可能会造成中断。 请查看语音 SDK 文档下的
文档
来解决此问题。
WordLevelTimingResult.Offset
返回的数据类型从
int
更改为
long
,以便在语音数据超过 2 分钟时能够访问
WordLevelTimingResults
。
PushAudioInputStream
和
PullAudioInputStream
现在可以根据
AudioStreamFormat
(创建这两个类时选择性地指定)将 wav 标头信息发送到语音服务。 现在,客户必须使用
支持的音频输入格式
。 任何其他格式会导致识别结果欠佳,或者导致出现其他问题。
OpenSSL
更新。 修复了 Linux 和 Java 中的间歇性崩溃和性能问题(负载较高时发生锁争用)。
Microsoft.CognitiveServices.Speech.core.dll
和
Microsoft.CognitiveServices.Speech.extension.kws.dll
的三个副本,使 NuGet 包更小、下载更快,并添加了编译某些 C++ 本机应用所需的标头。
<voice>
标记或
<audio>
标记时出现的 TTS 错误以解决
此客户问题
。
int
和
string
类型。
FromHost()
API,以方便用户将其与本地容器和主权云配合使用。
SourceLanguageConfig
对象,用于指定所需的源语言(在 Java 和 C++ 中)
KeywordRecognizer
支持
Microsoft.CognitiveServices.Speech.Transcription
命名空间下。
Conversation
类。
KeywordRecognizer
,则会发生故障
KeywordRecognizer
的 Xamarin 示例
KeywordRecognizer
的 Unity 示例
Compressed
输入支持
Connection
类中添加了
SendMessageAsync
,用于向服务发送消息
Connection
类中添加了
SetMessageProperty
DialogServiceConnector
使用的印象 ID 重复
DialogServiceConnector
上时(通过
Canceled
事件)对故障进行的报告
DialogServiceConnector
会话开始时会正确提供事件,包括在活动
StartKeywordRecognitionAsync()
期间调用
ListenOnceAsync()
的时候
DialogServiceConnector
活动相关联的崩溃
DialogServiceConnector
的更新的快速入门示例
改进 / 更改
SpeechBotConnector
已重名为
DialogServiceConnector
BotConfig
已重名为
DialogServiceConfig
BotConfig::FromChannelSecret()
已重新映射到
DialogServiceConfig::FromBotSecret()
NSError
对象,另一个版本引发异常。 前者向 Swift 公开。 此更改需要适应现有的 Swift 代码。
SpeakTextAsync
不等到音频完成渲染就会提前返回
pip install --user
问题
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
改进 / 更改
FromEndpoint
,也能通过标准配置属性来配置识别器。
OutputFormat
属性添加到
SPXSpeechConfiguration
。
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
这是一个仅限 JavaScript 的版本。 未增加任何功能。 进行了以下修复:
改进 / 更改
properties
属性公开识别结果的附加属性。
这是一个 Bug 修复版本,只影响本机/托管 SDK。 它不影响 SDK 的 JavaScript 版本。
Bug 修复
AudioConfig
类来选择输入麦克风。 这样,便可以将音频数据从非默认麦克风流式传输到语音服务。 有关详细信息,请参阅介绍
音频输入设备选择
的文档。 此功能在 JavaScript 中尚不可用。
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
文件(在以前的版本中提供)。 此功能现在集成到核心 SDK 中。
示例存储库 中提供了以下新内容:
AudioConfig.FromMicrophoneInput
的其他示例。
Connection
对象的更多示例。
改进 / 更改
SpeechConfig
中的参数验证和错误消息。
Connection
对象的支持。
Connection
对象的支持。
FromEndpoint
,则可将参数直接添加到终结点 URL。 使用
FromEndpoint
时,无法通过标准的配置属性来配置识别器。
SpeechConfig
中进行指定并将订阅密钥保留为空。 然后,像往常一样创建识别器。
Connection
对象不能正确释放。 现在已修复此问题。
这是一个仅限 JavaScript 的版本。 未增加任何功能。 进行了以下修复:
Connection
对象)的父级。
Recognizer
中访问
Connection
对象。 此对象允许你显式启动服务连接并订阅连接事件和断开连接事件。
(此功能在 JavaScript 和 Python 中尚不可用。)
RecognizeAsync
中的类型不匹配导致的内存泄漏。
async
操作,则可能会在异步任务完成之前释放识别器。
RecognizingIntent
。
SpeechConfig
中将默认输出格式设置为“simple”。
SpeechConfig
对象中,现在可以调用某个函数来设置代理信息(主机名、端口、用户名和密码)。 此功能在 iOS 上尚不可用。
Reason
(在已取消事件中)或
CancellationDetails
(在识别结果中)设置为
Error
。 取消的事件现在包含两个附加的成员:
ErrorCode
和
ErrorDetails
。 如果服务器随所报告的错误返回了附加的错误信息,则现在将在新成员中提供该信息。
Canceled
事件。
EndpointId
(在某些情况下)的 bug。
AddIntent
JavaScript 签名。
可靠性改进和 bug 修复:
在 示例存储库 中已添加了适用于 JavaScript 的新示例。
功能性更改
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
函数不再需要路径参数。 现在,在所有受支持的平台上都会自动检测路径。
EndpointUrl
的 get 访问器已被删除。
功能性更改
StartContinuousRecognitionAsync()
支持识别功能长时间运行。
InitialSilenceTimeout
、
InitialBabbleTimeout
)。
NoMatch
事件类型已合并到
Error
事件中。
OutputFormat
以与 C++ 保持一致。
AudioInputStream
接口的某些方法的返回类型略有更改:
read
方法现返回
long
而不是
int
。
Read
方法现返回
uint
而不是
int
。
Read
和
GetFormat
方法现返回
size_t
而不是
int
。
shared_ptr
传递。
RecognizeAsync()
超时时结果中的错误返回值。
功能性更改
AudioInputStream
一种现可将流用作音频源的识别器。 有关详细信息,请参阅相关 操作说明指南 。
详细输出格式
创建
SpeechRecognizer
时,可请求
Detailed
或
Simple
输出格式。
DetailedSpeechRecognitionResult
包含置信度分数、识别的文本、原始词法形式、标准化形式和已屏蔽不当字词的标准化形式。
SpeechRecognitionResult.RecognizedText
更改为
SpeechRecognitionResult.Text
。
NoMatch
结果。
Region
是创建识别器所必需的信息。
已添加更多示例,还将持续更新。 有关最新的示例集,请参阅 语音 SDK 示例 GitHub 存储库 。
此版本是 Azure AI 语音 SDK 的第一个公共预览版本。
已更新为使用语音 SDK 1.40.0
已更新为使用语音 SDK 1.38.0
已更新为使用语音 SDK 1.37.0
已更新为使用语音 SDK 1.36.0
已更新为使用语音 SDK 1.35.0
已更新为使用语音 SDK 1.34.0
已更新为使用语音 SDK 1.33.0
已更新为使用语音 SDK 1.31.0
已更新为使用语音 SDK 1.30.0
已更新为使用语音 SDK 1.29.0
已更新为使用语音 SDK 1.28.0
已更新为使用语音 SDK 1.26.0.
已更新为使用语音 SDK 1.25.0。
使用语音 SDK 1.24.0。
使用语音 SDK 1.23.0。
--output vtt
和
--output srt
)大型结果拆分(最多 37 个字符,3 行)
spx synthesize
--format
选项(请参阅
spx help synthesize format
)
spx csr
命令/选项(请参阅
spx help csr
)
spx csr model copy
命令(请参阅
spx help csr model copy
)
--check result
选项(请参阅
spx help check result
)
使用语音 SDK 1.22.0。
spx init
命令,指导用户完成语音资源密钥创建,而无需转到 Azure Web 门户。
spx init
将立即生效。
使用语音 SDK 1.21.0。
spx translate
添加了
--output vtt
支持
--output vtt file FILENAME
替代默认 VTT FILENAME
--output vtt file -
写入到标准输出
--target en;de;fr
)创建单个 VTT 文件
spx recognize
、
spx intent
和
spx translate
中添加了
--output srt
支持
--output srt file FILENAME
替代默认 SRT FILENAME
--output srt file -
写入到标准输出
spx translate
,会为每个目标语言(例如
--target en;de;fr
)创建单个 SRT 文件
hh:mm:ss.fff
格式
spx profile enroll
和
spx speaker [identify/verify]
现在支持麦克风输入
spx intent
)
--keyword FILE.table
--pattern
和
--patterns
--output all/each intentid
--output all/each entity json
--output all/each ENTITY entity
--once
、
--once+
和
--continuous
(现在默认值是 continuous)
--output all/each connection EVENT
--output all/each connection message
(例如
text
和
path
)
--expect PATTERN
和
--not expect PATTERN
--auto expect
有助于创建所需模式
--log expect PATTERN
和
--not log expect PATTERN
--log auto expect [FILTER]
spx profile
和
spx speaker
上的
--log FILE
支持
--format ANY
--file -
支持(从标准输入读取,启用管道方案)
--audio output -
写入标准输出,启用管道方案
--output all/each file -
写入标准输出
--output batch file -
写入标准输出
--output vtt file -
写入标准输出
--output json file -
写入标准输出,适用于
spx csr
和
spx batch
命令
--output […] result XXX property
(PropertyId 或字符串)
--output […] connection message received XXX property
(PropertyId 或 字符串)
--output […] recognizer XXX property
(PropertyId 或 字符串)
spx webjob
现在遵循子命令模式
spx help webjob
)
--output vtt FILE
和
--output batch FILE
时的 bug
spx [...] --zip ZIPFILENAME
现在包括所有方案所需的所有二进制文件(如果存在)
spx profile
和
spx speaker
命令现在返回有关取消的详细错误信息
spx profile
和
spx speaker
。
spx dialog
。
spx
帮助。 请提交
GitHub 问题
,向我们提供有关此功能的反馈。
由于疫情并未消退,我们的工程师仍旧必须在家办公,因此疫情发生前的手动验证脚本已大幅减少。 我们只是使用较少的配置在较少的设备上进行了测试,环境特定的 bug 的漏测可能性也许会增大。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
spx intent
命令,替换
spx recognize intent
。
spx recognize --wer url <URL>
来计算字词错误率。
spx recognize --output vtt file <FILENAME>
将结果输出为 VTT 文件。
由于疫情并未消退,我们的工程师仍旧必须在家办公,因此疫情发生前的手动验证脚本已大幅减少。 我们只是使用较少的配置在较少的设备上进行了测试,环境特定的 bug 的漏测可能性也许会增大。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
由于疫情并未消退,我们的工程师仍旧必须在家办公,因此疫情发生前的手动验证脚本已大幅减少。 我们只是使用较少的配置在较少的设备上进行了测试,环境特定的 bug 的漏测可能性也许会增大。 我们仍会使用大量的自动化技术进行严格的验证。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
SPX 是命令行接口,无需编写代码即可使用语音服务。
在
此处
下载最新版本。
spx csr dataset upload --kind audio|language|acoustic
- 通过本地数据创建数据集,而不仅仅通过 URL。
spx csr evaluation create|status|list|update|delete
- 将新模型与基线事实/其他模型进行比较。
spx * list
- 支持非分页体验(不需要 --top X --skip X)。
spx * --http header A=B
- 支持自定义标头(为 Office 添加以进行自定义身份验证)。
spx help
- 改进了已编码的文本和反引号文本颜色(蓝色)。
spx help find --text TEXT
spx help find --topic NAME
spx help batch examples
spx help csr examples
由于过去几周一直在远程工作,我们无法像往常那样执行那么多手动验证测试。 我们没有做我们认为可能会造成任何破坏的任何更改,我们的自动化测试已全部通过。 如果我们遗漏了某些内容,请在
GitHub
上告诉我们。
请保重身体!
SPX 是新的命令行工具,可用于从命令行执行识别、合成、翻译、批量听录和自定义语音管理 。 使用它来测试语音服务,或为需要执行的语音服务任务编写脚本。 下载该工具,并在 此处 查看文档。
现在可以自己在 Speech Studio 中训练自定义虚拟形象。 以前只能等待 Microsoft 训练你的自定义虚拟形象。
有关如何创建自定义虚拟形象的详细信息,请参阅 创建自定义文本转语音虚拟形象 。
在公共预览版中引入了 4 个 Turbo 版本的 Azure OpenAI 语音:
en-US-EchoTurboMultilingualNeural
、
en-US-FableTurboMultilingualNeural
、
en-US-OnyxTurboMultilingualNeural
和
en-US-ShimmerTurboMultilingualNeural
。 Azure OpenAI 声音的 Turbo 版本具有与 Azure OpenAI 声音类似的声音角色,但支持其他功能。 Turbo 声音支持完整的 SSML 元素集和字词边界等更多功能,就像其他 Azure AI 语音声音一样。 有关详细信息,请参阅
完整的语言和语音列表
。
这些语音现已正式发布:
区域设置 (BCP-47)Azure AI 语音高清 (HD) 语音现已推出公共预览版。 HD 语音可以理解内容,自动检测输入文本中的情绪,并实时调整说话语调,使之与情绪匹配。 HD 语音保持与其神经网络语音(和非高清语音)一致的声音特征,甚至会通过增强的功能提供更多价值。 有关详细信息,请参阅 什么是 Azure AI 语音高清 (HD) 语音? 。
以前,某些区域设置仅支持 V3 的训练方案。 这些区域设置现在也支持 V9,从而能够提高训练质量并扩展功能。 对于这些区域设置,请参阅下表:
区域设置 (BCP-47)
en-IN
英语(印度)
en-IN-AaravNeural
(男)
en-IN-AnanyaNeural
(女)
en-IN-KavyaNeural
(女)
en-IN-KunalNeural
(男)
en-IN-RehaanNeural
(男)
hi-IN
印地语(印度)
hi-IN-AaravNeural
(男)
hi-IN-AnanyaNeural
(女)
hi-IN-KavyaNeural
(女)
hi-IN-KunalNeural
(男)
hi-IN-RehaanNeural
(男)
添加了对
en-IN-NeerjaNeural
和
hi-IN-SwaraNeural
语音的
newscast
、
cheerful
、
empathetic
样式支持。
为以下语音添加了新样式:
es-MX-DaliaNeural
:
whispering
、
sad
、
cheerful
fr-FR-DeniseNeural
:
whispering
、
sad
、
excited
it-IT-IsabellaNeural
:
whispering
,
sad
,
excited
,
cheerful
pt-PT-RaquelNeural
:
whispering
,
sad
de-DE-ConradNeural
:
sad
,
cheerful
en-GB-RyanNeural
:
whispering
,
sad
es-MX-JorgeNeural
:
whispering
,
sad
,
excited
,
cheerful
fr-FR-HenriNeural
:
whispering
、
sad
、
excited
it-IT-DiegoNeural
:
sad
、
excited
、
cheerful
es-ES-AlvaroNeural
:
cheerful
,
sad
ko-KR-InjoonNeural
:
sad
有关详细信息,请参阅 语音风格和角色 。
在公共预览版中推出了新的多语言声音。 有关详细信息,请参阅 完整的语言和语音列表 。
全新的多语言声音
Locale现在有三种多语言声音支持风格。 有关详细信息,请参阅 语音风格和角色 。
empathetic
、
excited
、
friendly
、
shy
、
serious
、
relieved
、
sad
。
empathetic
和
relieved
。
affectionate
、
cheerful
、
empathetic
、
excited
、
poetry-reading
、
sorry
、
story
。
文本转语音虚拟形象现已正式发布。 有关详细信息,请参阅 文本转语音虚拟形象 。
在公共预览版中引入 2 个 Turbo 版本的 Azure OpenAI 声音:
en-US-AlloyTurboMultilingualNeural
和
en-US-NovaTurboMultilingualNeural
。 Azure OpenAI 声音的 Turbo 版本具有与 Azure OpenAI 声音类似的声音角色,但支持其他功能。 Turbo 声音支持完整的 SSML 元素集和字词边界等更多功能,就像其他 Azure AI 语音声音一样。 有关详细信息,请参阅
完整的语言和语音列表
。
在公共预览版中引入了 2 种新的多语言声音:
zh-CN-YunfanMultilingualNeural
和
zh-CN-YunxiaoMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
en-US-JennyMultilingual
声音在生产环境中发布,支持多达 24 个区域设置的设备端体验。 有关支持的区域设置,请参阅下表。
个人声音现已推出正式版。 使用个人语音,可以在几秒钟内获得 AI 生成的你的语音(或应用程序用户的语音)的副本。 提供一分钟的语音示例作为音频提示,然后使用它来生成跨 100 个以上区域设置支持的 90 多种语言中的任何一种语音。 有关详细信息,请参阅 个人声音概述 。
在公共预览版中引入了 8 种新的多语言语音:
en-GB-AdaMultilingualNeural
、
en-GB-OllieMultilingualNeural
、
es-ES-ArabellaMultilingualNeural
、
es-ES-IsidoraMultilingualNeural
、
it-IT-AlessioMultilingualNeural
、
it-IT-IsabellaMultilingualNeural
、
it-IT-MarcelloMultilingualNeural
和
pt-BR-ThalitaMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
在公共预览版中引入了针对呼叫中心场景优化的 2 种新的
en-US
语音:
en-US-LunaNeural
和
en-US-KaiNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
avatarConfig.backgroundImage
属性并指定指向所需图像的 URL。 有关详情,请参阅
如何编辑背景
。
9 种多语言语音在所有区域正式发布:
en-US-AvaMultilingualNeural
、
en-US-AndrewMultilingualNeural
、
en-US-EmmaMultilingualNeural
、
en-US-BrianMultilingualNeural
、
de-DE-FlorianMultilingualNeural
、
de-DE-SeraphinaMultilingualNeural
、
fr-FR-RemyMultilingualNeural
、
fr-FR-VivienneMultilingualNeural
、
zh-CN-XiaoxiaoMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
为公共预览版引入一种新的多语言语音:
ja-JP-MasaruMultilingualNeural
。 有关详细信息,请参阅
完整的语言和语音列表
。
其他更新:
en-US-RyanMultilingualNeural
在所有区域正式发布。
en-US-JennyMultilingualV2Neural
在所有区域正式发布,并与
en-US-JennyMultilingualNeural
合并。
en-IN-NeerjaNeural
和
hi-IN-SwaraNeural
提供了预览版,有 3 种新的样式在美国东部、西欧和东南亚推出。
en-IN-KavyaNeural
、
en-IN-AnanyaNeural
、
en-IN-AashiNeural
、
hi-IN-KavyaNeural
和
hi-IN-AnanyaNeural
。
Azure AI 语音服务支持以下区域中的 OpenAI 文本转语音:美国中北部和瑞典中部。 与 Azure AI 语音声音一样,OpenAI 文本转语音声音提供高质量的语音合成,将书面文本转换为自然的口述音频。 它可解锁各种沉浸式和交互式用户体验的可能性。 有关详细信息,请参阅 什么是 OpenAI 文本转语音声音? 。
Azure OpenAI 服务 中也提供了 OpenAI 文本转语音声音。
通过此更新,我们调整了 Azure AI 语音预生成的神经语音的定价。 在 此处 查看更新的定价。
个人声音功能现在支持
DragonLatestNeural
和
PhoenixLatestNeural
模型。 这些新模型增强了合成语音的自然性,使其更加贴近提示中的声音的语音特征。 有关更多详细信息,请参阅
在你的应用程序中集成个人声音
。
定制声音 API 可用于创建和管理 专业 和 个人 神经网络定制声音模型。
新训练的语音模型现在支持 48 kHz 采样率,无论模型版本如何。 对于之前训练过的语音模型,需要 将引擎版本升级 到至少 2023.11.13.0 版本,以将采样率提高到 48 kHz。
个人语音可在以下地区预览:西欧、美国东部和东南亚。 使用个人语音(预览版),可以在几秒钟内获得 AI 生成的语音(或应用程序用户)的复制内容。 提供一分钟的语音示例作为音频提示,然后使用它会生成 100 多个地区支持的 90 多种语言中的任何一种语言的语音。
有关更多信息,请参阅 个人语音 。
文本转语音虚拟形象可在以下地区预览:美国西部 2、西欧和东南亚。
文本转语音虚拟形象将文本转换为拟真人物(预构建的虚拟形象或 自定义文本到语音虚拟形象 )以自然声音说话的数字视频。 文本转语音虚拟形象视频可以异步合成或实时合成。 开发人员可以通过 API 生成与文本转语音虚拟形象集成的应用程序,或使用 Speech Studio 上的内容创建工具创建视频内容,而无需编码。
有关更多信息,请参阅 文本转语音虚拟形象 、 透明度说明 以及 语音和虚拟形象发音人的披露 。
为跨语言语音添加了 24 个新区域设置的支持。 有关详细信息,请参阅 完整的语言列表 。
为公共预览版引入新语音:
区域设置 (BCP-47) 文本转语音声音
ja-JP
和
zh-CN
。 有关详细信息,请参阅
完整的语言和语音列表
。 请参阅
不同语言的预设风格列表
。
id-ID
和
nl-NL
。 有关详细信息,请参阅
完整的语言和语音列表
。
为公共预览版引入新的
en-US
性别中立语音:
多语言语音
en-US-JennyMultilingualV2Neural
和
en-US-RyanMultilingualNeural
会自动检测输入文本的语言。 但是,你仍然可以使用
<lang>
元素来调整这些语音的说话语言。
这些新的多语言语音可以使用 41 种语言和口音说出:
Arabic (Egypt)
、
Arabic (Saudi Arabia)
、
Catalan
、
Czech (Czechia)
、
Danish (Denmark)
、
German (Austria)
、
German (Switzerland)
、
German (Germany)
、
English (Australia)
、
English (Canada)
、
English (United Kingdom)
、
English (Hong Kong SAR)
、
English (Ireland)
、
English (India)
、
English (United States)
、
Spanish (Spain)
、
Spanish (Mexico)
、
Finnish (Finland)
、
French (Belgium)
、
French (Canada)
、
French (Switzerland)
、
French (France)
、
Hindi (India)
、
Hungarian (Hungary)
、
Indonesian (Indonesia)
、
Italian (Italy)
、
Japanese (Japan)
、
Korean (Korea)
、
Norwegian Bokmål (Norway)
、
Dutch (Belgium)
、
Dutch (Netherlands)
、
Polish (Poland)
、
Portuguese (Brazil)
、
Portuguese (Portugal)
、
Russian (Russia)
、
Swedish (Sweden)
、
Thai (Thailand)
、
Turkish (Türkiye)
、
Chinese (Mandarin, Simplified)
、
Chinese (Cantonese, Traditional)
、
Chinese (Taiwanese Mandarin, Traditional)
。
这些多语言语音并不完全支持某些 SSML 元素,例如中断、强调、静音和亚语音。
en-US-JennyMultilingualV2Neural
语音暂时以公共预览版形式提供,仅用于评估目的。 未来将会删除。
若要使用英语以外的语言说话,语音的
en-US-JennyMultilingualNeural
当前实现需要设置
<lang xml:lang>
元素。 我们预计,在 2023 日历年第 4 季度,
en-US-JennyMultilingualNeural
语音将更新为使用输入文本的语言说话,而无需
<lang xml:lang>
元素。 这将与
en-US-JennyMultilingualV2Neural
语音相当。
公共预览版中对以下语音推出新功能:
sr-RS
语音添加了拉丁语输入:
sr-latn-RS-SophieNeural
和
sr-latn-RS-NicholasNeural
。
sq-AL
语音的英语发音支持:
sq-AL-AnilaNeural
和
sq-AL-IlirNeural
。
en-GB-RyanNeural
、
en-GB-SoniaNeural
、
es-MX-JorgeNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
和
it-IT-IsabellaNeural
style="sad"
en-GB-SoniaNeural
、
fr-FR-DeniseNeural
和
fr-FR-HenriNeural
语音合成标记语言 (SSML) 已更新,可支持音频效果处理器元素,这些元素可针对设备上的特定方案优化合成语音输出的质量。 在 语音合成标记 中了解详细信息。
添加了对
nl-BE
区域设置使用
神经网络定制声音专业版
的支持。 有关详细信息,请参阅
完整的语言和语音列表
。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
en-AU
英语(澳大利亚)
en-AU-AnnetteNeural
(女)
en-AU-CarlyNeural
(女)
en-AU-DarrenNeural
(男)
en-AU-DuncanNeural
(男)
en-AU-ElsieNeural
(女)
en-AU-FreyaNeural
(女)
en-AU-JoanneNeural
(女)
en-AU-KenNeural
(男)
en-AU-KimNeural
(女)
en-AU-NeilNeural
(男)
en-AU-TimNeural
(男)
en-AU-TinaNeural
(女)
en-AU-WilliamNeural
(男)
en-GB
英语(英国)
en-GB-RyanNeural
(男)
en-GB-SoniaNeural
(女)
es-ES
西班牙语(西班牙)
es-ES-AbrilNeural
(女)
es-ES-ArnauNeural
(男)
es-ES-DarioNeural
(男)
es-ES-EliasNeural
(男)
es-ES-EstrellaNeural
(女)
es-ES-IreneNeural
(女)
es-ES-LaiaNeural
(女)
es-ES-LiaNeural
(女)
es-ES-NilNeural
(男)
es-ES-SaulNeural
(男)
es-ES-TeoNeural
(男)
es-ES-TrianaNeural
(女)
es-ES-VeraNeural
(女)
es-MX
西班牙语(墨西哥)
es-MX-JorgeNeural
(男)
fr-FR
法语(法国)
fr-FR-HenriNeural
(男)
it-IT
意大利语(意大利)
it-IT-IsabellaNeural
(女)
ja-JP
日语(日本)
ja-JP-AoiNeural
(女)
ja-JP-DaichiNeural
(男)
ja-JP-MayuNeural
(女)
ja-JP-NaokiNeural
(男)
ja-JP-ShioriNeural
(女)
添加了对
de-DE-ConradNeural
语音的
cheerful
样式的支持。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
zh-CN
中文(普通话,简体)
zh-CN-XiaomengNeural
(女)
zh-CN-XiaoyiNeural
(女)
zh-CN-XiaozhenNeural
(女)
zh-CN-YunfengNeural
(男)
zh-CN-YunhaoNeural
(男)
zh-CN-YunjianNeural
(男)
zh-CN-YunxiaNeural
(男)
zh-CN-YunzeNeural
(男)
zh-CN-henan
中文(中原官话河南,简体)
zh-CN-henan-YundengNeural
(男)
批处理合成 API 目前为公共预览版。 其正式发布后,就会弃用长音频 API。 有关详细信息,请参见 迁移到批处理合成 API 。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
es-MX
西班牙语(墨西哥)
es-MX-BeatrizNeural
(女)
es-MX-CandelaNeural
(女)
es-MX-CarlotaNeural
(女)
es-MX-CecilioNeural
(男)
es-MX-GerardoNeural
(男)
es-MX-LarissaNeural
(女)
es-MX-LibertoNeural
(男)
es-MX-LucianoNeural
(男)
es-MX-MarinaNeural
(女)
es-MX-NuriaNeural
(女)
es-MX-PelayoNeural
(男)
es-MX-RenataNeural
(女)
es-MX-YagoNeural
(男)
it-IT
意大利语(意大利)
it-IT-BenignoNeural
(男)
it-IT-CalimeroNeural
(男)
it-IT-CataldoNeural
(男)
it-IT-FabiolaNeural
(女)
it-IT-FiammaNeural
(女)
it-IT-GianniNeural
(男)
it-IT-ImeldaNeural
(女)
it-IT-IrmaNeural
(女)
it-IT-LisandroNeural
(男)
it-IT-PalmiraNeural
(女)
it-IT-PierinaNeural
(女)
it-IT-RinaldoNeural
(男)
pt-BR
葡萄牙语(巴西)
pt-BR-BrendaNeural
(女)
pt-BR-DonatoNeural
(男)
pt-BR-ElzaNeural
(女)
pt-BR-FabioNeural
(男)
pt-BR-GiovannaNeural
(女)
pt-BR-HumbertoNeural
(男)
pt-BR-JulioNeural
(男)
pt-BR-LeilaNeural
(女)
pt-BR-LeticiaNeural
(女)
pt-BR-ManuelaNeural
(女)
pt-BR-NicolauNeural
(男)
pt-BR-ValerioNeural
(男)
pt-BR-YaraNeural
(女)
为 神经网络定制声音 添加了以下区域设置支持。 有关详细信息,请参阅 完整的语言和语音列表 。
fr-BE
区域设置使用神经网络定制声音专业版的支持。
es-ES
区域设置使用神经网络定制声音精简版的支持。
现已正式发布以下语音。 有关详细信息,请参阅 完整的语言和语音列表 。
区域设置 (BCP-47) 文本转语音声音
en-AU
英语(澳大利亚)
en-AU-AnnetteNeural
(女)
en-AU-CarlyNeural
(女)
en-AU-DarrenNeural
(男)
en-AU-DuncanNeural
(男)
en-AU-ElsieNeural
(女)
en-AU-FreyaNeural
(女)
en-AU-JoanneNeural
(女)
en-AU-KenNeural
(男)
en-AU-KimNeural
(女)
en-AU-NeilNeural
(男)
en-AU-TimNeural
(男)
en-AU-TinaNeural
(女)
es-ES
西班牙语(西班牙)
es-ES-AbrilNeural
(女)
es-ES-AlvaroNeural
(男)
es-ES-ArnauNeural
(男)
es-ES-DarioNeural
(男)
es-ES-EliasNeural
(男)
es-ES-EstrellaNeural
(女)
es-ES-IreneNeural
(女)
es-ES-LaiaNeural
(女)
es-ES-LiaNeural
(女)
es-ES-NilNeural
(男)
es-ES-SaulNeural
(男)
es-ES-TeoNeural
(男)
es-ES-TrianaNeural
(女)
es-ES-VeraNeural
(女)
ja-JP
日语(日本)
ja-JP-AoiNeural
(女)
ja-JP-DaichiNeural
(男)
ja-JP-MayuNeural
(女)
ja-JP-NaokiNeural
(男)
ja-JP-ShioriNeural
(女)
ko-KR
韩语(韩国)
ko-KR-BongJinNeural
(男)
ko-KR-GookMinNeural
(男)
ko-KR-JiMinNeural
(女)
ko-KR-SeoHyeonNeural
(女)
ko-KR-SoonBokNeural
(女)
ko-KR-YuJinNeural
(女)
wuu-CN
中文(吴语,简体)
wuu-CN-XiaotongNeural
(女)
wuu-CN-YunzheNeural
(男)
yue-CN
中文(粤语,简体)
yue-CN-XiaoMinNeural
(女)
yue-CN-YunSongNeural
(男)
fil-PH-AngeloNeural
和
fil-PH-BlessicaNeural
语音的质量。
es-CL
西班牙语(智利) 和
uz-UZ
乌兹别克语(乌兹别克斯坦) 的语音更新了文本规范化规则。
sq-AL
阿尔巴尼亚语(阿尔巴尼亚) 和
az-AZ
阿塞拜疆语(阿塞拜疆) 的语音添加了英语字母拼写。
zh-HK-WanLungNeural
语音的英语发音。
nl-NL-MaartenNeural
和
pt-BR-AntonioNeural
语音的问题语气。
<lang ="en-US">
标记的支持,该标记可以改善以下语音的英语发音:
de-DE-ConradNeural
、
de-DE-KatjaNeural
、
es-ES-AlvaroNeural
、
es-MX-DaliaNeural
、
es-MX-JorgeNeural
、
fr-CA-SylvieNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
、
it-IT-DiegoNeural
和
it-IT-IsabellaNeural
。
style="chat"
标记的支持:
en-GB-RyanNeural
、
es-MX-JorgeNeural
和
it-IT-IsabellaNeural
。
style="cheerful"
标记的支持:
en-GB-RyanNeural
、
en-GB-SoniaNeural
、
es-MX-JorgeNeural
、
fr-FR-DeniseNeural
、
fr-FR-HenriNeural
和
it-IT-IsabellaNeural
。
style="sad"
标记的支持:
en-GB-SoniaNeural
、
fr-FR-DeniseNeural
和
fr-FR-HenriNeural
。
发布了新语音的公共预览版:
en-US-AIGenerate1Neural
和
en-US-AIGenerate2Neural
。
zh-CN-henan-YundengNeural
、
zh-CN-shaanxi-XiaoniNeural
和
zh-CN-shandong-YunxiangNeural
。
有关详细信息,请参阅 语言和语音列表 。
zh-CN
中文(普通话,简体)语音和 1 种新的
en-US
英语(美国)语音。 参阅
完整语言和语音列表
。
affectionate
、
angry
、
cheerful
、
disgruntled
、
embarrassed
、
fearful
、
gentle
、
sad
、
serious
zh-CN-XiaozhenNeural
公共预览版
angry
、
cheerful
、
disgruntled
、
fearful
、
sad
、
serious
zh-CN-YunxiaNeural
公共预览版
angry
、
calm
、
cheerful
、
fearful
、
sad
zh-CN-YunzeNeural
公共预览版
angry
、
calm
、
cheerful
、
depressed
、
disgruntled
、
documentary-narration
、
fearful
、
sad
、
serious
en-SG-LunaNeural
和
en-SG-WayneNeural
的质量
en-US-AriaNeural
的公共预览版支持这些新风格:
Angry
、
Excited
、
Friendly
、
Hopeful
、
Sad
、
Shouting
、
Unfriendly
、
Terrified
和
Whispering
。
en-US-GuyNeural
、
en-US-JennyNeural
的公共预览版支持这些新风格:
Angry
、
Cheerful
、
Excited
、
Friendly
、
Hopeful
、
Sad
、
Shouting
、
Unfriendly
、
Terrified
和
Whispering
。
en-US-SaraNeural
的公共预览版支持这些新风格:
Excited
、
Friendly
、
Hopeful
、
Shouting
、
Unfriendly
、
Terrified
和
Whispering
。 请参阅
语音风格和角色
。
zh-CN-YunjianNeural
、
zh-CN-YunhaoNeural
和
zh-CN-YunfengNeural
的公共预览版。 参阅
完整语言和语音列表
。
zh-CN-YunjianNeural
的公共预览版支持 2 个新样式:
sports-commentary
、
sports-commentary-excited
。 请参阅
语音风格和角色
。
zh-CN-YunhaoNeural
的公共预览版支持 1 个新样式:
advertisement-upbeat
。 请参阅
语音风格和角色
。
fr-FR-DeniseNeural
支持的样式
cheerful
和
sad
在所有区域中都已正式发布。
fr-FR-DeniseNeural
增加了对
Cheerful
和
Sad
样式的支持。 请参阅
语音风格和角色
。
为神经网络文本转语音添加了 10 种新语言和变体:
Locale为神经网络文本转语音添加了 49 种新语言和 98 种语音:
Adri
af-ZA
南非语(南非)、Willem
af-ZA
南非语(南非)、Mekde
am-ET
阿姆哈拉语(埃塞俄比亚)、Ameha
am-ET
阿姆哈拉语(埃塞俄比亚)、Fatima
ar-AE
阿拉伯语(阿拉伯联合酋长国)、Hamdan
ar-AE
阿拉伯语(阿拉伯联合酋长国)、Laila
ar-BH
阿拉伯语(巴林)、Ali
ar-BH
阿拉伯语(巴林)、Amina
ar-DZ
阿拉伯语(阿尔及利亚)、Ismael
ar-DZ
阿拉伯语(阿尔及利亚)、Rana
ar-IQ
阿拉伯语(伊拉克)、Bassel
ar-IQ
阿拉伯语(伊拉克)、Sana
ar-JO
阿拉伯语(约旦)、Taim
ar-JO
阿拉伯语(约旦)、Noura
ar-KW
阿拉伯语(科威特)、Fahed
ar-KW
阿拉伯语(科威特)、Iman
ar-LY
阿拉伯语(利比亚)、Omar
ar-LY
阿拉伯语(利比亚)、Mouna
ar-MA
阿拉伯语(摩洛哥)、Jamal
ar-MA
阿拉伯语(摩洛哥)、Amal
ar-QA
阿拉伯语(卡塔尔)、Moaz
ar-QA
阿拉伯语(卡塔尔)、Amany
ar-SY
阿拉伯语(叙利亚)、Laith
ar-SY
阿拉伯语(叙利亚)、Reem
ar-TN
阿拉伯语(突尼斯)、Hedi
ar-TN
阿拉伯语(突尼斯)、Maryam
ar-YE
阿拉伯语(也门)、Saleh
ar-YE
阿拉伯语(也门)、Nabanita
bn-BD
孟加拉语(孟加拉国)、Pradeep
bn-BD
孟加拉语(孟加拉国)、Asilia
en-KE
英语(肯尼亚)、Chilemba
en-KE
英语(肯尼亚)、Ezinne
en-NG
英语(尼日利亚)、Abeo
en-NG
英语(尼日利亚)、Imani
en-TZ
英语(坦桑尼亚)、Elimu
en-TZ
英语(坦桑尼亚)、Sofia
es-BO
西班牙语(玻利维亚)、Marcelo
es-BO
西班牙语(玻利维亚)、Catalina
es-CL
西班牙语(智利)、Lorenzo
es-CL
西班牙语(智利)、Maria
es-CR
西班牙语(哥斯达黎加)、Juan
es-CR
西班牙语(哥斯达黎加)、Belkys
es-CU
西班牙语(古巴)、Manuel
es-CU
西班牙语(古巴)、Ramona
es-DO
西班牙语(多米尼加共和国)、Emilio
es-DO
西班牙语(多米尼加共和国)、Andrea
es-EC
西班牙语(厄瓜多尔)、Luis
es-EC
西班牙语(厄瓜多尔)、Teresa
es-GQ
西班牙语(赤道几内亚)、Javier
es-GQ
西班牙语(赤道几内亚)、Marta
es-GT
西班牙语(危地马拉)、Andres
es-GT
西班牙语(危地马拉)、Karla
es-HN
西班牙语(洪都拉斯)、Carlos
es-HN
西班牙语(洪都拉斯)、Yolanda
es-NI
西班牙语(尼加拉瓜)、Federico
es-NI
西班牙语(尼加拉瓜)、Margarita
es-PA
西班牙语(巴拿马)、Roberto
es-PA
西班牙语(巴拿马)、Camila
es-PE
西班牙语(秘鲁)、Alex
es-PE
西班牙语(秘鲁)、Karina
es-PR
西班牙语(波多黎各)、Victor
es-PR
西班牙语(波多黎各)、Tania
es-PY
西班牙语(巴拉圭)、Mario
es-PY
西班牙语(巴拉圭)、Lorena
es-SV
西班牙语(萨尔瓦多)、Rodrigo
es-SV
西班牙语(萨尔瓦多)、Valentina
es-UY
西班牙语(乌拉圭)、Mateo
es-UY
西班牙语(乌拉圭)、Paola
es-VE
西班牙语(委内瑞拉)、Sebastian
es-VE
西班牙语(委内瑞拉)、Dilara
fa-IR
波斯语(伊朗)、Farid
fa-IR
波斯语(伊朗)、Blessica
fil-PH
菲律宾语(菲律宾)、Angelo
fil-PH
菲律宾语(菲律宾)、Sabela
gl-ES
加利西亚语、Roi
gl-ES
加利西亚语、Siti
jv-ID
爪哇语(印度尼西亚)、Dimas
jv-ID
爪哇语(印度尼西亚)、Sreymom
km-KH
高棉语(柬埔寨)、Piseth
km-KH
高棉语(柬埔寨)、Nilar
my-MM
缅甸语(缅甸)、Thiha
my-MM
缅甸语(缅甸)、Ubax
so-SO
索马里语(索马里)、Muuse
so-SO
索马里语(索马里)、Tuti
su-ID
巽他语(印度尼西亚)、Jajang
su-ID
巽他语(印度尼西亚)、Rehema
sw-TZ
斯瓦希里语(坦桑尼亚)、Daudi
sw-TZ
斯瓦希里语(坦桑尼亚)、Saranya
ta-LK
泰米尔语(斯里兰卡)、Kumar
ta-LK
泰米尔语(斯里兰卡)、Venba
ta-SG
泰米尔语(新加坡)、Anbu
ta-SG
泰米尔语(新加坡)、Gul
ur-IN
乌尔都语(印度)、Salman
ur-IN
乌尔都语(印度)、Madina
uz-UZ
乌兹别克语(乌兹别克斯坦)、Sardor
uz-UZ
乌兹别克语(乌兹别克斯坦)、Thando
zu-ZA
祖鲁语(南非)、Themba
zu-ZA
祖鲁语(南非)。
en-US
英语(美国)):Sara 表示一位年轻女性,其说话风格更随意,最适合聊天机器人场景
。
ja-JP
日语语音 Nanami 添加的新样式
:Nanami 现在提供三种新样式:聊天、客户服务和快乐。
id-ID
、Premwadee
th-TH
、Christel
da-DK
、HoaiMy 和 NamMinh
vi-VN
。
zh-CN
中文(普通话):小陈和小燕,针对自发语音和客户服务场景进行了优化
。
神经网络文本转语音更新
Speech Studio 更新
为神经 TTS 添加的新语言和语音
引入了 10 种新语言 - 神经 TTS 语言列表中添加了 10 个新区域设置中的 20 种新语音,分别为:Yan
en-HK
英语(香港),Sam
en-HK
英语(香港),Molly
en-NZ
英语(新西兰),Mitchell
en-NZ
英语(新西兰),Luna
en-SG
英语(新加坡),Wayne
en-SG
英语(新加坡),Leah
en-ZA
英语(南非),Luke
en-ZA
英语(南非),Dhwani
gu-IN
古吉拉特语(印度),Niranjan
gu-IN
古吉拉特语(印度),Aarohi
mr-IN
马拉地语(印度),Manohar
mr-IN
马拉地语(印度),Elena
es-AR
西班牙语(阿根廷),Tomas
es-AR
西班牙语(阿根廷),Salome
es-CO
西班牙语(哥伦比亚),Gonzalo
es-CO
西班牙语(哥伦比亚),Paloma
es-US
西班牙语(美国),Alonso
es-US
西班牙语(美国),Zuri
sw-KE
斯瓦希里语(肯尼亚),Rafiki
sw-KE
斯瓦希里语(肯尼亚)。
预览版中添加十一种新 en-US 语音 - 预览版中有 11 种新 en-US 语音添加到美式英语中,分别为 Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob。
五种
zh-CN
中文(普通话,简体中文)语音正式发布 - 5 种中文(普通话,简体中文)语音从预览版转为正式发布。 分别为 Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui。 现在,这些语音在所有
区域
都可以使用。 Yunxi 添加了一种新的“助手”风格,适用于聊天机器人和语音代理。 Xiaomo 的语音风格经过改进,更加自然和富有特色。
神经网络文本转语音已在 21 个区域中可用
Japan East
、
Japan West
、
Korea Central
、
North Central US
、
North Europe
、
South Central US
、
Southeast Asia
、
UK South
、
west Central US
、
West Europe
、
West US
、
West US 2
。 查看
此处
,了解 21 个受支持区域的完整列表。
为神经 TTS 添加的新语言和语音
引入了六种新语言 - 向神经 TTS 语言列表中添加了 6 个新的区域设置中的 12 种新语音:
cy-GB
威尔士语(英国) 中的 Nia、
cy-GB
威尔士语(英国) 中的 Aled、
en-PH
英语(菲律宾) 中的 Rosa、
en-PH
英语(菲律宾) 中的 James、
fr-BE
法语(比利时) 中的 Charline、
fr-BE
法语(比利时) 中的 Gerard、
nl-BE
荷兰语(比利时) 中的 Dena、
nl-BE
荷兰语(比利时) 中的 Arnaud、
uk-UA
乌克兰语(乌克兰) 中的 Polina、
uk-UA
乌克兰语(乌克兰) 中的 Ostap、
ur-PK
乌尔都语(巴基斯坦) 中的 Uzma、
ur-PK
乌尔都语(巴基斯坦) 中的 Asad。
五种语言从预览版升级到正式版 - 11 月在 5 个区域设置中引入的 10 种语音现在已正式发布:
et-EE
爱沙尼亚语(爱沙尼亚) 中的 Kert、
ga-IE
爱尔兰语(爱尔兰) 中的 Colm、
lv-LV
拉脱维亚语(拉脱维亚) 中的 Nils、
lt-LT
立陶宛语(立陶宛) 中的 Leonas、
mt-MT
马耳他语(马耳他) 中的 Joseph。
为法语(加拿大) 添加了新的男性语音 - 现在为
fr-CA
法语(加拿大) 提供了新语音 Antoine。
质量改进 - 降低了语音错误率:
hu-HU
匈牙利语 - 48.17%、
nb-NO
挪威语 - 52.76%、
nl-NL
荷兰语(荷兰) - 22.11%。
此发行版现在支持 60 种语言/区域设置的总共 142 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问 语言支持 。
获取人脸姿态事件以创建角色动画
神经网络文本转语音现在包含
视素事件
。 使用视素事件,用户可获取人脸姿态序列和合成语音。 视素可以用来控制 2D 和 3D 头像模型的运动,使嘴巴的运动与合成的语音匹配。 视素事件目前仅适用于
en-US-AriaNeural
语音。
以语音合成标记语言 (SSML) 添加 bookmark 元素
使用 bookmark 元素 可以在 SSML 中插入自定义标记,以获得音频流中每个标记的偏移量。 它可用于引用文本或标记序列中的特定位置。
神经网络定制声音正式发布
2 月份以 13 种语言正式发布了神经网络定制声音:中文(普通话,简体)、英语(澳大利亚)、英语(印度)、英语(英国)、英语(美国)、法语(加拿大)、法语(法国)、德语(德国)、意大利语(意大利)、日语(日本)、韩语(韩国)、葡萄牙语(巴西)、西班牙语(墨西哥)、西班牙语(西班牙)。 详细了解 什么是神经网络定制声音 以及 如何负责任地使用它 。 神经网络定制声音功能需要注册。Microsoft 可能会根据 Microsoft 的资格条件限制访问权限。 详细了解 受限访问 。
正式版和预览版中的新神经语音
为 54 种语言/区域设置中的总共 129 种神经语音发布了 51 种新语音:
正式版区域设置中的 46 种新语音
:
ar-EG
阿拉伯语(埃及)中的 Shakir、
ar-SA
阿拉伯语(沙特阿拉伯)中的 Hamed、
bg-BG
保加利亚语(保加利亚)中的 Borislav、
ca-ES
加泰罗尼亚语中的 Joana、
cs-CZ
捷克语(捷克共和国)中的 Antonin、
da-DK
丹麦语(丹麦)中的 Jeppe、
de-AT
德语(澳大利亚)中的 Jonas、
de-CH
德语(瑞士)中的 Jan、
el-GR
希腊语(希腊)中的 Nestoras、
en-CA
英语(加拿大)中的 Liam、
en-IE
英语(爱尔兰)中的 Connor、
en-IN
印地语(印度)中的 Madhur、
en-IN
泰卢固语(印度)中的 Mohan、
en-IN
英语(印度)中的 Prabhat、
en-IN
泰米尔语(印度)中的 Valluvar、
es-ES
加泰罗尼亚语中的 Enric、
et-EE
爱沙尼亚语(爱沙尼亚)中的 Kert、
fi-FI
芬兰语(芬兰)中的 Harri、
fi-FI
芬兰语(芬兰)中的 Selma、
fr-CH
法语(瑞士)中的 Fabrice、
ga-IE
爱尔兰语(爱尔兰)中的 Colm、
he-IL
希伯来语(以色列)中的 Avri、
hr-HR
克罗地亚语(克罗地亚)中的 Srecko、
hu-HU
匈牙利语(匈牙利)中的 Tamas、
id-ID
印度尼西亚语(印度尼西亚)中的 Gadis、
lt-LT
立陶宛语(立陶宛)中的 Leonas、
lv-LV
拉脱维亚语(拉脱维亚)中的 Nils、
ms-MY
马来语(马来西亚)中的 Osman、
mt-MT
马耳他语(马耳他)中的 Joseph、
nb-NO
挪威语、博克马尔语(挪威)中的 Finn、
nb-NO
挪威语、博克马尔语(挪威)中的 Pernille、
nl-NL
荷兰语(荷兰)的 Fenna、
nl-NL
荷兰语(荷兰)中的 Maarten、
pl-PL
波兰语(波兰)中的 Agnieszka、
pl-PL
波兰语(波兰)中的 Marek、
pt-BR
葡萄牙语(巴西)中的 Duarte、
pt-PT
葡萄牙语(葡萄牙)中的 Raquel、
ro-RO
罗马尼亚语(罗马尼亚)中的 Emil、
ru-RU
俄语(俄罗斯)中的 Dmitry、
ru-RU
俄语(俄罗斯)中的 Svetlana、
sk-SK
斯洛伐克语(斯洛伐克)中的 Lukas、
sl-SI
斯洛文尼亚语(斯洛文尼亚)中的 Rok、
sv-SE
瑞典语(瑞典)中的 Mattias、
sv-SE
瑞典语(瑞典)中的 Sofie、
th-TH
泰语(泰国)中的 Niwat、
tr-TR
土耳其语(土耳其)中的 Ahmet、
vi-VN
越南语(越南)中的 NamMinh、
zh-TW
台湾普通话(台湾)中的 HsiaoChen、
zh-TW
台湾普通话(台湾)中的 YunJhe、
zh-HK
粤语(香港特別行政区)中的 HiuMaan、
zh-HK
粤语(香港特別行政区)中的 WanLung。
预览版区域设置中的 5 种新语音
:
et-EE
爱沙尼亚语(爱沙尼亚)中的 Kert、
ga-IE
爱尔兰语(爱尔兰)中的 Colm、
lv-LV
拉脱维亚语(拉脱维亚)中的 Nils、
lt-LT
立陶宛语(立陶宛)中的 Leonas、
mt-MT
马耳他语(马耳他)中的 Joseph。
此发行版现在支持 54 种语言/区域设置中的总共 129 种神经语音。 此外,可在 49 种语言/区域设置中使用超过 70 种的标准语音。 有关完整列表,请访问 语言支持 。
音频内容创建的更新
zh-CN
神经语音启用
StyleDegree
控件。
若要查看新功能,请访问
音频内容创建工具
。
zh-CN 语音的更新
zh-CN
神经语音以支持英语。
zh-CN
神经语音以支持语调调整。 可以使用 SSML 或音频内容创建工具进行调整以获取最佳语调。
zh-CN
多样式神经语音以支持
StyleDegree
控件。 可调整情感强度(弱或强)。
zh-CN-YunyeNeural
以支持可以执行不同情感的多种风格。
预览版中的新区域设置和语音
zh-CN
语音,支持多个样式和角色
:Xiaohan、Xiaomo、Xiaorui、Xiaoxuan 和 Yunxi。
在以下三个 Azure 区域的公共预览版中可以使用这些语音:EastUS、SouthEastAsia 和 WestEurope。
神经网络文本转语音容器 GA
有关详细信息,请参阅 此技术博客 。
newscast
样式。 请参阅
如何在 SSML 中使用说话风格
。
一般性的 TTS 语音质量改进
pl-PL
(错误率降低:51%)和
fi-FI
(错误速率降低:58%)
ja-JP
单个字词阅读功能。 将发音错误减小了 80%。
zh-CN-XiaoxiaoNeural
:改进了情绪/客户服务/新闻广播/快乐/愤怒风格的语音质量。
zh-CN
:改进了儿化音发音和轻声,优化了空间韵律,从而大大提高了清晰度。
神经网络文本转语音
en-US
和
zh-CN
语音的新说话风格。
英语(美国)区域设置中的 Jenny 支持聊天机器人、客户服务和助理说话风格。 简体中文语音 XiaoXiao 有 10 种新的说话风格可用。 此外,XiaoXiao 神经语音支持
StyleDegree
优化。 请参阅
如何在 SSML 中使用说话风格
。
容器:已发布公共预览版神经网络文本转语音容器,其中提供了 14 种语言的 16 种语音。 详细了解 如何部署用于神经网络文本转语音的语音容器
神经网络文本转语音:为
en-US
Aria 语音添加了新的说话风格。 播报新闻时,AriaNeural 听起来像新闻播音员。 “newscast-formal”风格听起来更严肃,而“newscast-casual”风格则更为放松和随意。 请参阅
如何在 SSML 中使用说话风格
。
定制声音:发布了一项新功能以自动检查训练数据质量 。 当你上传数据时,系统将检查音频和脚本数据的各个方面,并自动修复或筛选问题,以提高语音模型的质量。 这涉及到音频音量、噪声级别、语音的发音准确度、语音与规范化文本的相符程度、音频中的沉默,以及音频和脚本格式。
音频内容创建:一组新功能,可实现更强大的语音优化和音频管理功能 。
发音:将发音优化功能更新为最新的音素集。 可以从库中选取正确的音素元素,并优化所选字词的发音。
下载:音频“下载”/“导出”这一功能得到增强,支持按段落生成音频。 可以编辑同一文件/SSML 中的内容,同时生成多个音频输出。 “下载”的文件结构也得到了完善。 现在,可以轻松将所有音频文件保存在一个文件夹中。
任务状态:多文件导出体验得到改善。 过去导出多个文件时,如果其中一个文件失败,则整个任务将失败。 但现在,所有其余文件都将成功导出。 任务报表中包含了更加详细和结构化的信息。 可以通过报表查看所有失败文件和句子的记录。
SSML 文档:链接到 SSML 文档,有助于查看有关如何使用所有优化功能的规则。
语音列表 API 已更新,现包含易记的显示名称和神经网络语音支持的说话风格 。
降低了单词级别发音错误 %:
ru-RU
(错误减少 56%)、
sv-SE
(错误减少 49%)
对
en-US
神经网络语音的复音词读取能力提高了 40%。 复音词的示例包括“read”、“live”、“content”、“record”、“object”等。
使
fr-FR
中的疑问语气更加自然。 MOS(平均意见得分)增益:+0.28
更新了以下语音的 vocoder,提高了保真度,整体性能提高 40%。
Locale语音转文本 REST API 版本 2024-11-15 已正式发布。 有关详细信息,请参阅 语音转文本 REST API 参考文档 和 语音转文本 REST API 指南 。
语音转文本 REST API 版本 2024-05-15-preview 已弃用。
快速听录现已通过 语音转文本 REST API 版本 2024-11-15 正式发布。 借助快速听录,可以使用高速系数准确同步地将音频文件转录为文本。 它可以比实际音频持续时间更快地听录音频。 有关详细信息,请参阅 快速听录 API 指南 。
通过
es-US
双语模型,对短西班牙语术语的识别质量有了显著改善。 该模型是双语的,也支持英语。 英语识别的质量也得到了提高。
视频翻译 API 现已推出公共预览版。 有关详细信息,请参阅 如何使用视频翻译 。
实时语音转文本 发布了以下语言的新模型,质量更佳。
fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ
快速听录现在支持差异化以识别和区分单声道音频文件中的多个说话者。 有关详细信息,请参阅 快速听录 API 指南 。
语言学习现在以公共预览版提供。 交互式语言学习可让你的学习体验变得更加有趣和有效。 有关详细信息,请参阅 带有发音评估的交互式语言学习 。
语音 发音评估 现在支持 33 种正式发布的语言,每种语言均可在所有语音转文本 区域 使用。 有关详细信息,请参阅 发音评估的完整语言列表 。
区域设置 (BCP-47)快速听录现在以公共预览版提供。 借助快速听录,可以使用高速系数准确同步地将音频文件转录为文本。 它可以比实际音频持续时间更快地听录音频。 有关详细信息,请参阅 快速听录 API 指南 。
在 Azure AI Foundry 门户中 试用快速听录。
语音转文本 REST API 版本 3.2 现已正式发布。 有关语音转文本 REST API v3.2 的详细信息,请参阅 语音转文本 REST API v3.2 参考文档 和 语音转文本 REST API 指南 。
预览版 3.2-preview.1 和 3.2-preview.2 于 2024 年 9 月停用。
语音转文本 REST API v3.1 即将停用,具体日期有待宣布。 语音转文本 REST API v3.0 将于 2026 年 4 月 1 日停用。 有关升级的详细信息,请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。
视频翻译现已推出公共预览版。 视频翻译是 Azure AI 语音中的一项功能,可让你自动无缝翻译和生成多种语言的视频。 此功能旨在帮助你本地化视频内容,以满足全球不同受众的需求。 你可以跨各种用例(如 vlog、教育、新闻、企业培训、广告、电影、电视节目等)高效创建沉浸式本地化的视频。 有关详细信息,请参阅 视频翻译概述 。
语音 发音评估 现在正式支持 24 种语言(添加了 1 种新语言),另外,对 7 种语言的支持推出了公共预览版。 有关详细信息,请参阅 发音评估的完整语言列表 。
公共预览版中提供了自动多语言语音翻译。 这一创新功能彻底改变了克服语言障碍的方式,为各种不同语言环境间的无缝沟通提供了无与伦比的功能。
有关详细说明,请访问 语音翻译概述 。 此外,还可以参考 如何转换语音 中的代码示例。 从 1.37.0 开始,所有 SDK 版本均完全支持此新功能。
使用说话人角色分离的实时语音转文本功能现已正式发布。
可以创建语音转文本应用程序来使用说话人角色分离区分参与对话的不同说话人。 有关实时说话人角色分离的详细信息,请查看 实时说话人角色分离快速入门 。
实时语音转文本
已发布具有双语功能的新模型。
en-IN
模型现在支持英语和印地语双语方案,并提高了准确性。 阿拉伯语区域设置(
ar-AE
、
ar-BH
、
ar-DZ
、
ar-IL
、
ar-IQ
、
ar-KW
、
ar-LB
、
ar-LY
、
ar-MA
、
ar-OM
、
ar-PS
、
ar-QA
、
ar-SA
、
ar-SY
、
ar-TN
、
ar-YE
)现在都具有双语英语支持、更高的准确性和呼叫中心支持。
批量听录
为以下区域设置提供具有新体系结构的模型:
es-ES
、
es-MX
、
fr-FR
、
it-IT
、
ja-JP
、
ko-KR
、
pt-BR
和
zh-CN
。 这些模型显著改善了可读性和实体识别。
Azure AI 语音的 Whisper 语音转文本模型现已正式发布。
请查看 什么是 Whisper 模型? ,详细了解使用 Azure AI 语音与 Azure OpenAI 服务的场景。
添加了对以下区域设置的短语列表支持:ar-SA、de-CH、en-IE、en-ZA、es-US、id-ID、nl-NL、pl-PL、pt-PT、ru-RU、sv-SE、th-TH、vi-VN、zh-HK、zh-TW。
我们很高兴能够为我们的实时语音建模(双语语音建模)提供开创性补充。 这一显著增强功能使我们的语音模型能够无缝支持双语语言对,如英语和西班牙语以及英语和法语。 这一功能使用户能够在实时交互过程中轻松切换语言,这标志着我们致力于增强沟通体验的关键时刻。
主要亮点:
如何使用:
调用语音服务 API 或在 Speech Studio 上试用时,请选择 es-US(西班牙语和英语)或 fr-CA(法语和英语)。 可以随意使用任何一种语言或将它们混合在一起 — 该模型旨在动态调整,以两种语言提供准确和上下文感知的响应。
是时候使用我们最新发布的功能提升你的沟通游戏了 — 无缝多语言沟通触手可及!
我们很高兴能对语音模型进行重大更新,承诺增强的准确度、提高可读性和改进实体识别。 这一升级带来了强大的新结构,并得到了扩展的定型数据集的支持,确保了整体性能的显著提升。 它包括针对 en-US、zh-CN、ja-JP、it-IT、pt-BR、es-MX、es-ES、fr-FR、de-DE、ko-KR、tr-TR、sv-SE 和 he-IL 的新发布型号。
潜在影响:尽管取得了这些进步,但重要的是要注意潜在影响:
我们鼓励探索这些改进,并考虑无缝过渡的潜在问题,一如既往,你的反馈有助于改进和推进我们的服务。
语音 发音评估 现在支持 18 种语言,还有 6 种语言可供公众预览。 有关详细信息,请参阅 发音评估的完整语言列表 。
我们很高兴地宣布,发音评估将从 2023 年 11 月 1 日开始引入新功能:韵律、语法、词汇和主题。 这些增强功能旨在为阅读和说话评估提供更全面的语言学习体验。 升级到 SDK 1.35.0 或更改版本,在 如何使用发音评估 和 Speech Studio 中的发音评估 中浏览更多详细信息。
Azure AI 语音现在支持通过批量听录 API 使用 OpenAI 的 Whisper 模型。 要了解详细信息,请查看 创建批量听录 指南。
Azure OpenAI 服务还支持通过同步 REST API 使用 OpenAI 的 Whisper 模型的语音转文本功能。 若要了解详细信息,请查看 快速入门 。
请查看 什么是 Whisper 模型? ,详细了解使用 Azure AI 语音与 Azure OpenAI 服务的场景。
语音转文本 REST API v3.2 以预览版提供。 语音转文本 REST API v3.1 已正式发布。 语音转文本 REST API v3.0 将于 2026 年 4 月 1 日停用。 有关详细信息,请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。
语音转文本支持两个新的区域设置,如下表所示。 在 此处 查看完整的语言列表。
Locale
为
de-AT
区域设置添加了对音频 + 人工标记的脚本的支持。
为更多区域设置添加了对“音频 + 人工标记的脚本”的支持:
ar-BH
、
ar-DZ
、
ar-EG
、
ar-MA
、
ar-SA
、
ar-TN
、
ar-YE
和
ja-JP
。
为
de-AT
区域设置添加了对结构化文本改编的支持。
语音转文本 REST API 版本 3.1 已推出正式版。 语音转文本 REST API 版本 3.0 即将停用。 若要详细了解如何进行迁移,请参阅 指南 。
添加了
ml-IN
区域设置的马拉雅拉姆语(印度)的支持。 在
此处
查看完整的语言列表。
增加了 7 个新区域设置,如下表所示。 在 此处 查看完整的语言列表。
Locale
uk-UA
区域设置的支持
cs-CZ
、
da-DK
、
en-GB
、
fr-CA
、
hu-HU
、
it-CH
、
tr-TR
、
zh-CN-sichuan
添加了对最新模型版本的支持:
en-us-andrewmultilingualneural
、
en-us-jessaneural
、
es-us-alonsoneural
、
es-us-palomaneural
、
it-it-isabellamultilingualneural
ar-YE
、
af-ZA
、
am-ET
、
ar-MA
、
ar-TN
、
sw-KE
、
sw-TZ
、
zu-ZA
添加了对最新模型版本的支持:
PropertyId.Speech_SegmentationSilenceTimeoutMs
被忽略的问题。
uk-UA
区域设置
添加了对最新模型版本的支持:
将语音转文本组件到最新。
将所有
es
区域设置模型升级到最新。
增加语音转文本用例的媒体转换缓冲区。
添加了对最新模型版本的支持:
添加了对最新模型版本的支持:
修复多个高风险漏洞问题。
移除容器中的冗余日志。
将内部媒体组件升级到最新版本。
添加对语音
en-IN-NeerjaNeural
的支持。
添加了对最新模型版本的支持:
将自定义语音转文本和语音转文本升级到最新框架。
修复漏洞问题。
添加对语音
ar-AE-FatimaNeural
的支持。
添加了对最新模型版本的支持:
修复使用本地自定义模型文件通过
docker
装载选项运行语音转文本容器的问题。
修复在某些情况下
RECOGNIZING
事件不会通过语音 SDK 在响应中显示的问题。
修复漏洞问题。
添加了对最新模型版本的支持:
本地语音转文本图像升级至 .NET 6.0
升级用于语言区域设置的显示模型,包括
en-us
、
ar-eg
、
ar-bh
、
ja-jp
、
ko-kr
等。
升级语音转文本容器组件以解决漏洞问题。
添加对以下区域设置语音的支持:
de-DE-AmalaNeural
、
de-AT-IngridNeural
、
de-AT-JonasNeural
和
en-US-JennyMultilingualNeural
添加了对最新模型版本的支持:
修复
he-IL
标点问题
修复漏洞问题
添加新的区域语音
en-US-MichelleNeural
和
es-MX-CandelaNeural
修复漏洞问题
添加了对最新模型版本的支持:
修复漏洞问题
修复
tr-TR
大写问题
升级语音转文本
en-US
显示模式
添加对预生成神经网络文本转语音区域设置语音
ar-AE-HamdanNeural
的支持
添加了对最新模型版本的支持:
修复漏洞问题
定期升级语音模型
添加新的阿拉伯区域设置:
升级希伯来语和土耳其语显示模型
添加了对最新模型版本的支持:
修复假设模式问题
修复 HTTP 代理问题
自定义语音转文本容器断开连接模式
向 TTS 前端添加 CNV 断开连接容器支持
添加对以下区域设置语音的支持:
添加了对最新模型版本的支持:
修复 ipv4/ipv6 问题
修复漏洞问题
添加了对最新模型版本的支持:
添加了对最新模型版本的支持:
添加了最新模型版本的支持。
添加了以下区域设置的支持:
每月定期更新,包括安全升级和漏洞修复。
每月定期更新,包括安全升级和漏洞修复。
添加了对这些 预生成神经语音 的支持:
az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural
每月定期更新,包括安全升级和漏洞修复。
语音语言检测 的 Bug 修复。
增加了对 获取显示模型 的支持。
添加了在 断开连接的环境 中使用容器的支持。
每月定期更新,包括安全升级和漏洞修复。
添加了对这些预生成神经网络语音的支持:
am-et-amehaneural
、
am-et-mekdesneural
、
so-so-muuseneural
和
so-so-ubaxneural
。
每月定期更新,包括安全升级和漏洞修复。
![]() |
善良的白开水 · 024-Oracle排序、单行函数 - 知乎 1 年前 |