语音接口系统和方法
2020-01-15

语音接口系统和方法

描述了一种可以通过移动计算设备访问的语音控制的系统。用户可以使用自然语言发音通信请求。麦克风可以收集该发音并将其提供给移动计算设备。移动计算设备可以发送人类发音到语音接口系统。当执行请求时,语音接口系统可以利用用户偏好以提供个性化的用户体验。这里也描述了计算机实现的方法。

在306,人类发音被转换为文本。在一些实施例中,话音识别模块可用于将人类发音的说出的话翻译成文本。然后,在308,文本可被发送给自然语言处理单元。自然语言处理单元一般可以实现自然语言理解(NLU)功能来解释經逢文本,以收集在304处接收的、在人类发音中表达的用户意图。基于在人类发音中表达的意图,自然语言处理单元可用识别一个命令集。在310,从自然语言处理单元接收命令集。该命令集可以包含能够被执行以基于在人类发音中表达的意图来执行处理的一个或多个命令。在312,基于该命令集和在302接收到的用户偏好数据执行动作。因此,由于所执行的特定动作是基于用户偏好数据的,所以可为语音接口系统的用户提供个性化的用户体验。

如将要理解的,图1所示的语音控制的系统的各种组件可以组合在一起。例如,在一些实施例中,话音识别模块104和/或自然语言处理单元102可以是语音接口系统100的一个组件。此外,在一些实施例中,话音识别模块104和自然语言处理单元102可以被结合并用作单个组件。

根据另一个实施例,提供了一种方法,其包括由计算系统接收用户偏好数据,由计算系统从移动计算设备接收音频数据,其中所述音频数据包含人类发音;以及由计算系统发送音频数据到话音识别模块,以获得与该音频数据相关联的文本数据。该方法还包括由计算系统发送文本数据到自然语言处理单元;由计算系统从自然语言处理单元接收命令集,以及基于所述命令集和用户偏好数据执行命令。

由用户所提供的人类发音112可以是自然语言格式,以使得不必要求用户说出特定的命令或短语以执行想要的功能。此外,人类发音112可以涉及各种各样的话题或命令。例如,人类发音112可以是基于目的地的请求,如“我饿了”或者“哪里是最近的意大利餐厅”。人类发音112也可以是与目的地和天气有关的请求,如“明天在我开户地方的天气会怎样?”人类发音112甚至可以涉及社交网络网站或其它类型的第三方应用程序,如“告诉我一些最近的状态更新。”人类发音112还可以涉及车内娱乐,如“播放我最喜爱的歌曲”或“是谁唱这首歌?”如可以理解的,大量其它类型的人类发音112可以被提供给车辆110,而不脱离本公开的范围。

如图2所示,语音接口系统200可以包括多个计算机服务器。例如,语音接口系统200可以包括一个或多个网络服务器(例如,226)和应用服务器(例如,224)。为方便起见,只有一个网络服务器226和一个应用服务器224被示于图2,但应该认识到,本公开并不限于此。网络服务器226可以提供图形网络用户界面,系统的用户可以通过该界面与语音接口系统200进行交互。网络服务器226可以从客户端(比如移动计算设备208上的网络浏览器)接受诸如HTTP请求之类的请求,并与诸如网页(例如,HTML文档)和链接的对象(如图像等)之类的可选数据内容一起提供诸如HTTP响应之类的客户端响应。

存储器单元222可以存储可执行的软件和数据,使得当所述语音接口系统200的处理器220执行该软件时,可使得处理器220执行语音接口系统200的各种操作,比如从计算机设备接收信息,处理从计算机设备接收的命令,以及在用户数据库中存储和取得信息,这将在下面更详细地讨论。语音接口系统200所使用的数据可以来自各种来源,如来自数据库228或其它类型的电子数据商店。例如,数据库228可包括用户偏好数据库。存储在数据库228中的数据可以被存储在非易失性计算机存储器中,如硬盘驱动器、只读存储器(例如,ROM1C)、或其它类型的非易失性存储器。另外,例如,与数据库228相关联的数据可被存储在远程电子计算机系统上。

仍然参照图1,一旦接收到人类发音112,移动计算设备108就可以将音频数据传递到语音接口系统100。音频数据可以通过比如例如蜂窝网络或WiFi网络之类的任何合适的无线空中接口进行传递。一旦从移动计算设备108接收到音频数据,语音接口系统100就可以通常确定用户的意图,然后基于用户的意图(并且如果可用,还基于用户的个人偏好)执行一个或多个命令。例如,为了执行该处理的各个方面,语音接口系统100可以与各种模块通信,其中一些可能是远离语音接口系统100的,并可经由应用程序编程接口(API)进行访问。