中广格兰旗下网站:中广互联  格视网  卫星界  社区
登录注册

登录X

没有账号?  快速注册>

首页新闻正文

广电智能机顶盒语音平台的建设与应用

导语:本文探讨了北方广电智能机顶盒语音平台的建设与应用,主要从建设背景、系统设计、创新要点及实践体会等方面进行了论述,该平台建成后实现了机顶盒的语音智能遥控,使人工智能技术融入到传统业务中,成为黏住用户的有力抓手。

      引言

  科技创新的浪潮滚滚向前,人工智能的发展前景波澜壮阔。北方广电网络公司正在紧紧抓住这一历史机遇,不断解放思想,转变观念,从全局性、战略性、前瞻性等方面着手谋划,本着“一云多屏,一网多用”的经营发展理念,遵循“移动化、社交化、可视化”的融媒体传播规律,在进一步巩固传统主业的同时,围绕改善用户体验方面积极探索和创新,在机顶盒上引入语音识别等人工智能新应用,就是一个很好的突破点,努力构建智慧广电新生态,提高广电业务的市场竞争力。对于国内广电网络而言,都在积极探索人工智能(AI)的高效应用,因为“人工智能”(AI)是一个非常新的领域,涉及的应用很多,和广电息息相关的领域主要包括智能语音客服、智能图像识别、智能语音输入等,其中智能语音输入最为成熟,发展也最为迅猛,易从人机交互语音识别系统领域入手,当前业务应用也比较容易落地,北方广电网络公司在这方面做了大量尝试和研究,和赛科公司联手共同开发了“小精灵”机顶盒智能语音交互平台,通过语音遥控器和智能音箱去操控机顶盒,取代了传统的遥控器,以广电 +AI 模式为传统业务体验进行语音赋能,提高了广电业务的综合竞争力 [1]。

  建设背景

  当前无论是传统电视还是智能电视,交互问题都是难点,要解决的问题都是一样的,即“如何让用户方便地获取内容”,提高用户的体验。这里有个关键点即“方便性”,在方便性上,传统电视和互联网电视差不多,都是基于普通遥控器进行人机交互,用户体验有限 ;而人工智能技术的长足发展,通过语音识别技术在这个关键点上很好地解决了这个问题,大大提升了广播与电视技术用户使用体验,北方广电密切关注这方面技术的发展情况,在“小精灵”智能机顶盒产品中采用人工智能语音识别技术,取得了可喜的成果。

  1. 智能语音技术日趋成熟,商业化应用遍地开花

  深度学习、高性能运算平台和大数据是人工智能技术取得突破的核心助推力。深度学习端到端解决了特征表示与序列影射的问题,使得人工智能的性能得到了快速提升 ;而互联网时代海量的数据又不断为算法模型提供了训练材料,同时,云计算的兴起和高性能的运算平台为智能化提供了强大的运算能力和服务能力 [2]。

  在语音识别率方面,百度等几家主流平台识别准确率均在96% 以上,稳定的识别能力为语音技术的落地提供了可能。

  2. 商业场景落地的重要环节 , 语音交互有了重大突破

  与此同时,语音交互的核心环节也取得重大突破。语音识别环节突破了单点能力,从远场识别,到语音分析和语义理解有了重大突破,形成一整套的解决方案。

  3. 智能语音交互的便利性

  首先,语音交互能够创造全新的“伴随式”场景。语音交互能极大提高人们在某些不方便使用手和眼睛的场景中的效率。随着智能设备影响的扩大,人工智能语音交互能普及到更广泛的人群,比如视力不好,手脚不灵活的老年人,不识字的低龄儿童、盲人等生活难以自理的群体,让他们的生活更方便。另外通过语音交互,人工智能可以实现自主学习,在此基础上,人工智能将更顺利地融入到用户家庭生活中,扮演陪伴者或教育者的角色,满足用户现实需求的同时,满足用户的心理需求,这是人工智能未来发展的一大方向,因此要想让机顶盒家庭娱乐的中心,一定要融入人工智能语音识别技术。

  系统设计

  北方广电机顶盒智能语音平台主要分为终端语音采集、业务处理、云端服务等几个部分,网络架构如图 1 所示。

  语音采集层 :包括设备语音遥控器、智能音箱等,语音遥控器采用红外和 2.4G 混合模式,遥控器所有按键支持 2.4G 与红外键值码两套数据指令,在遥控器与机顶盒 2.4G 连接状态下,遥控器按键交互启动 2.4G 连接,此时指示灯亮,按键的键值是标准的键盘 HID 值;当遥控器与机顶盒 2.4G 未连接时,遥控器所有按键都发红外键码 ;遥控器发红外码时,红外指示灯亮,保持用户操作使用的全局有效性。智能音箱作为支持远场语音人机交互手段,既能语音遥控机顶盒,也可当作互联网

  音箱使用,完全可以通过语音自由切换,例如说“小度,小度进入电视模式”这样就可以遥控“小精灵”机顶盒了,“小度,小度进入音箱模式”则退出电视模式进入互联网音箱模式。总之,通过这些外设采集用户音频,发起搜索请求,语音遥控器2.4G 连接机顶盒,机顶盒利用广电双向内网(CMTS、EoC、FttLan 等方式)与代理服务器完成通讯交互,智能音箱则通过WIFI 互联网方式进行机顶盒语音控制。

  业务处理部分 :将请求转发到语音业务服务器,平摊用户请求的压力,为服务器快速扩容提供结构上的便利。同时根据用户的意图,查询相关数据,向终端应用发出相应的指令、数据,主要包括以下设备 :

  负载均衡服务器 :将用户的语音搜索请求转发到应用服务器 ;

  度秘代理服务器 :需要访问外网,把机顶盒用户的语音请求通过该服务器发送到

  度秘云服务器 ;交换机 :CMS、详情页、点播、回看、EPG 等媒资服务器要连接到此交换机,包括第三方系统的对接等,保证本地信息同步 ;

  本地语音服务器 :完成本地平台媒资等信息同步及存储相关业务节目数据,识别用户的意图,进行对应数据搜索 ;

  语音推送服务器 :由服务端发起的控制信息由该服务器推送指令给终端机顶盒 ;

  云端服务部分是人工智能的核心模块,主要依托强大的云端计算能力和丰富的互联网资源,完成如语音识别、语音合成、图片识别等操作,识别用户的意图,并不断丰富完善现有人工智能的业务和能力,进一步更新新的业务能力,主要设备是度秘云服务器。

  度秘云服务器 :负责接收来自机顶盒的语音文件,并把语音文件解析成 JSON 串返回给本地语音服务器进行处理,从而完成业务基础能力支撑。

  语音平台不仅仅支持切台、搜索节目名跳转等基本功能,用户也可以通过语音搜索人物、汇率、故事、笑话、天气、百度百科等信息,机顶盒将搜索到的内容在电视上展现出来,真正体现 AI 的魅力所在,下面我们看一下具体的工作流程,其内容检索流程如图 2 所示。

  语音检索方式可分为单维度、多轮对话点播搜索等几种方式检索,单维度搜索可按片名、热度、角色等几十种特征信息进行智能搜索,非常丰富,多轮对话点播搜索体现交互特点,逐轮筛选,例如用户说 :“我想看好看的电影 ( 第一轮 ) -有古装的么 ( 第二轮 ) - 要林心如主演的 ( 第三轮 )”等,都能精准检索出。另外还有一个很神奇的功能 - 智能识图,它是指电视屏幕上正在播放电影或电视剧时,用户说出“这个人是谁?”等识图指令,机顶盒就将对应图片的相关信息展示到电视上,也可以完成多个名星的识别(例如说:左边这个人是谁、左边这个演员叫什么名字),使你真正感受到人工智能(AI)正在悄悄走进我们生活。

  创新要点

  该语音平台主要有以下设计创新点 :

  1. 采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率达98%。

  2. 联合百度百科,可解答大部分生活常识、专业知识类的问题,融合各类查询接口,查询各类实时信息、搜索天气、股票、美食等等、一问即答。

  3. 基于百度大数据图像识别技术,可以对电视播放时出现的明星进行识别,并展示相关信息,功能先进,识别度高。

  4. 新一代电视控制方式,可以通过语音,来对电视的音量调整、更换频道、视频资源快进后退播放。实现按照影片类型、获得奖项、影视概要信息、明星关系等深度信息进行语音搜索,并能理解记忆用户指令,实现一次搜索过程的多轮交互。

  5. 共享模块接口用于与其他第三方应用、服务进行深入对接整合,形成更加丰富完善的人工智能业务,在强大的人工智能技术支持下,语音搜索应用领域将逐步扩大。

  4实践体会

  在智能语音平台建设过程中,我们积累了一些宝贵的经验和体会,主要有以下几个方面 :

  1. 代理服务器集群的网络安全问题,该集群对外要能访问图2 内容检索工作流程图广播与电视技术度秘云平台,由于度秘服务器集群 IP 地址变更频繁,如果采用限制访问 IP 方式调整不及时会造成业务中断,严重影响语音体验,因此我们采用限制对外访问端口方式,这样大大提高了灵活度,保证业务对外通道的畅通,对内代理服务器要满足机顶盒的内网安全访问,这种代理方式对内、外网进行了有效隔离,很好解决了内、外网网络安全风险问题。

  2. 根据频道 service id 进行切台,由于历史原因地市频道名包含有特殊字符(空格、括号等特殊符号),且各市频道名不统一,包含一些自办频道,无法统一按照频道名进行语音跳转,基于实际情况进行综合考虑,采用 CA 区位码 ( 按市级分公司划分 ) 与频道 service id 绑定根据 service id 切台的方案,并根据用户习惯支持多个称谓对应一个 service id,例如“湖南台、芒果台”等对应都是 service id742(即湖南台),这样语音调台实现准确切换,最大限度保证了兼容性。

  3. 变更语音词条库需要提交百度审核,有些敏感词汇审核周期周较长,一般要一周左右,一定程度上制约了使用效果,我们通过优化流程、提前准备、增加与媒资库的信息同步频度等方法,让新录入信息尽可能及早语音功能生效。

  4. 语音遥控器质量会影响用户体验,由于增加 2.4G 模块,无线 2.4G 与红外逻辑切换复杂度增加,耗电量也增大,电池正常使用为 3 个月左右,因此招标时要严把遥控器质量关,做好测试环节,否则用户反映会比较强烈。另外语音遥控对双向网络质量要求提高,要保证机顶盒实时在线,如果出现网络丢包情况,就会影响语音效果。

  5. 采用无线 2.4G 技术的遥控器优点是遥控无指向性限制,传输带宽更大,允许遥控器进行语音、体感等更加复杂的操作;但它也并非完美,因为 WiFi 信号也是处在 2.4GHz 频段,所以在设备很多的情况下,有时会与 WiFi 之间产生干扰,从而降低遥控操作的精度。不过这种情况只会出现在非常极端的环境下,普通用户不必过度担心。

  5演进方向

  通过手机 APP、微信小程序等对机顶盒进行语音遥控的技术也比较成熟,手机遥控器功能需要依托原有智能语音平台进行功能拓展,增加远程控制功能,手机通过识别二维码方式实现手机和机顶盒的绑定,建立并保持长连接,APP、微信小程序等调用智能语音平台提供的 API 接口完成与智能语音平台的交互。

  由于“人工智能(AI)”的出现,机顶盒遥控方式将产生革命性的变化,逐步由传统的红外遥控向语音遥控方式转变,可以将语音解析转换成红外对应键值码指令,从而完成对机顶盒红外遥控,这是一种兼容过渡方式。另外在机顶盒播放节目场景中语音识别和图像识别相结合目前仅限于明星演员识别,未来将可能延伸到动物、植物等多个领域进行识别,应用前景十分广阔。

  6结束语

  目前,智能语音识别系统要实现全方位对机顶盒各种应用的控制,需要与各应用进行深度对接,想完全替代红外遥控器暂时还做不到,这期间需要很长的一段路要走,智能语音虽无处不在,但不是无所不能,它需要合适的生态和时机。广电建设者们正努力顺应行业发展趋势,携手共进,拥抱 AI 时代,全面推进“智慧广电”建设,让科技真正给广大用户带来快乐和便捷。

【责任编辑: 胥雪琪 】

推荐阅读

热门标签

作者专栏更多

关注我们

    中广互联
  1. 大视频行业颇具影响力的行业社群平台,重要新闻、热点观察、深度评论分析,推动电视行业与各行各业的连接。

  2. 电视瞭望塔
  3. 集合电视台、网络视听、潮科技等各种好玩信息。

  4. 5G Plus
  5. 专注于报道广电行业新鲜5G资讯,致力于成为广电行业有权威、有深度的5G自媒体平台。

  6. 4K8K
  7. UHD、4K、8K的最新资讯和最深入的分析,都在这里。

  8. 中广圈子
  9. 视频产业的专业圈子,人脉、活动、社区,就等你来。

  10. 格兰研究
  11. 我们只沉淀有深度的信息和数据。

  12. 卫星界
  13. 致力于卫星电视信息、卫星通信技术、天地一体网络应用案例、以及广电、通信等产业的市场动态、政策法规和技术资讯的传播。