中广格兰旗下网站:中广互联  格视网  卫星界  社区
登录注册

登录X

没有账号?  快速注册>

首页新闻正文

广电总局批准《数字虚拟人技术要求》为新行标

导语:11月28日,国家广播电视总局正式批准《数字虚拟人技术要求》为中华人民共和国广播电视和网络视听推荐性行业标准,予以发布。标准编号为GY/T 411-2024。

  (本文原标题为:国家广播电视总局关于发布《数字虚拟人技术要求》一项广播电视和网络视听行业标准的通知)

  11月28日,国家广播电视总局正式批准《数字虚拟人技术要求》为中华人民共和国广播电视和网络视听推荐性行业标准,予以发布。标准编号为GY/T 411-2024。

  该文件规定了广播电视和网络视听行业数字虚拟人的技术要求,对于数字虚拟人分类、应用场景、形象、驱动技术、平台能力、安全能力提出规范要求。适用于广播电视和网络视听行业数字虚拟人的系统建设、创作和应用。

  数字虚拟人分类中:按照人物形象分类,分为2D数字虚拟人和3D数字虚拟人;按照交互模式分类,分为非交互式数字虚拟人和交互式数字虚拟人;按照驱动模式分类,分为算法驱动型数字虚拟人和真人驱动型数字虚拟人。

  数字虚拟人主要应用场景分为内容播报、交互客服、虚拟演播和内容创作等。其中内容播报包含新闻资讯播报/手语播报、电影/电视/专题片/纪录片介绍和直播带货等;交互客服包含虚拟客服、智能助手和交互问答等;虚拟演播包含综艺主持、虚拟演唱会、文娱活动和用户代理虚拟分身等;内容创作包含影视创作、视频创作、广告创作和游戏创作等。

  总体技术架构包括数字虚拟人形象、算法驱动能力、真人驱动能力、平台能力和安全能力等内容。数字虚拟人形象包括2D真人、2D卡通、3D写实、3D卡通和建模技术。算法驱动包括驱动能力、合成能力和多模态能力。其中,驱动能力又分为文本驱动能力、语音驱动能力和视频驱动能力;合成能力包含语音合成能力和视频合成能力;多模态能力包含语音识别能力和自然语言处理能力。

  总体要求中,数字虚拟人形象,应满足如下要求:

  a) 符合场景的任务设定,在人物形象、表情、服饰等方面得体、美观;

  b) 支持全身、大半身、半身不同景别姿态;

  c) 形象完好,不存在扭曲、马赛克、跳帧、破损、音视频延时、口唇不一致等情况;

  d) 支持装扮、服饰的更换;

  e) 不存在侵犯第三方权利及法律法规禁止的其他情形。

  2D真人数字虚拟人形象方面,支持真人形象复刻,形象逼真自然,语音自然流畅;支持通过照片、视频等方式生成形象,保证面部五官、肤色、牙齿、明暗等准确还原。2D卡通数字虚拟人形象,应支持2D卡通形象绘制,对特有的卡通形象进行建模;支持不同景别、姿态,形象灵动活泼,动作自然舒展。

  3D写实数字虚拟人形象,应支持通过3D建模或真人扫描等方式刻画形象,头部模型覆盖面部、口腔、上下牙、舌头、独立左右眼球、眼睑、泪腺等;头部、面部、身体纹理有效区域面积高;毛发系统,如头发、睫毛、面部绒毛等纹理清晰。支持对形象的美型、加工和风格化等;支持不同角度、景别、姿态的灵活转换;支持丰富的动作类型;支持光照效果的处理,如光影、折射、反射等效果;支持人形骨骼、蒙皮建模;支持按1:1的比例,对真人进行复刻。3D卡通数字虚拟人形象,应支持3D卡通形象绘制等方式,对特有的卡通形象进行建模;支持不同景别、角度、姿态,形象灵动活泼,动作自然舒展;支持丰富的动作类型。

  数字虚拟人算法驱动能力方面,应支持单一技术驱动和混合技术驱动的方式;数字虚拟人展示应支持端侧渲染,宜兼容多操作系统。

  数字虚拟人视频驱动能力,应支持计算机视觉算法,基于记录面部表情和肢体动作的视频,驱动生成数字虚拟人的语音、动作、表情、口型;支持的视频包括通过摄像头记录人体面部表情、肢体动作的视频;支持实时或离线的驱动方式。

  数字虚拟人语音合成能力,应支持端到端语音合成模型,支持HiFi-GAN、VAE、Diffusion(扩散模型)、Glow(流生成模型)、DurIAN等多种语音合成模型;音合成效果自然,音质音效贴近真人;实现字词级别的音量、时长的细粒度控制,实现音量、语速的调节;实现多情感高表现力的可控语音合成效果,根据文本内容自动切换合成不同情感的语音;支持针对应用场景(包括播报、解说、诗歌、阅读、客服等),生成多种语音合成风格。

  数字虚拟人视频合成能力,应支持多种渲染引擎技术对数字虚拟人形象进行渲染,包括UE、Unity等;支持图像增强技术,改善视频质量和用户体验;支持视频离线合成或实时渲染合成;支持通过人脸的图像或视频内容进行视频合成;支持不同分辨率、码率的视频合成;在1080P分辨率条件下,视频合成实时率不高于1;合成后的视频流畅,支持帧率不小于25FPS。

  数字虚拟人多模态能力,应发音准确,不存在漏音吞音、多余发音、音素错误、音调错误等情况;语速、停顿断句、音高、音长、音量、重音等符合自然语言发音规律;语音语调舒适;常见多音字发音正确。口型、唇形自然,与发音同步,符合发音的规律,具备饱满度和表现力。动作精准、自然,与交互语境契合,动作包括但不限于头部、肢体、全身等部位。支持实时渲染技术,支持基于物理光照和实际环境光源、相机位置、材质参数等实时计算,完成图像渲染。在交互客服场景下,支持多轮对话能力,根据上下文内容或用户的问询,进行判断选择,完成用户交互;支持通过对话树等方式,完成不同业务场景下的多轮对话流程跳转及应答。

  数字虚拟人平台,应支持针对内容播报、交互客服、虚拟演播、内容创作等应用场景;支持创作不同类型的数字虚拟人;支持数字虚拟人形象的资产管理、业务服务配置及内容生产服务;支持数字虚拟人形象租赁;支持数字虚拟人形象选型、音色配置、背景空间管理、发音及动作配置、会话管理、流程管理等功能;支持多种AI模型和算法;平台生成的数字虚拟人具备多模态交互能力;具备丰富的语音及动作库;支持离线、实时的数字虚拟人生成方式;真人驱动型平台技术支持真人驱动的模式,真人驱动可以和算法驱动混合使用,相互接管。

  数字虚拟人平台部署,应支持公有云部署、私有云部署或本地化部署方式;应支持多类型前端接入能力,包括但不限于PC、移动终端、大屏设备等终端接入设备,以及网页、APP、小程序、H5等应用形式,满足系统的前端兼容性;宜支持运用微服务、集群的部署方式;宜采用负载均衡、分布式数据库等技术。

  附件:GY/T 411-2024《数字虚拟人技术要求》.pdf

【责任编辑: 苗梦佳 】

推荐阅读

热门标签

作者专栏更多

关注我们

    中广互联
  1. 大视频行业颇具影响力的行业社群平台,重要新闻、热点观察、深度评论分析,推动电视行业与各行各业的连接。

  2. 电视瞭望塔
  3. 集合电视台、网络视听、潮科技等各种好玩信息。

  4. 5G Plus
  5. 专注于报道广电行业新鲜5G资讯,致力于成为广电行业有权威、有深度的5G自媒体平台。

  6. 4K8K
  7. UHD、4K、8K的最新资讯和最深入的分析,都在这里。

  8. 中广圈子
  9. 视频产业的专业圈子,人脉、活动、社区,就等你来。

  10. 格兰研究
  11. 我们只沉淀有深度的信息和数据。

  12. 卫星界
  13. 致力于卫星电视信息、卫星通信技术、天地一体网络应用案例、以及广电、通信等产业的市场动态、政策法规和技术资讯的传播。