6月12日-13日,第三届“融合创新研讨会暨首届智能网关与数字家庭发展论坛”在广州市亚洲国际大酒店举行。本届会议,除与全国各地的广电同仁共同研讨的融合创新发展之路之外,还对智能网关技术与数字家庭领域进行了深入探讨。
在12日下午的“DVB+OTT系统、技术、终端的分论坛”上,上海星红桉数据科技有限公司 CEO 李馥岑做了题为《大数据推进DVB+OTT业务发展》的演讲。李馥岑表示,通过对跨年晚会的数据研究得出,双屏双待是15到34岁广告手中的生活主流,电视电脑互不可替,双屏双待对收看电视的冲击并不是很大,而电视对互联网的冲击是比较大的。
图为:上海星红桉数据科技有限公司CEO 李馥岑
以下为演讲实录:
谢谢兰兰,谢谢大家坚持到最后,好消息是我是最后一个讲的了。
我们可能定的框架比较大,所以我今天还是以务虚为主,务实为辅的角度讲。因为昨天晚上很多人说你们做大数据的,我给你打第一类标签,第二类标签不知道怎么打了,具体做什么的呢?这个我们也是且走且行,跟专家一起讨论。
第一个大数据是什么,就是首先我们看一个报告,最近来看德国平面媒体正经历着最大规模的倒闭浪潮,有三家影响力的企业在月内连续宣布破产,纸媒变成了最大的,从媒体上面的最大的浪潮。
第二个从数据显示上看,这个报告我们很多人都收到过,这个就是女皇统计的报告,对比三幅图,在线广告不断侵蚀着平面媒体的广告份额,一句老话我们知道广告费有一半浪费了,但问题在于我不知道哪一半被浪费了,还有人说是90%被浪费了,还不知道90%放在哪里了。
当然还有一点我们可喜的是,即便在美国,在线广告和新媒体发展到今天的程度,我们可以看到电视广告依然有40%以上的整个的广告投放份额,从这种发展的数据上来看,我们是觉得广告经历了这种展示广告、搜索广告、内容广告到行为广告的过渡。在线广告越来越需要庞大的数据资产和时时处理的能力。
我们用大数据颠覆媒体行业,就拿谷歌做一个例子,我们知道谷歌提供免费的搜索服务,搜集网民的行为数据,根据意图推送广告的商业模式,我们最后可以看到它是日进斗金,平均每天的搜索广告是1个亿美金,然后内容广告是1600万美元,从它的大数据是借用我们公司的董秘的PPT来讲的,从大数据来看我们认为谷歌做了很多事,它的终端上出了浏览器、手机、平板电脑、眼镜、无人驾驶汽车,平台上做了谷歌地图,还有很多的应用,这些应用都是便宜的、开放和免费的,然后同时它又做了很多的角色,变成了电信的、IT的、终端制造的和媒体的,最后我们发现它是基于数据资产为中心核心点是在媒体上挣钱的,也就是说我剩下的可以低价开放和免费,但是最终是在媒体的广告费上挣钱的,找到了一条这样的路,大数据很可能就是变成昨天我们经常说的,我们现在找到OTT的思路,无非就是要找一个挂羊头卖狗肉的模式,我们这个羊头和狗肉从哪得,然后从哪分析出来的,可能数据是给我们提供这样的一条思路。
再看我们可能是现在的电商的商业模式,大家说苏宁也好,京东也好,大家提到的很多,我们看它的进攻性的掠夺,做大流量、大平台、大数据,相对来讲更低的价格终端,网站的平台肯定是开放性的,然后更多的应用基本上是衣食住行很多的东西,基本上无论是阿里巴巴的研究等等来看,他们还是要做自主品牌,还是要做IT基础设施,还是要做增值服务,也同时做了很多媒体属性的功能,但是广告并不是最挣钱的部分,它是通过数据资产打通了金融平台,作为它最挣钱的部分,所以我们也是另外的情况来看,从做大平台、做大流量和做大数据,然后找到自己的业务和挣钱的盈利模式。
我们从广电这块来看的话,我们怎么样运用大数据,我们用大数据的思维和技术解决现在的问题,大数据并不是数据量大,而是思维的变革,现在我们信息获取的方式在转变,有很多屏,刚才我也学习了很多家的技术,是说我们现在从单一屏劳动OTT化,到各类的飞视还是多屏的生活,我们肯定是生活是碎片化的,所以我们采集的渠道和技术也是多样的,那我们整个的早上很欣喜的听到了杨总的整个数据,应该是电视屏幕应该是1300万台,应该是1100万的数字,数据还是一个硬的流通货币等等这样的流通情况,大数据的实现变为可能,是因为大家都知道经常被宣传的,比如我们存储成本的下降,互联网访问的激增,还有宽带成本的240倍的下降,还有计算成本的20亿的下降,使得大家现在可以把时时计算和大数据东西提取出来,广电数据的特点还增加了一些特性,比如说它的复杂性,我们今天的数据来自于多个跨系统连接,系统的数据的匹配,清晰的转换,需要连接和关联关系等等,这个多层次的关联可能让实体数据失去控制等等的多样性和复杂性。
我们觉得这个是智慧的大脑,发达的四肢,我们觉得也是一个智慧的数据,这样来讲从我们现有的跟视频有关的业务来看,我们可以涵盖多屏的数据挖掘分析,智能导视推荐,频道落地指数重构,影视剧的风测评估,植入广告指数,以及在线的业务推送等等,大家说了很多,我也简短的说一下我们大概做什么,刚才说了大数据给我们提供了一个挂羊头卖狗肉的通路,我们在一堆沙子里面怎么捡金子,我们在沙漠里哪里地方有石油,哪个地方有井,你用数据的方式比较好探求的,这也是为什么收视数据变成了寻找广告对价的依据,因为可以把垃圾时段也卖的出去,你可以在众多的平台里面找到最优受众组合,说白了我们还是要物美价廉的对价交易原则,我们重新用大数据的方式来重新构建产业生态的时候发现了一个很重要的问题,我们现在的各个的网络运营商,虽然有了双向互动的通道,但是基本上大家也都有了数据资产的概念,但是还没有这种采集的系统,很多地方还是面临的采集数据不够完整的问题,虽然有很多地方做了,比如歌华几年前就有这样的数据,但是我们发现后数据的回传机制,还有上报机制,那可能它要逐步演进才要做到不丢失数据的情况,这样来讲我们自己涵盖了新采集系统,新分析引擎系统,然后还有新投放平台和新应用场景这几个。
采集分析平台我就不多说了,这个大家在很多地方也都看见过,包括像歌华的还有我们新疆的天山云的平台,以及很多的这种云品牌的数据采集系统也都是按照这种规划的。
采集系统的构架就分为终端和中心采集和外围系统这样的并合。
系统框图我也不多讲了,包含覆盖均衡、集群管理、时时计算文化等等。
大数据的基础处理的平台是采取分布式计算的。
我们要讲一下的是除了分布式平台的部署之外,我们还擅长大数据的算法引擎,分为基本统计模块,高级数据分析模块,和创新算法模块,这块需要统计方法继续学习数据挖掘的,我这个可能是讲数据的流程,因为我们需要有一定的数据源的积累,就是每个地方都采集完,有一个时效性之后,还有一些你其他数据源的并合之后,才能产生这些关联分析,然后我们并且做算法及并行的处理,提高分析引擎的计算速度。
这个数据的处理过程和预处理过程简单的展示一下,然后我们拿新疆的8万用户做一天的模拟,基本上是时长指标、频次指标、到达指标和用户数指标,实际上的计算耗时都能达到一个比较理想的成绩,我们一年前用传统的数据库,算一天的数据要两个小时,现在都是秒级的来计算,计算耗时在预处理完之后我们基本上都是0.5左右的计算耗时。
这块来讲是一些简单的报表展示,我就不说了,包括投放广告分析,然后回看业务分析,网络公司的数据分析,我们包括运营商的基本分析,互动点播分析,广告价值评估等等,包括可视化平台的处理,这个可以按照每个地方的要求定制化这种可视化的报表,我们数据出来之后,很多网络运营商。
再说一下,我们认为先有数据平台,然后做数据平台的一期,比如说可能呈现出来的是BVI报表系统,但是你的数据拿出来之后要为了自己的运营和使用,那我们把它分在二期,就是包含自己的运营使用和数据的货币化,对接来讲最明显的一条可以作为我们媒体和广告之间的对价依据,这块来讲我们根据了省级电视台的多屏的评估指标体系,因为我们现在大家都能采集到手机屏、电脑屏和电视屏的这种数据,我们用媒体渗透率概念,然后结合我们多屏的综合得分,对于电视媒体来讲是需要做整个的节目指标体系,来做对内考核的,这是对内考核的基本的模型建设,就是举例。
对于电视台的业务,我们基于电视指标的融合,可以做一些三屏使用的特性的创新,增加了一些同时收视指标,我们知道收视体系基本上来讲是收视率、到达率和人均收视总分钟数作为基础数来做,这样来讲我们可以重合来做人均平均重复收视的,待会我会用报告表明35岁以下的人群,基本上是双屏双待的生活,是比较多的这么一个规律性。
这个是基于一个例子,来说明我们的数据出来之后怎么做本地化的数据货币的方向,我们一般来讲是做数据货币的时候,都会跟我们的运营商作为原材料的分成,就是说因为数据的采集权基本还是在我们的运营商手里,数据采集完之后就变现的渠道,如果我们实现的话,我们会有一个分成的模式会给大家。
数据的挖掘和应用我也简单的介绍一下。第一个是数据的可预测性,这是因为我们人类的行为遵循共同的幂律分布的原则,每个人都有一个最大的可预测性,这是我们的原则性,你的重复性决定了你的行为,虽然人和人之间有很多的不同,但是我们可预测的程度都差不多,无情的数据统计规律使得异类根本不存在,这样来讲我们关注历史数据,严谨的数据形式和报表,然后探索发现整个人的规律。
这样来讲的话,在我们的基础数据里面有一个跟原来的抽样数据最大的不同,就是抽样是一个完整的数据,然后用推进和演绎的办法来做,那我们现在是用海量的数据,同时用一个规范和归类的方法做,用户画像是我们这么一个基础首先要解决的问题,就是我们对观众的轮廓,在这个时间段的屏上的收视表现,对他有一个大概的轮廓判断。
这块来讲我们可能是通过在线的存量的数据,包括聊天的数据、电视数据、论坛发帖、搜索记录和网址访问,描述出这个人的兴趣情感和社会属性关系,然后内容理解,发现话题和发现传播,包括这个人云信息的关系,包括倾向性、可新性、声誉度和影响力等等,做出这个人的云图,这个简单的应用就是我们的广告定向,和电视广告的定向推送等等。
这块来讲因为大家讨论的比较多。第二个就是个性化门户的大数据的内容推荐,我觉得时时计算可以变成每个人会推荐不一样的情况来做,比如说现在时时计算要求时时性是数据直接采集进来先不进存储,首先做过滤和推荐,和你的目前热度排行榜或者关联推荐榜,直接系统做系统对接口,这样来讲就和我们的内容引擎,就是我们会在云端会有一个内容库的匹配,节目库的匹配和广告库的匹配,匹配完了之后会给它直接推送出,比如说推荐内容类型的,用户特征的类型之后,我们作为相应的匹配推荐。
数据出来之后我们跟很多客户谈的时候,基本上发现流失率分析和用户挽救,也是大家共同需要的一个应用,数据沉淀了一段时间之后,什么样的用户流失,它之前有没有任何征兆,我们会把我们现在的点播、回看以及你的直播类型,分成不同的产品包,然后还有不同的权重来表示出来,然后我们会整理出来什么样的用户,从历史的记录来看为什么这些用户要流失,流失之前的具体征兆是什么,这样来讲我们会给运营商提供一个比如下个月,从我们的这种算法来看,某些用户有50%以上的可能性有流失的可能,我们会提前给他打电话,提前告诉用户的关怀,因为他的历史收视情况会告诉你他在某些方面的侧重是什么,你可以送给他的一些付费产品包,或者用一些其他的方式的黏性来挽救用户,来降低这种流失率。
包括这种频道落地指数的结算体系,在我们的收入组成里面,除了用户的收视费,我今天听到杨总说全年的全国的有线应该是在470亿左右,有线电视收入费是50万,可能还有频道落地费也是大家收入的主流,但是很多地方除了对等落地之外,频道落地费基本上来讲比较一刀切来谈的,但是明显我们发现频道的落地价值和整个的到达份额,收视率和当地的人口规模和GDP都是有关系的,相对来讲我们肯定还要采取更灵活和更有效的方式来对待不同频道的不同的落地费的原则,这样来讲对有实力的台可能愿意占据很好的位置,它也能拿出更多的钱来做这个事情,对于我们现在的频道资源比较紧张的情况下,相对来讲我们可以把最优质的资源排给最好的经济价值。
我们跟很多领导谈所有的传媒大数据的时候,大家都认为我们最好能讲应用,因为单纯的讲系统,对大家太陌生,所以我们把应用变成四个象限纬度,我们中心结点的还是在于新分析引擎和比如说人员画像系统构建。
第一个我们认为这个数据可以本身提升我们企业能力,就是自身的运营商的能力,比如说我们的广电网络的优化,比如说很多地方的集中报警就证明这个地方有线路问题,也许有雷击,然后也许它有其他方面的问题,你可以提前干预,然后包括个性化门户,成本敏感度分析,特定用户的收视异常预警,还有有线电视总体收视情况监控,这都是属于企业能力提升的渠道,我们还可以构建很多B2B的应用,比如说频道落地费定价策略,付费频道的打包策略,节目内容的智能推荐,新媒体广告的效果评估,还有就是从B2B到B2C的应用,电视游戏及配件的引入和推送,什么样的人对这种东西更敏感,比如说游戏的轻度、中度和重度用户,然后可以分析出来他的年龄层面使用的,推送这样的游戏配件的销售,是不是更好的提升你的二次价值,还有区域性的的票房预测,是根据里面的VOB的电影的点播,以及总收视时长的关系来推送出这样的关系。再比如说我们2C的应用是基于网络合作的圈子服务,用户收视习惯的图谱,定向销售的对象的挖掘等等,这些都可以根据你的不同的需求,然后设计算法来实现。
我们在讲讲因为今天是DVB+OTT的会,听到了很多大家很多的东西,从我们的实验研究报告也给大家打打气,所以题目定的有点夸张了,我们从收视率的分析和收视行为分析来看,收视率DVB PK互联网来说,我们认为至少电视机是完整的,怎么看,从双十一的数据来看,因为在广州,我们截取广州本地的数据来看,广州是一个电视媒体比较复杂的地方,因为我们这边有南方台、珠江台、广东台、本地台,还有香港的TVB四套,所以相对来讲广州的电视媒体是定价比较便宜的,就是相对于互联网广告和我们的人均的CPRP,广州的电视生态基本上来讲是比较便宜的情况,而且广州的人民极其爱看电视,发现他们的电视粘合度还是比较高的,选择这个地方也选择了双十一的情况来。
先看第一个案例,我们看看这个情况就发现,从图中的数据可以看出,使用电脑的人仍然在看电视,就是仅看电视的是蓝色的图标,电视和电脑同时看的是另外一个图标,我们看在高峰时间段我们的收视行为有一定的打压,比我们一个星期前的数据,双十一那天大家是不是都购物还是看电视,我们认为收视曲线高峰时段有一定的打压,受到一定的影响,但是我们发现虽然双十一的时候相比年轻群体走弱,老年群体还是收视比较稳定的,而且在年龄分布上来看,25到34岁的人群还是保持了跟一周以前的比较相似的粘合度,并没有表现出非常太大的区别,有一点点下降,但是下降的并不多,而且我们把所有的频道跟我们本地的这些频道放在一个URL做评估的时候,发现基本上从收视表现上来看,我们的新浪微博能排在第15名,然后天猫商城排到19名,前十名还是固有的这些频道,比如说珠江台,广州新闻综合、广州影视、翡翠台这样的排名情况。
说明了双十一成就了电商的购物热潮,互联网确实赢得了比较高的触达率和比较高的人气,天猫和淘宝成为最大的赢家,其他的电商的搭载效果不大,当时因为我们拆解了很多的数据,但是双十一利用年轻的群体的收视有所下降,但是他们在7点半到9点半电视的传统黄金时间,以双屏双待的姿态出现,也就是说既看电视也同时上网的状态,新闻和影视剧的贡献还是比较突出的,凸现了电视在当前的环境媒体下还是有比较稳固的地位。
同时我们看元旦联欢晚会的数字,我们发现元旦联欢晚会在电视媒体轰炸的时候,互联网的受众规模,特别是视频网站的受众规模是明显降低的,这个是一个星期之前和一个星期之后的数据对比,我们认为上网用户同时在看电视的时长占比不足10%,我们是同时追踪电脑和电视的整个的收视情况,电视分流互联网的受众,爱上网的年轻群体跨年夜也还在看电视,从9点半约旦跨年晚会正式开始,视频网站的收视率比平时有大幅度的下降,三个小时之后才逐步达到原来的收视的稳定状况,这样来讲实际上我们电视发力的时候其实对视频网站的冲击是比较直接的。
我们认为从这个来看,双屏双待是15到34岁广告受众的优质群体,电视电脑互不可替,双屏双待产生了新的机会,从这个数据表明,双十一在上网行为来讲,对收看电视的冲击并不是很大,跨年收视表示出电视对互联网的冲击是比较大的。
这个我们在想给大家打另外一个气,就是我们以IPTV为主的上海电信的150万的海量用户分析来看,我们发现IPTV收视行为,并不是传统的直播频道,确实在直播的份额上会减少,我们来看直播的这种总的收视比重,基本上来讲总收视时常的占比是在30%左右,然后TVOD是十一回看,VOD就是正点播,我们十一回看加直播基本上都是达到70%左右的比重,在周末的时间段,VOD的指标更高一点的,就说明大量用户还是依赖于新鲜内容的,不论是十一回看也认为是直播的另外一个表现形式,如果我们好好经营我们的DVB这块,这样来讲的话,我觉得在DVB上可以做的文章和内容,从数据的表现上还是依然很强劲,依然很多。
怎么样让直播更好看,我觉得现在很多厂商也是借助于数据的后台分析能力,也给出了很多的一些办法,比如说今天我们曾总说的直播和OTT和VOD直接的内容关联,这方面的很多东西,基本上也都可以来让我们,也就是直播变成了入口,然后让大家能提高你的观影的粘合度,这样来讲比如说怎么样重构你的电子节目单,然后电视墙的排布,常看内容的更新,智能搜索频道,这块来讲都可以根据我们时时计算的能力平台做不一样的推送,通过我们的数据观察我们发现,每个家庭的这一块屏在当时的时间点,不会超过十个频道的切换,也就是说可能每天5点半看的频道就是在十个里面打转,那7点半看的频道就是在那几个,十点半可能就是那几个,因为第一我们家庭的人均人数在减少,所有的大城市基本都是在2.7左右的平均家庭人口,第二我们家庭屏幕数在增多,现在像上海这样的地区平均每家庭的屏幕都是2.6台以上,所以这样来讲,我们在同一时段几个人聚在一张屏上看的可能性减少,所以而且人的生活规律是不容易被改变的,所以在一个家庭你模拟一下他的生态,你会发现可能5点半看电视的这波人,和七八点十点看的都是不一样的人群,但是你在这个时间点的特定看的频道数是比较固定的,这样来讲的话,给我们从数据分析上看,从我们直播的粘合度提出了一个小小的要求,打个比方我们能不能给观众就引导他历史上的观影记录的这十个常用的频道,在这个时间点上你就直接给他排列这十个,对他来讲我不用在100个频道里面费劲的找,我也不用背我的频道号,我是不是能把我自己要看的都能找到,这个直播和你的TVOD十一回看的粘合度增加了之后,是极大的降低我们流失率的一个很重要的手段。因为我们OTT来讲主要是在信息内容上面和直播内容上来讲还有一定的短版,所以相对来讲我们认为在DVB上利用数据可以挖掘的点还是比较多的。
昨天参加完我们工作组的会,我觉得曾会长也提出了一些建议和意见,我们也觉得作为这样的基于数据和有一定积累的公司来讲,我们也想积极的投身于这块的工作,包括就是这种用户画像的标准的建立,应该是怎么样的标清系统,第二个就是节目的标准库,就是节目的标准体系怎么样做成既不完全的按照互联网做,又比较适合大屏的分类原则,以及广告分类库的建设。
欢迎大家跟我们积极联系和合作,谢谢大家。
推荐阅读
经典栏目
精彩专题
关注我们
大视频行业颇具影响力的行业社群平台,重要新闻、热点观察、深度评论分析,推动电视行业与各行各业的连接。
集合电视台、网络视听、潮科技等各种好玩信息。
专注于报道广电行业新鲜5G资讯,致力于成为广电行业有权威、有深度的5G自媒体平台。
UHD、4K、8K的最新资讯和最深入的分析,都在这里。
视频产业的专业圈子,人脉、活动、社区,就等你来。
我们只沉淀有深度的信息和数据。
致力于卫星电视信息、卫星通信技术、天地一体网络应用案例、以及广电、通信等产业的市场动态、政策法规和技术资讯的传播。