5月28日,“第三届大数据与传媒产业峰会”在贵阳隆重召开。近几年来,随着大数据技术的不断应用,广电传媒行业发生了深刻的变化。党的十九大提出推动互联网、大数据、人工智能和实体经济深度融合,习近平总书记也提出“实施国家大数据战略加快建设数字中国”等讲话精神。在本次会议上,业内专家和领导探讨传媒行业发展之“道”,探寻大数据实际应用之“术”,共同为传媒数据产业快速发展建言献策。
英特尔行业技术顾问项铁牛作了题为《人工智能——大数据分析的下一站》的主题演讲。
以下为演讲内容:
各位领导,各位来宾,大家好,我今天给大家汇报的题目是人工智能,大数据分析下一站,实际上涉及的内容是一个新的应用框架平台我们做AI的开发。
第一是人工智能可以帮广电做什么,第二是大数据平台与人工智能有什么关系,第三是基于HADOOP这个平台我们的学习框架。
首先看一下人工智能可以做什么,总结来看,目前的人工智能是基于大数据的喂养预测和推理的能力,大家比较熟悉的像下围棋,我们进会场都是人脸识别,人工智能是机遇已有的数据进行逻辑的推理对未知的数据进行预测,比如已有的数据对房子的面积,房间的数量,地理位置还有相应的配套我们知道房价是怎么样的,通过人工智能的平台我们可以得出一个新盖的房子在未知的区域的相应的配套价格是怎么样。
广电这两年进行我们不同的发展情况,广电做了很多的事情,又可以采集信息的终端,比如机顶盒,有我们很多广电建立了大数据的分析平台或者采集平台,目前的广电已经具备了大量的数据,这些数据来看目前是结构化的数据,可以有用户的行为,用户的地理位置,用户的年龄和家庭情况,这个是在我们的数中包含的内容,通过这些内容,广电通过AI可以得出相应的逻辑,这些逻辑可以帮助广电做进一步消费行为的推测,同样我们可以根据相应的视频内容,比如视频内容的抓取,用户的喜好,不仅是根据用户肯的视频类别可以细化到视频的图象,来判断用户喜欢什么内容或者什么内容对用户有更好的吸引力,这个在我们的短视频已经很完善了,比如说抖音。
大家看到左边和右边有两个图,左边的图表示大数据数据量不断的增加的情况下,根据神经网络它的深度对于大数据量的利用情况是好还是坏,我们可以看到,大数据的量增长对于机器的学习是不变的,对于深度学习它可以在数据量增加的情况下不断保持对数据的利用,这也是为什么这两年我们看到了人工智能在AI这两年发展的特别快,举一个例子,我们在进门的时候为什么这么快可以识别人脸?是因为它有了大量可以学习的数据。右边是一个整个大数据加人工智能的宽假,有数据的清洗平台和审核平台,但是这两年大家过度人工智能,我们要考虑整个系统的性能,整个系统如何让我们的用户用起来,如果要让大数据服务人工智能需要考虑以下的点,首是兼容不同的数据源,比如我们广电已经采集了的各种数据,有可能是非结构化的,比如视频、图片不断的采集点,然后是性能有扩展性,我们要把所有的数据孤岛联起来,怎么样人工智能的平台和分布式平台结合起来。还有稳定性和容错性,最后资源的共享,这些都是要把大数据用与人工智能所面临到的问题。
大数据现在是什么情况呢?大数据目前大家可以看到,基本上是一个标准的架构,90%的大数据平台都是基于HADOOP,在HADOOP之上我们有大量的模块,有SQ、有数据传递模块,有图象处理的模块,可以让各个模块之间做到内存级的互访,它的互访是非常便利的,怎么样让这样的功能用到人工智能平台上,所以大家可以看到,绿色的部分是BIG DL。这个是简单的基于大数据学习的一个人工智能的网络,我们可以看到,大家从左到右端有大数据的管理端,有大数据的分析端,有进入人工智能之前的数据清洗这个过程,最后有到深度学习特征工程,最后从深度学习中反馈出相应的结果送到我们的映射端。这个是一个案例。在这个过程中整个大数据的平台和人工智能平台是完全结合在一块的。
我们讲讲这个BIGDL有什么框架,我们大数据平台有一个数据的框架,支撑了不同的应用,分别是数据库的应用,数据流向的应用,还有一个生产流水线,流水线之上已经有机器学习的一个库,还有一个专门做图形图象处理的,我们新的BIGDL就是开发在流水线上,对于这个HADOOP平台只是一个新增的应约,对于顶层的结构没有任何的更改,而且BIGDL已经利用了英特尔的数据内核库,相对于对于CPU的性能有数量量的提高,所以这个是专门针对CPU进行优化的。第二它的节点数,本身HADOOP是一个分布式的结构,它可以拓展数百个节点,他可以在数据采集节点做一个分布式AI的智能研究。
这个是一个简单的图纸,我们想要在这种现有的HADOOP的平台进行相应的AI的开展,只需要在现有的平台上增加BIGDL的应约,安装完就可以直接使用了。在BIGDL的特性上我们可以训练,可以做评估,可以做预测,通过调用相应的参数调节我们可以做到WEB的应用,通过支持超过200层,层数越多,学习深度越深。同时支持现有的框架,比如之前的AI的平台是直接迁移到BIGDL,做简单的调整工作可以直接的应有,不需要重新做开发。
目前在我们主流的云平台上也已经有相应支持BIGDL的云平台,比如AWS,像我们的阿里、百度,它也展示了BIGDL的能力,通过BIGDL做AI的实施。
最后我们看一下应用案例,第一个是银联交易的反欺诈的案例,银联对于刷卡信息如何分别出哪些有欺诈行为,在早期的工作中银联通过这些信息进行人为的隔离和分析,拆出相应的行为有欺诈性,早期的准确率在20%。后来银联邀请英特尔软件部门基于大数据的人工智能的开发,就是基于BIGDL,在BIGDL的程度上首先解决了一个问题,银行有大部分的分布式的数据库,这些数据库很难集中在一起,如果用传统基于GPU的方式放在一个点做计算,这个数据库的点到这个点上要花费很多的时间,基于分布式的数据库,把我们的BIGDL集成到每台服务器进行分布式的计算,银联得到了非常好的效果,从2016年开始不断的调优,目前银联对于刷卡的欺诈可以提高到60%到70%的准确性,目前每天的刷卡数要过亿,所以在这样的平台上,前期的数据清洗工作非常的重要,但是清洗工作在传统的GPU上面不可能做到,这也是银联选择BIGDL的原因。
另外是京东,京东的目标图象识别,主要是做两个事,一个在京东内部做防伪,或者是版权保护,有很多的原厂商有大量的图片,后面有盗版商盗用这个图片,他们用图象学习的方式进行检查,还有双11的跟价,现在是通过文字描述加上图形图象的识别,他们遇到的情况是什么,京东光是网内的图片过亿,这一亿多张图象在原来的方案里面从它的服务器到处AI的平台,这个过程就要一天的时间,怎么保证我在这个时间段,或者可以节省这个时间是非常大的问题,虽然我们在GPU的层面上做学习很快,但是在前期的数据导入我有很大的问题,另外就是GPU的平台对于图象的调整分辨率或者抠图是没有支持的,所以京东后来把这个方案从GPU的平台迁移到BIGDL,用现有的大数据的平台服务器来直接做AI的计算,有可能从AI的层面不一定比GPU快,但是节省了数据图象导入的时间,通过这样的实践,京东从原来的性能上大概一个小时几百张的图片提高到几千张的图片。
我的内容就是这样,最后给大家几个点,我今天介绍的是是一个新的框架,这个框架是BIGDL,是基于HADOOP平台的应用,HADOOP平台本身是开源的,BIGDL也是开源的,我们广电有研发中心,或者跟广电合作的伙伴有需要在这个平台上做AI开发,可以联系英特尔的软件团队,我们可以做相应的支持。
推荐阅读
经典栏目
精彩专题
关注我们
大视频行业颇具影响力的行业社群平台,重要新闻、热点观察、深度评论分析,推动电视行业与各行各业的连接。
集合电视台、网络视听、潮科技等各种好玩信息。
专注于报道广电行业新鲜5G资讯,致力于成为广电行业有权威、有深度的5G自媒体平台。
UHD、4K、8K的最新资讯和最深入的分析,都在这里。
视频产业的专业圈子,人脉、活动、社区,就等你来。
我们只沉淀有深度的信息和数据。
致力于卫星电视信息、卫星通信技术、天地一体网络应用案例、以及广电、通信等产业的市场动态、政策法规和技术资讯的传播。