中广格兰旗下网站:中广互联  格视网  卫星界  社区
登录注册

登录X

没有账号?  快速注册>

首页新闻正文

刘鹏:大数据、云计算及应用实践

导语:中国云计算专家咨询委员会秘书长、中国信息协会大数据分会副会长、解放军理工大学教授、博导刘鹏分享了他对大数据、云计算的看法,以及两年所做的工作。

  2015年3月24日,由中广格兰主办的“首届中国广电云计算大会”在北京广电国际酒店举办。大会邀请了国内知名专家学者、行业领袖参加会议,以更加国际化的视野,帮助与会者了解全球云计算技术的发展趋势;从广播电视应用出发,探讨云计算在行业领域的实践经验;深度剖析广播电视云计算应用的核心技术。

  在24日下午专题演讲上,中国云计算专家咨询委员会秘书长、中国信息协会大数据分会副会长、解放军理工大学教授、博导刘鹏做了题为《大数据、云计算及应用实践》的演讲,他分享了他对大数据、云计算的看法,以及两年所做的工作。


图为:中国云计算专家咨询委员会秘书长、中国信息协会大数据分会副会长、解放军理工大学教授、博导刘鹏

  以下为演讲实录:

  非常高兴在这里与大家分享我们对大数据、云计算的看法,以及我们所做的工作。严格意义上讲,今天这个会议是首届中国广电云计算大会,在广电领域的云计算会议已经开过很多会了,在座各位都有印象。基本从6到7年之前一念旧会开几次有关云计算广电会议,我们也很欣喜地看到,经过这么多年发展,广电云计算已经开始全面开会,到处都在落地,我们也感觉到非常欣慰,因为从第一届到后面每一届基本我都会来做个报告。今天我介绍一下我们最近两年所做的工作。

  大数据。

  大数据这两年非常热,为什么热呢?是有道理的。2006年全世界161EB的数据,这是新摩尔定律,人类自有史以来的数据,每18个月就增长1倍,这个增长速度是很惊人的,增长数据需要有新的数据保存和处理它,所以,每18个月所新增设备处理能力必须要满足这个增长的需求。中国百度正在建立100台云计算中心,在黑龙江、呼和浩特、内蒙古都在建立互联网数据中心,其他公司也都是几十万的数据规模,云计算和数据增长是成正比的,相辅相成的。之所以有这么多数据主要有三个原因:

  人人都在产生数据,每个人都在发微博、微信,这就是Web2.0时代,马上进入Web3.0时代,每个机器都在产生数据。全世界70亿人,就算每个人都在用4G手机上网,这个数量还是可以预测的,没有多少。大量智能硬件上来,这两年智能硬件非常猛,将来99%的数据都由智能硬件产生的,而不是现在由人产生的。另外还有很多行业,石化行业,汽车制造行业也在产生很大的数据,以前这些行业往往不需要太多的数据,随着现在设计水平越来越高,都是通过大数据、高性能计算方法在处理数据。

  马云曾经讲,大数据赋予我们洞察未来的能力,他非常强调阿里不是一个简单的电子商务公司,而是拥有云计算能力的公司。这是他们经常举的例子,在座有阿里的人,在阿里发现2013年3月份,有两个省的人经常在淘宝上购买板蓝根,增长的量非常明显,这就预示着发生了流感,这个数据比国家疾控数据得到的快多了。只有当一个人受不了了才会到医院,到医院再一级一级上卫生局,再上报国家,中间要经过很长时间。但在阿里平台可以瞬时知道发生的变动。

  云计算。

  本质上讲是什么东西?很多人在问。本质上讲,是在用成千上万台计算机,用网络把它连接起来,用软件把它虚拟成有机整体。用这套虚拟大云去取代以前单打独斗的云,这就是云计算。简而言之,云计算就是网络计算,这种计算模式很早就有了,1995年这张图UC伯克利就画出这个算,从90年代的网格计算到后来的对等计算,再到服务计算,2006年是云计算,实际是一样的,都是网络计算。在画网络图时总把网络画成一朵云,所以叫网络云,网络计算就等同于云计算。这是GoogleCEO在2006年取的,这是个浪漫的词。我们发现取个好名字很重要,往往因为好名字它才这么火。大数据也一样,如果叫海量数据我相信它是不火的,因为叫大数据,让你搞不清楚这时候就火了。

  这就是Google早期的机房,那时候Google的机房都是乱七八糟的,用软件把机器虚拟在一起,任何一台机器坏掉都没关系,所以经常农民工把坏的机器拿走,拿好的机器替代坏的机器就可以了。Google的计算机都建在戈壁滩、荒郊野外,这些地方比较冷,电比较便宜,直接把数据输送到制造中心,把信息输送到城里,输送信息的方法代替输送电力这个代价是非常好的。Google讲传输光子的成本远低于传输电子。光缆挖一个沟传输数据几乎是无限的。所以,现在大数据来自于光纤迅猛增长,全球光缆带宽每9个月增长1倍。所以,大家考虑事情时一定要从这个角度考虑。

  2000年我在清华时,清华一个教授讲过,同学们,坐在实验室里已经能把头发丝的光线可以传输1TB的数据,未来每9个月全球可以增长一倍,而且未来几十年会始终保持这个速度,所以,以后的网络带宽是无限的,以后单位数量上的传输成本是零。设计所有东西要从这个角度设计。大家要知道,为什么乐视网、土豆、优酷在线视频崛起,为什么?根本问题是带宽问题,带宽瓶颈在以前是不可想象的,很多人都是看着眼前的,做未来的东西,所以我们总是跟着走。我们应该看着未来的东西做未来的东西这样我们的设计就是有效的。所以,Google现在的数据中心已经很漂亮了,这是微软做的数据中心,都是用集装箱装服务器,一台箱子装200台服务器,如果需要,微软公司用台卡车把它抬到楼下就可以建好。

  云计算给用户带来革命性的体验。任何小的终端都变成超级计算机,因为你的计算不是在手机上进行的,手对你来说是输入输出设备,真正的计算是在云端进行的,这两年App额上百万个,而且大部分App都是以云计算的方式在运作。所以现在有滴滴打车,大量云端运行软件改变了我们社会生态,所以大家知道一家参观也是在云端来提供服务,一家电影院也是,现在基本全国电影院都被美团给垄断了,猫眼垄断了。你看每场电影都是从网上客户端下的单,这是非常恐怖的事情。这个宾馆相信多半时间都是通过网上方式销售掉的,如果你脱离掉网络,这个O2O就实现不了,宾馆有没有生存空间。所以,它可以给你提供更加智能服务,给用户提供个人如影随形的数据中心。比尔·盖茨2008年写过一本书《信息随手可得》,这就是这个时代,我们所处的时代就是信息可以随手可得的时代,我们可以提供比较好的信息服务,当然现在正在过渡到更加智能的阶段。

  计算智能在大幅提升,这是Google做的机器翻译,它能将68种语言两两做翻译,而且译出的语言非常优美,这是我写的中文,它翻译为英文,英文水平超过在座90%的人翻译水平,所以,我们不要小看机器。这是它译出来任何语言,包括阿拉伯语,只是我们看不懂而已,所以我们能做到画时代的事情,这是以前根本不可能想象的事情。在这里给大家介绍一下我们做的一些事情。

  四条大数据产品线。

  我们做几件事情,一是大数据存储Cloud Stor,二是云处理Cloud Proc,三是云视频Cloud Video,四是云传输Cloud  Ttrans,所以大数据关系到的所有东西我们都包含在里面,唯一不做的是虚拟化。

  云存储系统。

  每台机器都是服务器,只是每台机器配了很多硬盘,不同机器之间协同起来工作,保存任何一个数据存在一个节点里就会有一个复本存在另外一个节点里,即使机器坏掉,另一个节点机器会再复制一到新的节点,始终保持两份数据,非常可靠,不像以前用磁盘阵列,坏了一个盘必须要赶快修它,这时候服务质量非常差,要修几个小时,把数据恢复了才能够继续服务,这很糟糕。现在这种存储系统你永远不用管它,它永远可以自适应修复自己。而且性能非常好,每个节点同时对外。我们可以把不同地点的云存储最后虚拟成一套系统。

  负载自动均衡技术,需个节点并行访问,提供虚拟存储空间,提供高可用技术,任何节点坏掉也没关系。

  管理界面,任何机器坏嗲它都会亮灯,我们也不用管它,最老系统我们在内蒙布的。那个系统6年了,硬件已经坏嗲60%,到现在没有任何人去看过那套系统,没去管它,但它仍然是好的,仍然在服务。所以,我们感觉要做免维护的系统是很重要的。

  性能。和节点成正比,节点越多性能越好。我们广电对吞吐量要求很高情况下,对云存储我认为是最好的选择。这是一个用户去访问云存储,读数据能读到2000MB,写数据是3000MB,做非编的话用这套系统就可以非常轻巧,你做数据的渲染、处理就会觉得等的时间非常少。我们还做另外一件事情省电,因为全世界云存储消耗的电特别多,因为全球云计算消耗全球8%的电,而且增长很快。我们一直在做个事情,想办法把能源减少10部,所以我们做主板,这个主板我们做了6年,这是我们最新一代的主板,这是用Awten(音)芯片,最后支持板子只要用25W电就可以实现18块硬盘同时高速存取。如果不用这样的方法我们要用10倍的电才能支撑。这是我们做的支架,通过这个机器,其中40个节点,两个管理节点,一个支架容量可以做到3400TB。所有的风扇,每个节点内部是没有风扇的,能源消耗很少,风扇在背后做风扇墙,它是智能的,有热才会旋转。以前所有的全球传输系统是自己在转的,现在普通盘用6年—10年不容易坏,因为它没有24小时转,即使坏掉了也没有关系。我们这样的系统,3400TB容量用3000—4000万W,这样的机架在机房里代替原来一整排的机架,而且用电量低很多,而且成本很低。

  我们帮助南京市公安局,2012年周克华爆头案,我们进行了协助。镇江、兰州、宿迁很多都用这个来进行存储,包括中央电视台也开始用这个存储。你注意中央下面的字幕,这是云创做的存储。

  在广电行业一个领军企业天威视讯,这是深圳有线电视台,天威视讯就建立了一个OTT平台,新媒体平台,这个新媒体平台是要采用大量服务器,从网上获取各种各样的视频,广电自己内部的视频,这都是通过签协议的方法把所有视频,新媒体汇聚过来,用这个平台去给用户各种各样的终端,比如手机终端,Pad,电视终端提供按需点播服务。后台需要做云存储和云转码,我们做了云存储和云转码两套系统。存储、转码、分发我们实现。

  这个系统配置、2台互为主备,存储节点是19台服务器共同对外合作。性能非常惊人,总体带宽客户要求3990M,系统整体吞吐带宽7000MB/S,单个文件客户要求大于100M,但文件300M,写入并发600,单台服务器3000。不断在写,不但在删,要求所有文件按照你规定的时间把它写好,删好,这个要压力非常大,只有这种新的存储系统才能支撑这个系统。

  除了深圳做了这个事情之外还有内蒙广电现在也用这样的云存储系统做用户行为日志系统,流媒体直播/点播节目存储。这是这几年在广电领域的尝试。这是我们在内蒙部署的设备。

  除了特别大的云存储,还有特别小的。里面有三台服务器,每台服务器有9块硬盘,最大容量可以到100多T,这个存储可以起到什么作用呢?广电里经常要搬运节目,中央电视台把无锡影视基地节目运大中央电视台来,以前运的是散盘,运的时候一块硬盘坏了挺麻烦的。现在都用这样的设备运节目,通过快递把它递到中央电视台,中央电视台现场打开机器,一接上,像移动硬盘一样,容量非常大,里面部分节点坏掉也无所谓,书记可以高速访问,对运输节目非常有好处。现在全世界的天文学家运天文数据也用这样的方法。2002年我就做出这样的系统,现在天文学家都用它运天文数据,天文数据量很大。

  云处理系统。

  我们做了大的数据库,把数据分散大所有的机器上,这不是关系数据库,也不是开源云计算,比如Hadoop数据库,为什么不是Hadoop呢?因为Hadoop是列式数据库,列式数据库的优点是什么?Hadoop系统是由Google发明的,Google是个搜索引擎公司,干的大量工作都是在网页上抓取网页,用关键子索引网页,倒排序,索引做关键字,非常容易实现,现在环境里不是以这种方式工作的,都是以记录为单位的,如果把记录放在数据库里,要把记录且成字段,第一个字段放在第一个服务器,第二个字段放在第二个服务器,效率极低。但互联网公司有这个能力把Hadoop系统按他的应用做优化,把底层改了,这样可以满足他特定的应用需求。作为通用的数据库而言,我们很少看到能够把Hadoop系统直接用上就能满足他应用系统真正大的应用需求。

  中国移动搞了一个比赛,中国移动想知道到底哪一家数据库做得最好。国内很多知名厂商被邀请参加比赛。这几家都用了国外系统,国外大数据库和Hadoop,这是我们自己的数据库,我们叫“数据立方”,比赛过程中它的性能遥遥领先别的产品。现在江苏移动三年前部署了这个系统,2012年部署的,投入生产运行了三年。这个机器是最早的样子,12个机架,5个PB的数据库,这看起来是数据库。现在已经变成300多台机器,30几个机架,一个数据库,处理了整个江苏移动范围内所有的手机信号。我们以前想知道整个江苏移动网络到底什么地方信号好,什么地方信号不好,以前都拿着设备大路上测(路测),但要把一个省测完是不可能的。现在把几十万手机,全省移动用户,每个信号都可以来到这个平台进行处理,不是用户内容,只是信令,平台处理完之后我们就可以看到全省实时通信网络态势图,然后我们可以去优化整个网络。比如哪个地方拥塞,哪个地方掉话,哪个地方出现用户异常,进行实时优化。如果你们带着手机到江苏就可以发现,在高铁上面上网时的断时续上不了,但到江苏就很爽,因为它有平台在支撑。

  同时同样用这个平台处理交通数据,比如河北省把所有的交通数据放到数据库汇总,形成全省交通态势,以前只能处理一个县,一个区,一个市是不可能的,现在可以把全省的数据放到一个平台处理,这也是很重要的改变。现在在河北一个车在什么位置我们都可以知道。国家电网也用这个数据,山东1万亿记录,只有这样的平台才能满足要求,而且数据很快,我们做三个平台的交应操作只要700毫秒。这是英特尔和我们联合发布的一体机,英特尔来设计硬件,我们来做软件。这是我们的界面,这是我们的发布会,这是刚才讲的大数据平台,和在座各位关系不是很大,除非我们对数据节目进行搜索和分析时才用得到。

  云视频平台。要把一个城市所有监控汇到一个平台上去,现在做智慧城市都需要这样干,适时的监控是五花八门的,不同时期不同单位建的,制式各不相同,这时候就要做云端转码,要把不同制式系统转为相同制式。

  要接入,现有监控系统很难接入,各种各样的系统都有,我们需要破解现有各种系统,所以这两年我们破解了很多系统,我们把各种系统接入同一个平台上,使得这个城市所有平台可以为各个单位所共享。接入之后通过云端转码,我们就可以用手机去看视频。这样就可以很方便。

  现在登陆到我们公司,我把摄像头往下调一点,(演示)现在我很想知道的是坐在前面的云共他到底在干什么?我现在就要用摄像头对他的屏幕。我把它拽过来一点,再放大,他现在在上网,你能看清楚。当然,我现在拥有的带宽,直接用移动网络,没有用Wi-Fi,如果用Wi-Fi接入可以看清楚上面写的每一个字,我能知道他在干什么。当然我们目的不是为了好奇。这就是云视频,我们把一个城市所有的监控全部用这种方式进行接入,现在我们已经在南京把整个城市的监控都弄上来了。这样出现异常情况他可以自动报警,他可以看看现场有什么情况。

  我们要用这个平台发现异常情况,当我们用恐怖分子在袭击,在砍杀,我们希望能及时预警。比如这个小区门口如果有人打架,派出所要马上知道。这样让我们所有的眼睛都变成智能的,我们要用这个技术对犯罪嫌疑人进行跟踪,犯罪嫌疑人出现的话我们可以自动预警,这个人走过去,即使我看不清他的脸,也自动生成数据,叫视频DNA,这个人在城市里出现就会马上预警。刚才走过去这个人的数据就变成这样了。这是数据立方体,经过大量处理可以知道每个人的特点,识别不同的人。北京电视台赵志诚曾经给我提了一个需求,你能不能做这样一个技术,我在家里面看电视,看着看着我要出门的,我希望拿着手机对着屏幕拍一张,能不能接着刚才的画面在手机上继续往下播。我当时跟赵总说能,没问题,赵总说你别吹牛了,这种东西我们找了半年也没有人可以做到。我们花了两星期就把它实现了。

  在南京召开的青奥会就使用了我们的平台。刚才介绍了云转码,通过PRV平台,通过这个机器转码效率大大提高,做个节目1分钟之内可以转码转完,这是不可想象的。云传输和广电结合也比较紧,云传输当我们的节目比较大的时候,传播到别的城市去,有没有办法把它高速传过去,除非布网,但我们现在没有网,怎么办呢?我们能不能去改造现在的互联网,其实你没法改造,互联网本来就这个样子。互联网的协议是非常愚蠢的协议,误码里比较高,传输率比较低,那是20年前的保证,只要能传到就很高兴了,至于效率不是当时的木。我们40年都用同样的协议,都是同样的标准,大家统一到上面才能传,能不能不用互联网就可以把传输效率提高几十倍呢?这是在UDP协议上封装出高效的传输协议,比原来快得多,当距离越远效率越好。这是密云到北京市里,原来100M,现在70几M,什么都没变,两边机器一换就好了,所以,很多地面传输速度的事情都是我来做。

  在座各位有个天华传媒,是天威视讯一个专门做节目的子公司,天华传媒也是我们的兄弟公司,和我们有很多合作,天华传媒委托我们做了很多云分发传统,天华做的很多节目,在座可能看的有些像《Discovery》很多是天华传媒经过加工处理,审查,加了中文字幕,现在节目要卖到全国很多电视台,现在是通过平台分发过去,这是华云平台,目前这个平台布在16个省里,怎么分发的呢?用到云传输,每个地方部署我们的云存储。

  我们传输一个电影,把电影切成很多块,通过深圳的数据传,有一部分传给北京,有的传给南京,20个节点一分钟就传完了。现在北京收到的数据,白色属于深圳,绿色的属于南京,这样一个电影能够高速地传输到全国不同的电视台。这也是一个非常有意思的项目,这个项目已经运作三年了,有意大家可以去了解天华这个项目。

  目前我们的用户分布在全国这些地区,都是偏沿海地区,最近我们慢慢到了西藏、新疆、内蒙。也是江苏省中小科技企业排名第一。

  今天我就谈这些,谢谢!这是我的联系方式。

【责任编辑: 温靖 】

推荐阅读

热门标签

作者专栏更多

关注我们

    中广互联
  1. 大视频行业颇具影响力的行业社群平台,重要新闻、热点观察、深度评论分析,推动电视行业与各行各业的连接。

  2. 电视瞭望塔
  3. 集合电视台、网络视听、潮科技等各种好玩信息。

  4. 5G Plus
  5. 专注于报道广电行业新鲜5G资讯,致力于成为广电行业有权威、有深度的5G自媒体平台。

  6. 4K8K
  7. UHD、4K、8K的最新资讯和最深入的分析,都在这里。

  8. 中广圈子
  9. 视频产业的专业圈子,人脉、活动、社区,就等你来。

  10. 格兰研究
  11. 我们只沉淀有深度的信息和数据。

  12. 卫星界
  13. 致力于卫星电视信息、卫星通信技术、天地一体网络应用案例、以及广电、通信等产业的市场动态、政策法规和技术资讯的传播。