干货分享 | 广电行业大数据分析平台的最新演进

韦哇

(发表于: 中科曙光股吧更新时间: )

我要评论赞(3385)

干货分享 | 广电行业大数据分析平台的最新演进

干货分享 | 广电行业大数据分析平台的最新演进2016-03-26 Sugon 中科曙光小编有话说：上班第一天，干货来袭~曙光大数据领域专家受邀在CCBN做主题演讲，分享广电行业大数据分析平台的最新演进，快来围观！中国国际广播电视信息网络展览会，英文全称为China Content Broadcasting Network（简称CCBN），是由国家广播电影电视总局主办，广播科学研究院联合中国有线电视网络有限公司、全国各省、自治区、直辖市广播电视厅局共同承办的一年一度的专业性、世界级广播电视技术行业盛会。一、大数据基本特征和平台架构的变化自从2001年 Group（后被Gartner收购）的Doug Laney提出数据管理的三个V（VOLUME、VELOCITY、VARIETY）以后，国内外有关大数据的讨论日趋激烈。尤其自2013年开始，国内有关大数据的特征越加越多，如5个V或者5个C。根据曙光的项目分布统计，从2008年到2014年，大数据项目的量化指标始终表现为3Vs，其中2012年到2013年业内偏向关注数量和速度，2014年后更关注数据类型和不同来源数据处理速度的协同，落地项目以多源异构数据的价值链挖掘为主。到了2014年，事情发生了新的变化。针对AmpLab(2011)、Microsoft(2012)、AccentureTechnology Labs(2014)、Amazon AWS(2014)等世界领先公司的大数据应用新趋势，曙光公司与时俱进，开展了针对虚拟化大数据分析集群的研究，并在实验室内取得了相对原生Hadoop集群在WORDCOUNT、DFSIOE-READ、DFSIOE-WRITE、HIVEAGGR、HIVEJOIN、PAGERANK、SORT、TERASORT等多个性能指标的全面超越，M/R任务执行时间最小缩短为同等规模集群的五分之一，整体建设成本不到原来的一半。2015年6月，曙光于国内率先将虚拟化和共享存储架构（采用曙光的ParaStor 200并行存储产品）作为大数据分析平台的标准配置推向市场，并迅速得到多个用户的认可，正式开启了大数据时代的第四个V，Virtualization。当然，这里的虚拟化通常指的是Container，也可以是VM。二、Spark内存计算和深度学习的崛起2013年开始，Spark逐渐纳入公众视野，以其40+倍速于Hadoop的处理能力日益成为大数据类项目的焦点。从2014年开始逐渐有项目落地实施。到了2015年，SMACK[5]架构的出现，加快了Hadoop退出市场的步伐。以SMACK融合ShareStorage（如曙光的ParaStor、EMC的Isilon）将会在2018年成为大数据类项目的标准配置。2012年，CNN的成功引入拉开了深度学习的军备竞赛。新加坡国立、多伦多等知名学府以及Google、Facebook、Microsoft、Baidu等全球知名公司均位列其中，公开的论文和Caffe、DIGITS等计算框架的普及大大缩短了研发到产业化的进程。2016年02月，Yahoo!在前期Caffe on Hadoop的基础上开放CaffeonSpark框架，加速深度学习与大数据平台的融合。在2013年成功建设某客户基于机器学习的海量文本智能话题聚类及检索系统的基础上，曙光将深度学习技术引入图像专题库制作，当前达到了83%的图像识别准确率，实现了1亿张图片或100万小时视频的秒级查询，再一次业内领先。三、数据可视化和自助服务的标准化数据可视化不等同于吸引人眼球的色彩斑斓。数据可视化更多是从业务人员的视角，从企业运维和运营的实际需求出发，实现从数据组织、模型创建到效果展现的一揽子优化。分布式海量数据检索技术的发展，SMACK的高灵活性和实时响应特性，使得建设全自助式的数据采集、存储、管理、展现成为可能；而面向不同组织、不同人员的个性化报表的管理使得统一的自助服务引擎的建设提上日程。针对有线运营商业务转型的需要，曙光推出的XData-MBM产品，能够对不同部门各个系统的数据进行整合并统一管理；采用自动发现机制构建存储分析集群，实现对集群规模的灵活控制；支持异构多源环境下的数据实时采集同步；支持快速检索和分析，实现对百亿级别数据集的实时检索和切面分析；预定义广媒业务分析指标，提供全业务的个体和群体用户画像；支持与Tableau等可视化软件的集成。

声明：如本站内容不慎侵犯了您的权益，请联系邮箱：wangshiyuan@epins.cn 我们将迅速删除。