大数据科研平台
产品详情

一、数据挖掘和大数据分析行业的背景及发展趋势

移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。根据IDC《数字宇宙》(Digital Universe)研究报告显示,2020年全球新建和复制的信息量已经超过40ZB,是2015年的12倍;而中国的数据量则会在2020年超过8ZB,比2015年增长22倍。数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。IDC亚太区(不含日本)最新关于大数据和分析(BDA)领域的市场研究表明,大数据技术和服务市场规模将会从2012年的5.48亿美元增加到2017年的23.8亿美元,未来5年的复合增长率达到34.1%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。

据IDC分析报道,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅;应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估以Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则(二八原则,也就是任务20%的用户提供了80%的价值,因此利用优势资源用户对于少数用户的服务),甚至可达到价值的几乎均匀分布。并且由于计算技术的发展,对于大数据的分析也成为了可能。

二、数据挖掘与大数据分析科研平台建设的必要性

数据挖掘与大数据分析是以计算机基础为基础,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该学科对于科研平台具有较高的专业要求。科研平台不仅要提供基础的编程环境,还要提供大数据的运算环境以及用于科学研究的实战大数据案例。这些素材的准备均需完整的科研平台作为支撑。

目前,在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息以及公共卫生等。这些专业的在使用科研平台时的侧重点各不相同,使用人员层次水平也不相同,对算法的使用也不相同,因此,需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。

三、科研平台规划

科研平台建设的基本原则是科研为主,同时为教学实验提供部分计算资源及安全资源,系统在授权范围内共享科研系统的计算资源,提高教学实验的真实性。系统整体由千兆核心交换机作为核心节点,并以两个千兆接入交换机作为科研与实验环境的交换节点。科研环境由我司开发的商业Hadoop集群为基础,上层集成便于操作的大数据科研应用系统,集成20T大数据案例集及可拖拽的数据算法和可视化算法。

总体架构图

四、科研平台功能规划

本科研平台针对数据挖掘有大数据分析研究内容,兼顾科研与教学的需求,既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。

1、      大数据分析功能规划

建设以商业版Hadoop为核心的大数据分析平台,系统提供MapReduce以及Hive、PIG等数据分析功能。系统具有完整的管理调度功能同时提供JDBC等外部访问接口。

2、      硬件资源功能规划

系统具有24个Intel Xeon E5 CPU计算能力,提供超过200T的存储能力以及1T以上的内存,可满足1000任务共时计算内能,方便扩充。

五、科研平台设备架构

设备架构中包括了主节点和备份节点、管理节点、接口节点以及计算节点来保证结构的完整性。


设备架构

六、科研平台的底层架构

大数据科研平台低层架构以我司研发的商业版Hadoop为基础架构,包含和大数据分析、数据挖掘、机器学习等功能模块,并以HDFS以及Hbase作为存储基础。系统版本为HonyaES-data v3.0。


软件架构


七、科研平台的功能

1、科研项目管理

科研计算的项目是以计算项目来保存的,包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节。

2、平台数据案例库

作为一个科研平台数据,数据的来源是最大的难点,目前在互联网等渠道是很难找到科研工作所需的数据源,尤其是经过数据处理和治理后的高质量数据。

系统自带样本案例集

3、科研数据上传

高校自有的科研数据也能上传到平台参与数据计算,老师可以在平台上建立数据表,然后把本地的数据文件上传到数据表中。

数据上传

4、科研平台集成算法

科研平台就要考虑操作的简易性,HonyaES-data科研平台集成了50多种算法,包括回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测评估、数据预处理算法、机器学习等。所有的算法无须重新编程,只需要拖拽绘图完成即可进行计算。

自行设计自法组合

5、科研平台可视化功能

提供20余种可视化展示模式,一键选择,一键切换,可按使用者需求展示大数据之美,根据需要展示对应的纬度,并可以一键生成高质量PNG文件,保存到本地后可用于科研报告和论文等。

数据可视化

八、科研平台案例库

科研平台为方便用户快速开展科学研究,生成科研数据报告,平台提供了30多种案例样本,总量近5TB,并且随商务和采集工作推进,仍在不断增加中。包括:企业数据、股票数据、保险数据等等30多种案例。

九、平台算法清单

平台集成的算法包括45种,全部来自科研网站,经过了商业机构的验证,引入平台后完成了分布式优化,可以高效执行。例如:回归算法中的线性回归、随机森林回归,分类算法中的逻辑回归二分类贝叶斯分类等等一系列算法。



在线咨询

工作时间
周一至周五 :8:30-18:30
联系方式

电话:010-82205218

传真:010-82205228-806

经营地址:北京市海淀区学院南路15号学院派C-1907

研发中心:北京市昌平区龙域北街3号金域国际中心A座1603室