大数据应用 2015-12-24 16:25

BI-DataMiner技术参数
数据挖掘(Data Mining,简称为DM)是一种自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信

BI-DataMiner技术参数

数据挖掘(Data Mining,简称为DM)是一种自动地从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘从数据中提取人们感兴趣的可用信息和知识,并将提取出来的信息和知识表示成概念、规则、规律和模式等便于人们理解与利用的形式。

随着信息技术的迅速发展,特别是数据库技术和计算机网络的广泛应用,企业拥有的数据量急剧增大。在大量的数据与信息中,蕴藏着企业运作的利弊得失,如果能够对这种海量的数据与信息进行快速有效的深入分析和处理,就能从中找出规律和模式,获取所需知识,帮助企业更好地进行企业运筹决策,是企业业务通过数据来驱动一种必要的手段。

BI-DataMiner是一个用户友好,智能的,并有丰演的数据集成,数据处理,数据分析和数据勘探平台。它给了用户有能力以可视化的方式创建数据流或数据通道,可选择性地运行一些或全部的分析步骤,并以后面研究结果,模型以及可交互的视图。是由Java开发,具有健壮、灵活及完全跨平台、跨数据库的特性。

BI-DataMiner通过工作流来控制数据的集成、清洗、转换、过滤,再到统计、数据挖掘,最后是数据的可视化。整个开发都在可视化的环境下进行,通过简单的拖曳和设置就可以完成一个流程的开发。

BI-DataMiner能够处理的类型从简单的数据操作(如数据清洗,数据合并)到复杂的数据统计学功能(如平均数的计算,标准误差,用线性回归实现交互式的数据模型计算操作/聚类/决策树/神经网络)。

数据结构

节点之间所有的数据流都被打包成一个叫数据目录的类,它把元信息和数据容器类型以及真实的数据联系起来。这种数据能够被反复的存取,比如数组。每一行包含一个特殊的标志位(或者是关键字)和具体的一串保存着真实数据的元数据避免通过行号或者索引号来获取入口的原因是可预测性,这就需要能够处理大量的数据同时也因此不需要保存每一行来获得快速,随机的访问。

  • 节点

节点是BI-DataMiner中最主要的处理单元和经常用来在工作区组装一个可视化的节点,节点包类的功能性和利用用户定义的节点模型执行,如果合适的话可能是一个数据对话框,一个或者多个数据窗体例子

  • 工作流程管理

BI-DataMiner的工作流程连接各节点的必需或者是正式的曲线图,一个有向循环图。作业流程管理器允许插入新的节点,同时也允许在两个节点之间添加有向边。同时它也能保存节点的状态轨迹(如配置,执行),如果需要也能够用以返回一组可执行节点。这样的环境构架能够自由的将工作量分给几个并行的线程,在未来甚至可以是分布式集中服务器。正是因为有了这基础的图形结构,工作流程管理器才能够满足所有节点按用户在实际需求中的希望的路径执行的需要。

  • 可视化和交互式的便捷

每一个节点都有一系列实物与之相对应。

 

  • 设计原则
  • 可视化,交互式构架:数据流应该通过简单的拖放各种处理单元来组合。标准的应用程序能被设计通过单个的数据管道。
  • 模块化:处理单元和数据容器不应该相互依靠,以便分布式计算和不同算法的独立开发的实现更简单。数据类型被封装,也就是说没有数据类型被重定义,新的数据类型能够伴随着明。类型描述传递器和比较器被很容易的添加。新的数据类型和已经存在的数据类型被同时声
  • 易扩展性:它应该能很容易的添加新的处理节点或者是窗体,同时通过简单的插入和演示方法来对他们进行分布而不需通过复杂的安装/卸载步骤。为了达到这个目的,管道节点由数据分析处理组成,通过边来连接各节点传输数据或者是模型。每一个节点处理到达的数据或者模型然后把处理的结果传递到输出端口。

产品特点

  • 采用纯Java技术及特有的Java扩展技术,具有健壮、灵活及完全跨平台、跨数据库的特性。
  • 数据库链接通过JDBC\ODBC\JNDI的方式,支持主流数据库。
  • 产品开放性,使得产品可以调用已经存在的数据分析工具,例如Weka,数据统计工具箱R,以及JFREEChart。
  • 产品具有很强的扩展性:自定义元节点等
  • 可采用分布式架构。产品将会提供一个相应的构架来实现并行数据处理以及在聚类和网格之上的分布式操作。

数据算法

  • 基础统计

系统提供了常用的基础统计分析功能,包括:均值分析、频率分析、描述统计、交叉表、相关分析(二元变量相关分析、偏相关分析)等。

  • 高级统计

系统提供多种高级统计分析功能,涵盖常用算法以及专用算法,主要包括以下几大类:回归分析、聚类分析、时间序列、方差分析等。

  • 算法

1) 数据预处理

Normalize():无监督的标准化连续性数据。

Discretize():用MDL(Minimum Description Length)方法,有监督的离散化连续性数值数据。

2) 分类和回归

IBk():k最近邻分类

LBR():naive Bayes法分类

J48():C4.5决策树算法(决策树在分析各个属性时,是完全独立的)。

LMT():组合树结构和Logistic回归模型,每个叶子节点是一个Logistic回归模型,准确性比单独的决策树和Logistic回归方法要好。

M5P():M5 模型数算法,组合了树结构和线性回归模型,每个叶子节点是一个线性回归模型,因而可用于连续数据的回归。

DecisionStump():单层决策树算法,常被作为boosting的基本学习器。

SMO():支持向量机分类

AdaBoostM1():Adaboost M1方法。-W参数指定弱学习器的算法。

Bagging():通过从原始数据取样(用替换方法),创建多个模型。

LogitBoost():弱学习器采用了对数回归方法,学习到的是实数值

MultiBoostAB():AdaBoost 方法的改进,可看作AdaBoost 和 “wagging”的组合。

Stacking():用于不同的基本分类器集成的算法。

LinearRegression():建立合适的线性回归模型。

Logistic():建立logistic回归模型。

JRip():一种规则学习方法。

M5Rules():用M5方法产生回归问题的决策规则。

OneR():简单的1-R分类法。

PART():产生PART决策规则。

3) 聚类

Cobweb():这是种基于模型方法,它假设每个聚类的模型并发现适合相应模型的数据。不适合对大数据库进行聚类处理。

FarthestFirst():快速的近似的k均值聚类算法

SimpleKMeans():k均值聚类算法

XMeans():改进的k均值法,能自动决定类别数

DBScan():基于密度的聚类方法,它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。

4)关联规则

Apriori():Apriori是关联规则领域里最具影响力的基础算法,是一种广度优先算法,通过多次扫描数据库来获取支持度大于最小支持度的频繁项集。它的理论基础是频繁项集的两个单调性原则:频繁项集的任一子集一定是频繁的;非频繁项集的任一超集一定是非频繁的。在海量数据的情况下,Apriori 算法的时间和空间成本非常高。

Tertius():Tertius算法。

5)预测和评估:

predict():根据分类或聚类结果预测新数据的类别

table():比较两个因子对象

evaluate_Weka_classifier():评估模型的执行,如:TP Rate,FP Rate,Precision,Recall,F-Measure。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

K-Miner技术参数

    神通K-Miner是神通BI的数据挖掘组件,提供种类丰富、性能卓越的算法集,对蕴含在企业运营数据中的各类规律、模式、关系或趋势进行深度探索和挖掘,抽象出对应的数学模型,并通过模型可视化、模型发布服务、模型预警等功能支撑用户快速、有效的理解和运用模型来进行经营策略的制定或调整。 K-Miner在数据挖掘标准CRISP-DM的基础上进行扩展和增强,向用户提供一套了关注模型生命周期管理、行之有效的数据挖掘实施项目方法论。 

1)数据预处理  

       通过提供数据预处理功能来支撑数据挖掘前的数据准备活动,包括了抽样、装箱、过滤等在内的17种数据预处理方法,以及这些方法的灵活组合,让即使不熟悉SQL的用户也能够便捷地对数据进行规范化和质量提升,以达到数据挖掘的要求。

2)数据挖掘

       实现了大多数主流的数据挖掘功能,包括属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等6大类。 为适应不同业务数据的特点,对同一个数据挖掘功能,K-Miner通过多种算法进行实现,例如“分类预测”有决策树、分类回归树、支撑向量机分类、神经网络分类、贝叶斯网络、朴素贝叶斯、逻辑回归、分类组合模型等算法可供用户选用。K-Miner共计包含了27个数据挖掘算法。

3)统计分析

       提供了包括描述性统计、数据探索、异常检测、层次聚类、方差分析等5大类13种实用的方法,方便分析人员对数据进行统计和分析。

4)模型可视化

       提供了饼图、散点图、折线图、面积图、柱状图、雷达图、线箱图、分布图、多折线图、帕累托图等10类可视化手段,利于用户对数据和模型的观察和理解

5)模型监控和预警

       为了确保模型的时效性和准确性,K-Miner提供较为完善的模型监控预警和自动更新机制。用户可以自定义模型失效的判定规则,K-Miner能对模型失效的情况进行邮件通知,并自动重新计算模型,并按用户定制的策略进行模型的更新。

       支撑将挖掘出的模型以服务的方式对外进行发布,以便决策者或者第三方系统能够在线获取模型,并基于模型进行企业经营行为的决策或计算。

 

 

 

 

 

 

 

 

 

 

 

 

 

Markway技术参数

       马克威云挖掘服务软件是由上海天律信息技术有限公司自主研发的业界领先的分布式大型统计分析和数据挖掘系统。马克威云挖掘服务软件是基于Hadoop/MapReduce、阿里云飞天平台等云操作系统开发的云端大数据分析挖掘引擎,通过数据挖掘和统计分析算法以工作流的形式建立业务模型,从海量数据中寻找规律和知识,为决策者提供科学的决策依据。

主要功能

       马克威云挖掘服务软件由七大功能模块组成:控制节点、数据源连接、分布式数据处理、分布式数据分析和挖掘算法、应用模型库、系统管理、快捷操作方式等。

  • 控制节点

   马克威云挖掘服务软件提供了条件分支、循环开始、循环结束三大控制节点。

  • 数据源

       马克威云挖掘服务软件支持与分布式平台中的数据源无缝连接(HDFS、HIVE等等),提供单表数据源、多表数据源等灵活多变的数据接入方式。

  • 分布式数据处理

马克威云挖掘服务软件提供了丰富的数据处理功能,包括:

记录选择

变量计算

记录排序

缺失值填充

数据抽样

重新编码

插入变量

删除变量

变量类型修改

变量合并

记录合并

分类汇总

数据重构

随机数生成

数据拆分

面板数据重构

行列转换

奇异值等

4)分布式数据分析和挖掘算法

均值分析

频率分析

描述统计

回归分析(线性回归、二值逻辑回归)

聚类分析(快速聚类、分层聚类、模糊聚类)

评分卡分析(变量相关性分析、动态分组)

神经网络(RBF 神经网络)

决策树(C5.0)

关联规则(单维关联规则、多维关联规则)

支持向量机

孤立点分析

 

5)应用模型库

马克威云挖掘服务软件提供应用模型保存和管理功能

6)系统管理

马克威云挖掘服务软件系统管理提供算法和资源管理、角色管理、用户管理、修改管理、数据管理

7)快捷方式

马克威云挖掘服务软件提供新建、保存、另存为、清空、删除、撤销、前进、全屏以及EXCEL、WORD、PDF导出等功能

 

 

 

 

 

 

 

SAS Enterprise Miner技术参数

    SAS(全称STATISTICAL ANALYSIS SYSTEM,简称SAS)是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。

一、产品介绍

SAS/Enterprise Miner是在数据挖掘市场上令人敬畏的竞争者。 SAS Enterprise Miner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的,且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。另外,此界面允许把处理结点直接插入到数据流中。由于支持多种模型,所以Enterprise Miner允许用户比较(评估)不同模型并利用评估结点选择最适合的。另外,Enterprise Miner提供了一个能产生被任何SAS应用程序所访问的评分模型的评分结点。

二、作用及功能
数据挖掘技术、算法和应用程序:SAS Entelprise Miner支持关联、聚类、决策树、神经元网络和经典的统计回归技术。

  • 关联:此算法允许关联规则勘测(例如市场划分分析)和顺序模式勘测。
  • 聚类:无监督学习技术用作初始知识勘测和数据可视化。
  • 决策树:支持几种决策树技术:CHAID and Entropy Reductlon(二进制和绝对变量)和F—TESTandVarianceReduc血n(为间隔目标变量)。
  • 神经元网络:支持几种神经元网络,包括多层感知器(MLP)和基于半径的函数(RBF)。Enterpdse Miner还提供了各种各样的转变和报错函数以及训练方法。设计这些能力是为了提供比标准向后传播网络更好的预测和运行时性能。
  • 回归:Enterpdse Miner支持多种在标准SAS上已被实现的回归技术。

Enterpdse Miner支持市场划分分析、分类、预测模型、顾客分析、计量经济时序的统计分析范围、运作研究和其它许多方面。

使用工具:Entepnse Miner为构造预测模型提供了大量选项。指定过程是在可视化编程环境中通过拖拉和按下动作完成的。大量的默认集使它能对初学者合适。

Enterprise Miner为神经元网络的解释提供了日志文件和SAS源代码。

Enterprise Miner支持两种评估模型的方法:通过模型管理器或通过评估结点。模型管理器是从特定的模型分析输出结果的好工具。评估结点在评估模型的概况和健壮性方面很有用。两者都支持提升表、利润表、ROI和别的指示器。

由于评分结点能把模型存储在SAS结构中以各以后代入数据,所以模型能通过使用评分结点被直接配置。

有经验的用户能利用把任意复杂的代码并入数据流的SAS代码结点。关于元数据,Enterprise Miner使用了与SAS系统其它部分一样的元数据。

由于它在统计分析软件上的丰富经验,所以SAS开发出了一个全功能、易于使用、可靠和易于管理的系统。模型选项和算法所覆盖的广阔范围、设计良好的用户界面、现存数据商店的能力和在统计分析市场所占的巨大份额(允许一个公司获得一个增加的SAS部件而不是一个新的工具)都可能使SAS在数据挖掘市场上取得领先位置。由于它最近刚投放市场,所以在写此书时只能获得少数公布的用户基推测试。这些结果表明Enterprise Miner在可伸缩性、预测准确性和处理时间上都表现得很好。总的来说,此工具适合于企业在数据挖掘方面的应用以及CBM的全部决策支持应用。

 产品对比

项目

BI-DataMiner

K-Miner

Markway

SAS Enterprise Miner

平台

Microsoft® Windows 系列操作系统(包括:Windows 2000、Windows XP、Windows Vista、Windows 7等)

- Linux系列

- Unix系列

- Solaris Unix系列

- HP-UX系列

- AIX系列

 Microsoft® Windows 系列(NT 4.0以上)

- Linux系列

- Solaris Unix系列

- HP-UX系列

- AIX系列

系统兼容Windows系列操作系统(包括:Windows 2000、Windows XP、Windows Vista、Windows 7等)、Linux、Unix等操作系统

HP/UX on Itanium: 11iv3 (11.31)

IBM AIX R64 on POWER architecture 7.1

IBM z/OS: V1R11 and higher

Linux x64 (64-bit): Novell SuSE 11 SP1; Red Hat Enterprise Linux 6.1; Oracle Linux 6.1

Microsoft Windows on x64 (64-bit):

Desktop: Windows 7* x64 SP1; Windows 8** x64

Server: Windows Server 2008 x64 SP2 Family; Windows Server 2008 R2 SP1 Family; Windows Server 2012 Family

Solaris on SPARC: Version 10 Update 9

Solaris on x64 (x64-86): Version 10 Update 9; Version 11

数据预处理

对数据进行标准化及离散化等预处理

包括抽样、装箱、过滤等数据预处理方法

一般数据预处理方法

包括标准化、唯一化等数据预处理方法

数据挖掘算法

回归分析、聚类分析、时间序列、方差分析、分类预测、关联分析、决策树、机器学习、支持向量机等

属性选择、分类预测、回归预测、聚类分析、关联分析、时间序列分析等

回归分析、聚类分析、决策树、神经网络、关联分析等

神经网络、决策树、混合模型、预测、时间序列、聚类方法、关联方法、分类数据分析等

统计分析

均值分析、频率分析、描述统计、交叉表、相关分析(二元变量相关分析、偏相关分析)

描述性统计、数据探索、异常检测、层次聚类、方差分析等

均值分析、描述统计、频率分析等

方差分析、非参数分析、调查数据分析、顾客分析、计量经济时序、贝叶斯分析等

数据容量

海量数据

大部分算法能够在8G内存环境中对1000万行级规模的数据进行建模

海量数据

海量数据

分布式架构

分布式架构

并行架构

分布式架构

分布式架构

数据源

数据库链接通过JDBC\ODBC\JNDI的方式,支持主流数据库

支持多种数据库

支持与分布式平台中的数据源无缝连接(HDFS、HIVE等等)

可以与SAS数据仓库和OLAP集成,全面支持各种主流数据库

操作易用性

通过简单的拖曳和设置就可以完成一个流程的开发

拖拽式

图形化拖拽式

通过拖拉和按下动作完成

扩展性

具有很强的扩展性

具有很高的可扩展性

产品价格

较高

较高