数据挖掘系统是什么-犀牛文库

数据挖掘系统（data mining system）是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的系统。近年来为了推动数据挖掘在实际中的应用，许多研究者对数据挖掘系统的体系结构做了大量的研究工作。

数据挖掘（data mining）又称为数据库中的知识发现，是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘出有趣知识的过程。近年来为了推动数据挖掘在实际中的应用，许多研究者对数据挖掘系统的体系结构做了大量的研究工作。

数据挖掘系统是什么

特点

一个结构合理的数据挖掘系统应该具有以下几个特点：

（1）系统功能和辅助工具的完备性；

（2）系统的可扩展性；

（3）支持多种数据源；

（4）对大数据量的处理能力；

（5）良好的用户界面和结果展示能力。

当前出现的数据挖掘系统主要包括集中式的和分布式的数据挖掘系统，而每种系统的具体结构及其各个组成部分却有多种不同的实现技术和实现方式。

集中式的数据挖掘系统

单一数据库/数据仓库的数据挖掘系统是当前发展得较为成熟的数据挖掘应用系统，许多商业性的数据挖掘应

集中式数据挖掘系统的体系结构

用户界面及知识表示层

在该层通过提供友好的用户界面及利用数据可视化技术展示挖掘结果，可以大大提高系统的易用性，数据挖掘的可视化是指利用可视化技术从大量的数据集中发现隐含的和有用的知识。数据挖掘的可视化主要包括数据的可视化、挖掘过程的可视化和挖掘模型的可视化，当前的可视化技术主要包括传统的几何学方法( 如曲线图、直方图、散点图、饼图等)、SOM 网可视化技术、平行坐标系技术、面向象素的可视化技术等。基于 SOM 网络和基于平行坐标系的可视化技术是目前应用较多的 2 项技术，它们的原理都是通过把高维数据映射为二维数据从而将数据显示在二维平面上。如汪加才等设计的一个基于 SOM 网的可视化挖掘系统 VISMiner，刘勘等研究了平行坐标系技术在数据挖掘系统中的具体应用。

控制层

控制层用于控制系统的执行流程，协调各功能部件间的关系和执行顺序，主要包括对数据挖掘任务进行解析，并根据任务解析的结果判断挖掘任务涉及到的数据和应该采用的数据挖掘算法。

数据挖掘任务一般是通过数据挖掘语言定义和解释的，当前许多研究者提出了自己的数据挖掘语言，这些语言从结构上看都是类 SQL 语言，如 DMQL 语言等, 但是并没有实现挖掘语言的标准化。2000 年 3 月，微软推出了一个新的数据挖掘语言规范 OLE DB for Data Mining，向着数据挖掘语言标准化又迈进了一大步，Amir Netz 等详细介绍了如何将 OLE DB for DM 规范应用到数据挖掘系统之中。

数据源层

为了提高数据的一致性和完整性，进行数据挖掘前首先应将分散存储在多个数据源中的数据通过数据清理和数据集成等预处理操作集成到一个统一的数据库/ 数据仓库中。为了提高系统的可扩展性，屏蔽数据源采用的具体数据库产品，数据库接口应该采用 ODBC、JDBC 或 OLE DB 等技术，以便于更改数据源。赵志宏、钱卫宁等分别提出了基于数据仓库和大规模数据库的数据挖掘系统框架及其应用。

数据库可以通过 4 种形式集成到数据挖掘系统中：无藕合的，松藕合的，半松藕合的和紧藕合的。最理想的是紧藕合方式，即通过把数据挖掘查询优化成循环的数据挖掘和检索过程从而将 2 者结合起来，这样可以充分利用数据库所具有的查询、汇总等数据处理功能，减少数据挖掘系统开发负担，提高系统的效率。Rosa Meo 提出了一种使用数据挖掘语言 Mine Rul e 实现与数据库紧藕合的数据挖掘系统框架。

待挖掘数据层

该层为数据挖掘层提供符合数据挖掘算法要求的待挖掘数据集，待挖掘数据集是由数据源层中与挖掘任务相关的数据经过数据变换和数据规约等数据预处理操作形成的。

除了直接基于数据库/ 数据仓库中的数据进行挖掘外，数据挖掘还可以基于联机分析处理(OLAP)进行，称作联机分析挖掘(OLAM)。由于 OLAM 将 2 者结合了起来，充分发挥 2 者的优点，所以可以使数据挖掘具有较高的效率和良好的交互性。Jia-wei Han 教授等提出了一种 OLAP 和 DM 集成的 OLAM 系统的结构框架，并且开发出了基于这种结构的一个数据挖掘系统 BD Miner。Sanjay Goil 等研究了一种基于并行处理技术的可扩展的 OLAP 和数据挖掘集成的系统体系结构。

挖掘层

该层是数据挖掘系统的核心，该层的具体实现直接关系到整个系统的功能性和可扩展性。数据挖掘主要包括概念/ 类描述、关联规则分析、分类及预测、聚类分析、孤立点分析和演变分析等几种类型的模式的挖掘，针对各种类型的模式人们又都提出了多种不同的实现算法，对于一个特定的数据挖掘系统应该包括哪些类型的模式挖掘算法则要由该系统的开发目的及其面向的具体应用领域来决定。

为了提高系统的可扩展性，许多系统采用了组件技术来实现数据挖掘算法及其管理。当前比较成熟的组件技术主要有 COM / DCOM、EJB / Java RMI 和 CORBA / IIOP，组件是指应用系统中可以明确辨识的、具有一定功能的构成模块，一个组件的典型结构包括组件接口和组件实现 2 部分，组件接口和组件实现是相互分离的，只要在应用程序中保持统一的接口标准，就可以方便地在系统中加人或替换组件。如刘君强等设计的 smart Miner 数据挖掘系统中的算法模块采用了组件对象模型 COM 技术进行构造，并通过算法描述库为组件提供注册机制，任何符合 COM 标准的算法模块可方便地加入到系统中。在史忠植等人研究开发的 MSMiner 系统中各种数据挖掘核心算法以动态链接库 DLL 的形式加以实现，并可以在系统运行过程中动态加载，该系统中还提供了专门的算法管理模块，通过挖掘算法库管理各种挖掘算法, 并通过元数据的形式提供算法的注册机制。

知识评价及知识表示层

在将挖掘结果呈现给用户之前通过知识评价可以有效地去除冗余的、无用的挖掘结果, 对提高系统的可用性有着重要的意义.知识评价的度量标准主要包括有效性、新颖性、潜在有用性和最终可理解性. 聂艳霞等详细介绍了知识评价与数据挖掘过程结合的 4 种方式。

数据挖掘系统挖掘的知识模式经过知识评价后可以存储在知识库中以便重用，为了便于不同数据挖掘系统间知识模式的共享，DMG 组织（the data mining）提出了预言模型标记语言 PMML(prediction model markup language)，PMML 是一种基于 XML 的语言，为数据挖掘产生的预言模型提供了一种统一的定义和描述标准，使得遵循该标准的不同厂商的数据挖掘系统之间可以方便地共享预言模型，提高了模型的可重用性和系统的可扩展性。Wettschereck 等介绍了 PMML 在模型交换中的应用。

上面对集中式数据挖掘系统的各个组成部分的实现技术做了详细介绍，目前已出现了许多基于集中式结构的商业数据挖掘软件并开始得到广泛的应用。比较有影响的商业软件主要有 SAS 公司的 Enterprise Miner，IBM 公司的 Intelligent Miner 和 SPS 公司的 Clementine 等。Enterprise Miner 实现了与 SAS 数据仓库和 OLAP 的集成，可以实现从提出数据、抓住数据到得到解答的端到端的知识发现。Intelligent Miner for Data 支持对多种数据源的挖掘，如传统文件、数据库、数据仓库和数据中心等。Clementine 采用了数据挖掘过程模型 CRISP-DM，能让用户轻松、容易且有效地执行与管理整个数据挖掘的工作。同时这 3 种软件目前都提供了对 PMML 2.1 的支持，实现了挖掘模型的共享。

分布式的数据挖掘系统

随着网络技术和分布式数据库技术的发展和成熟, 分布式数据库已经得到越来越广泛的应用, 原来数据的集中式存储和管理也逐渐转变为分布式存储和管理. 数据存储方式的变化也必然会促进数据挖掘技术及其系统结构的变化. 由于实际应用中数据的安全性、私有性、保密性以及网络的带宽限制, 使得首先将分散存储的数据集中到一个数据库中再进行挖掘的方法是不可行的, 因此分布式数据挖掘成为在分布式数据库中进行数据挖掘的最为可行的解决办法。

步骤

分布式数据挖掘包括以下几个步骤：

（1）剖分待挖掘数据成 P 个子集，P 为可用的处理器个数，并把每个数据子集发送到各个处理器；

（2）每个处理器运行数据挖掘算法于其局部数据子集，处理器可以运行不同的数据挖掘算法；

（3）组合各个数据挖掘算法发现的局部知识成全局、一致的发现知识。

研究内容

在分布式数据挖掘中有 4 种关键技术：数据集中、并行数据挖掘、知识吸收和分布式软件引擎。

分布式数据挖掘的研究主要包括分布式数据挖掘算法和分布式数据挖掘体系结构的研究 2 个方面.当前已经出现不少分布式和并行的数据挖掘算法, 如并行挖掘关联规则的算法 CD (count distribution)、DD (Data distribution)，以及 PDM 等。在分布式数据挖掘系统结构方面，也已出现了许多基于不同技术的体系结构。如张学明等研究了一种基于 CORBA 技术并采用多线程并行数据挖掘机制的分布式并行体系结构。陈刚对基于移动 Agent 技术的分布式数据挖掘体系结构进行了研究。侯敬军等则提出了一种基于 Web Services 的分布式体系结构，可实现分布式异构环境下的大容量数据的数据挖掘研究了一种用于电子商务应用的基于异构和分布式环境的联邦式数据挖掘系统。Omer Rana 等提出了一种基于组件技术的具有良好可扩展性的分布式数据挖掘系统框架，该框架可以方便地集成第 3 方插件和用户自定义组件。

与集中式数据挖掘系统不同，当前分布式数据挖掘系统还主要处在研究阶段，还没有出现成熟的商业产品。分布式数据挖掘当前的研究热点主要集中在对超大规模数据集的处理以及提高分布式挖掘系统的整体性能，Grossman 等人提出了一种称为 PDS 的集成框架，在该框架中首次集成了支持远程数据分析和分布式数据挖掘的数据服务，设计用于在高性能网络上进行高效数据传输的网络协议以及设计用于光纤网络的链路服务，该框架可用于进行 Gigabyte 大数据量的分布式数据挖掘。