数据仓库具有面向主题、集成性、稳定性以及时变性的特点。数据仓库中的数据是按照一定的主题域进行组织,所需数据从原来的数据中抽取出来进行集成;不可更新主要是为决策分析提供数据,随时间而变化的,稳定的数据以只读格式保存,且不随时间改变。
数据仓库是为企业的决策制定过程,提供数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。
面向主题
即处于数据仓库中的数据是按照特定的主题组织而成的,这里的主题不是具体的而是一个抽象的概念,常指企业或个人在使用数据仓库着重关注的方面。传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
集成性
数据集成,指在数据仓库中的数据信息并不是在各业务系统中简单、随机抽取的,由于数据仓库间的独立性,因此需要消除源数据中的异值。通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。
数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:1.要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。2.进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。
稳定性
业务系统中的数据总是处于不断变化的状态,即数据为最新的状态。相对于业务系统的不断变化,数据仓库具有稳定性,是指数据在进入数据仓库后,数据一般用于查询,很少会对数据进行修改,常见的操作也只是进行定期的加载和刷新。
时变性
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。
数据仓库的数据随时间的变化表现在以下几个方面:
数据仓库的数据时限一般要远远长于操作型数据的数据时限。操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。
总结数据仓库特点
数据仓库是面向主题的,操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。数据仓库是集成的,数据仓库将所需数据从原来的数据中抽取出来,进行集成,才能进入数据仓库。数据仓库是不可更新的,数据仓库主要是为决策分析提供数据。数据仓库是随时间而变化的,稳定的数据以只读格式保存,且不随时间改变。汇总的。操作性数据映射成决策可用的格式。大容量。时间序列数据集合通常都非常大。非规范化的。Dw 数据经常是冗余的。元数据。将描述数据的数据保存起来。数据源。数据来自内部的和外部的非集成操作系统。
数据仓库是单个数据存储,用于支持分析性报告、决策等为目的而建立的。其可以提供各种类型数据,支持企业进行各种级别决策的制定,还能为有业务智能需求的企业提供有关数据监看、业务流程改进等支持。由此可见数据仓库对整个数据挖掘过程的重要性