Data Mining Concepts and Techniques

数据仓库技术是为了有效地把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模型的总称。

数据处理分为:联机事务处理(on-line transaction processing, OLTP)联机分析处理(on-line analytical processing, OLAP).

OLTP是传统的操作型数据库系统的主要应用,主要是一些基本的日常事务处理,如银行柜台存取款、股票交易和商场POS系统等。

OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLAP 技术

多维数据集是 OLAP 的主要对象,它是一个数据集合,通常从数据仓库的子集构造,并组织汇总成一个由一组维度和度量值定义的多维结构。

维度是OLAP技术的核心,即人们观察客观世界的角度,通过把一个实体的一些重要属性定义为维(dimension),使用户能对不同属性上的数据进行比较研究。

度量值也叫度量指标,是多维数据集中的一组数值,是所分析的多维数据集的中心值。

例如,一个企业在考虑销售情况时,通常从时间、销售地区、产品等不同角度观察,这就是维度。这些维的不同组合和所考察的度量值,如销售额,共同构成的多维数据集就是OLAP分析的基础。

多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(slice)、切块(dice)、钻取(drill down & roll up)和旋转(pivot)等各种分析动作,从而深入理解多维数据集中的信息。

  • 钻取可以改变维的层次、变换分析的粒度,包括向上钻取(roll up)、向下钻取(roll down)、交叉钻取(drill across)和钻透(drill through)等。向上钻取即减少维数,是在某一维上将低层次的细节数据概括到高层次的汇总数据;向下钻取是从汇总数据深入到细节数据进行观察,增加了维数。
  • 切片和切块是在一部分维上选定值后,度量值在剩余维上的分布。如果剩余维有两个则是切片,有三个则是切块。
  • 旋转是变换维的方向,即在表格中重新安排维的放置,例如行列互换。

OLAP 技术的目标是满足在多维数据环境下的特定查询和报表需求,以及辅助决策支持的需求。通常表现为多维分析数据工具的集合。

OLAP 的分类: 根据存储方式可分为ROLAP、MOLAP、HOLAP。分别是关系数据库、多维数据结构组织、混合数据组织的OLAP实现。

最近出现的一种数据存储结构是数据仓库,这是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。

数据仓库技术包括数据清理、数据集成和联机分析处理OLAP。

知识发现过程:

  • 数据清理(消除噪声和删除不一致数据)
  • 数据集成(多种数据源可以组合在一起)
  • 数据选择(从数据库中提取与分析任务相关的数据)
  • 数据变换
  • 数据挖掘
  • 模式评估
  • 知识表示

数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。

On What Kinds of Data?

Database-oriented data sets and applications: Relational database, data warehouse, transactional database.

Advanced data sets and advanced applications: (list five examples)

  • Heterogeneous databases and legacy databases
  • Spatial data and spatiotemporal data
  • Multimedia database
  • Text databases
  • The World-Wide Web

On What Kinds of Patterns?

Data Mining Function

Generalization

  • Information integration and data warehouse construction: data cleaning, transformation, integration,

Association and Correlation Analysis

Classification

Cluster Analysis

Outlier Analysis

Author

preccrep

Posted on

2021-07-22

Updated on

2021-07-28

Licensed under

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

Comments

You forgot to set the shortname for Disqus. Please set it in _config.yml.