Skip to content
Go back

数据挖掘——关联分析

Edit page

关联分析

重要术语

二元表示: 非对称二元变量。在购物篮数据中,出现了的用 1 表示,没出现的用 0 表示。

项集: 数据的所有项的子集称为项集。

支持度计数: 数据中包含这个项集的数据行的个数。

关联规则: 形如XYX \rightarrow Y的蕴含表达式,XY=X \cap Y = \emptyset

关联规则的强度衡量:
支持度:s(XY)=σ(XY)Ns(X \rightarrow Y)=\frac{\sigma (X \cup Y)}{N},NN为总记录数
置信度:c(XY)=(σ(XY)σ(X)c(X \rightarrow Y)=\frac{(\sigma (X \cup Y)}{\sigma (X)}

关联规则发现: 找出所有超出了支持度阈值和置信度阈值的规则。

  1. 频繁项集的产生:发现满足最小支持度阈值的所有项集,被称为频繁项集。
  2. 规则的产生:从频繁项集中提取高置信度的规则,被称为强规则。

频繁项集的产生

项集格(lattice structure):

picture 1

对有kk个项的数据集,可能有2k12^k-1个频繁项集(由二次项定理得出)。
最差的方法: 对每个候选项集(2k12^k-1)都计算支持度计数。计算复杂度为:O(NMw)O(NMw) (NN表示事务数,MM表示候选项数,ww表示事务的最大宽度)

降低计算复杂度的方法:

  1. 减少候选项集的数目(MM)。 先验原理(apriori),是一种不用计算支持度值而删除某些候选项集的有效方法。
  2. 减少比较次数。 使用更高级的数据结构或者存储候选项集或者压缩数据集的方法来减少比较次数。

Edit page
Share this post on:

Previous Post
量化投资预备知识
Next Post
量化投资综述