您好,欢迎来到微智科技网。
搜索
您的当前位置:首页Bayes分类器原理

Bayes分类器原理

来源:微智科技网
贝叶斯分类器

一、朴素贝叶斯分类器原理

目标:

计算P(Cj|t)。 分析:

由于数据t是一个新的数据,P(Cj|t)无法在训练数据集中统计出来。因此需要转换。根据概率论中的贝叶斯定理

P(A|B)P(B|A)P(A)P(B)

将P(Cj|t)的计算转换为:

P(t|Cj)P(Cj)P(t)

P(Cj|t) (1)

其中,P(Cj)表示类Cj在整个数据空间中的出现概率,可以在训练集中统计出来(即

|)用Cj在训练数据集中出现的频率F(Cj)来作为概率P(Cj)。但Pt(Cj和P(t)仍然不能统

计出来。

首先,对于P(t|Cj),它表示在类Cj中出现数据t的概率。根据“属性性假设”,即对于属于类Cj的所有数据,它们个各属性出现某个值的概率是相互的。如,判断一个干部是否是“好干部”(分类)时,其属性“生活作风=好”的概率(P(生活作风=好|好

干部))与“工作态度=好”的概率(P(工作态度=好|好干部))是的,没有潜在的相互关联。换句话说,一个好干部,其生活作风的好坏与其工作态度的好坏完全无关。我们知道这并不能反映真实的情况,因而说是一种“假设”。使用该假设来分类的方法称为“朴素贝叶斯分类”。

根据上述假设,类Cj中出现数据t的概率等于其中出现t的各属性值的概率的乘积。即:

P(t|Cj)P(tkk|Cj)

(2)

其中,tk是数据t的第k个属性值。

其次,对于公式(1)中的P(t),即数据t在整个数据空间中出现的概率,等于它在各

分类中出现概率的总和,即:

其中,各P(t|Cj)的计算就采用公式(2)。

这样,将(2)代入(1),并综合公式(3)后,我们得到:

P(t|Cj)P(Cj)P(C|t)jP(t|Cj)jP(t|Cj)P(tk|Cj)k,其中:P(t)P(t|Cjj) (3)

(4)

公式(4)就是我们最终用于判断数据t分类的方法。其依赖的条件是:从训练数据中统计出P(tk|Cj)和P(Cj)。

当我们用这种方法判断一个数据的分类时,用公式(4)计算它属于各分类的概率,再取其中概率最大的作为分类的结果。

二、文本分类的具体方法

文本分类中,数据是指代表一篇文本的一个向量。向量的各维代表一个关键字的权重。训练文本中,每个数据还附带一个文本的分类编码。对此我们有两个方面的工作:

(1)

分类器学习:即从训练数据集中统计P(tk|Cj)和P(Cj),并保存起来。(保存到一个数据文件中,可以再次加载)。在分类器的程序中,需要有表达和保

存这些概率数据的变量或对象。

(2)

分类识别:从一个测试文档中读取其中的测试数据项,识别他们的分类,并输出到一个文件中。

但文本分类有一个特殊情况:各属性的值不是标准值,不像“性别”这样的属性。因此在查找P(tk|Cj)时会遇到麻烦:新数据的tk值可能在训练数据中从未出现过。这个问题的另一方面是:训练数据中各属性(分别对应一个关键词)的值太分散,几乎不可能出现某个关键词在多篇文章中的权重相同的情况。这样,P(tk|Cj)太多、太分散,没有统计上的意义。

这一问题的处理方法是:将各关键词的权重分段:即将权重的值域分成几个段,每段取其中数值的平均值作为其标准值。第一种方法是,直接对所有训练数据的属性值进行分段,如对第k个属性,将其值域分为(0~0.1), (0.1~0.2), …, (0.9~1),各段分别编号为0,1,…9。一个数据的该属性值为0.19,则重设该属性值为它所处的分段编号,即1。

另一种方法同样进行分段,但分段后计算各段的平均值作为各段的标准值。根据具体数据相应属性的值与各分段标准值的接近程度,重新设置数据该属性的值。如对第k个属性,将其值域分为(0~0.1), (0.1~0.2), …, (0.9~1),假设(0.1~0.2)的平均值为0.15,(0.2~0.3)的平均值为0.22,而一个数据的该属性值为0.19,则该数据的该属性值与0.22更接近,应该重设为0.22。这就是我们要采用的方法。

下一个问题是,以什么作为分段标准?如果按平分值域的方法,则可能数据在值域各段中的分别非常不均匀,会造成在数据稀少的值域中失去统计意义。因此一个方法是,按照分布数据均匀为标准进行分段划分。假设有N个数据,将属性值域分为M段。对属性k,将数据按k属性的值排序,然后按N/M个进行等分,计算各值域分段中的标准值。

vkmtimikm (5)

其中,m表示一个分段,m表示第k个属性值在该段内的数据的总数。 每段内的数据的相应属性重设为该段的平均值。

分段的工作在在训练阶段进行。必须保留分段的结果:即各属性的各分段值域的标准值。在训练阶段,将所有训练数据的属性值替换为标准值后,再进行统计。而在识别阶段,将待识别数据的属性值同样替换为标准值后,再进行识别。

三、对象模型

根据我们要进行工作,其中包含:数据(项),数据集,属性,属性值,属性标准值,分类概率,分类属性概率等名词。

从实现上考虑:

(1)训练中的数据分段:根据数据的k属性值,对所有数据进行排序。按数据个数均分的原则进行分段,并计算k属性在各段的标准值,该值需要保留。

假设我们有数据项对象(CDataItem)和数据集对象(CDataSet),显然数据集对象负责该项工作。即,CDataSet中应该包含一个方法:Segment(k, m)。其中k表示对第k个属性,m表示总共分为m个段。该方法产生的各段标准值也需要保留。由于这些标准值是针对各个属性的,因此应该定义一个属性对象来存储这些值。即需要一个CAttribute对象。

此外,分段时需要的排序可以使用C++标准库中的sort模板函数来实现。

(2)根据属性值域分段的标准值,更新数据项的属性值:对一个数据的第k个属性,使用其属性值在K属性对象(CAttribute的一个对象)中查找它最接近的标准值,并用以替换原值。查找标准值的方法可以分配给CAttribute对象:即需要一个Search方法,返回找到的标准值(如果分段多,需要使用二分法查找以提高效率。可以利用C++标准库中的相应模板函数实现)。

(3)分类器本身应该作为一个类,即CBayesClassifier。其中应该包含Train(dataset)和Recognize(data)两个方法。前者用以根据dataset进行训练,后者用以识别一个数据data的分类。识别中需要各种概率:P(tk|Cj)和P(Cj)。P(Cj)可以用CBayesClassifier的一个动态数值成员实现其存储,可以用C++的vector类模板实现。P(tk|Cj)显然是一个二维表:行列分别是类和属性。可以用一个二维数组的成员表示,也可以用两层的vector实现。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务