最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
当前位置: 首页 - 科技 - 知识百科 - 正文

数据挖掘之朴素贝叶斯算法

来源:懂视网 责编:小采 时间:2020-11-09 16:21:04
文档

数据挖掘之朴素贝叶斯算法

数据挖掘之朴素贝叶斯算法:最近由于需求翻阅了一些数据挖掘相关资料,对数据挖掘过程中的分类技术进行了理解和研究,遂记录如下。 1、数据挖掘概述 数据挖掘,就是提取或者挖掘数据,主要通过对已获得的大量数据进行深度整理和分析,其分析结果可以反映过去结果和预测未来趋势。目前几
推荐度:
导读数据挖掘之朴素贝叶斯算法:最近由于需求翻阅了一些数据挖掘相关资料,对数据挖掘过程中的分类技术进行了理解和研究,遂记录如下。 1、数据挖掘概述 数据挖掘,就是提取或者挖掘数据,主要通过对已获得的大量数据进行深度整理和分析,其分析结果可以反映过去结果和预测未来趋势。目前几

最近由于需求翻阅了一些数据挖掘相关资料,对数据挖掘过程中的分类技术进行了理解和研究,遂记录如下。 1、数据挖掘概述 数据挖掘,就是提取或者挖掘数据,主要通过对已获得的大量数据进行深度整理和分析,其分析结果可以反映过去结果和预测未来趋势。目前几

最近由于需求翻阅了一些数据挖掘相关资料,对数据挖掘过程中的分类技术进行了理解和研究,遂记录如下。

1、数据挖掘概述

数据挖掘,就是提取或者挖掘数据,主要通过对已获得的大量数据进行深度整理和分析,其分析结果可以反映过去结果和预测未来趋势。目前几种典型的数据挖掘研究有:关联规则、分类、聚类、预测、web挖掘等。分类挖掘可以从数据中提取相关特征,然后建立相应模型或者函数,并把数据中的每个对象归类到特定分类。例如: 可以检测邮件是否为垃圾邮件,检测数据是否为攻击数据,样本是否为恶意程序等等这些都可以通过分类挖掘实现,而分类挖掘中又分为决策树方法、统计学方法、贝叶斯网络、神经网络等其他分类技术。

2、朴素贝叶斯算法

贝叶斯分类是一种基于统计学的分类方法,就是大学学的概率统计神马的。朴素贝叶斯算法是在贝叶斯算法上基于独立假设的贝叶斯定理的简单概率分类器,因此这里谈到技术的就是数据挖掘中很小的一部分了。其主要基本思路如下:

需求分析——>提取特征——->训练样本——–>检测特征——->计算后验概率——>判定

首先是需求分析,我们需要清楚自己的目的:即对这些数据分析能够得出什么结果?我们需要什么结果?一个分类模型;还是其他。例如:我们需要对大量的邮件进行分析处理,最终需要建立一个模型能够自动判定一封邮件是够为垃圾邮件或者正常邮件,因此,最终我们只有两个类别,即垃圾邮件、正常邮件。这就是我们的需要。

其次是提取特征,需要对待分析的数据进行详细分析,提取不同点。例如,我们需要研究正常邮件与垃圾邮件有哪些方面的不同,垃圾邮件具有哪些特性,而正常邮件具有额外的哪些特性。一般来讲,垃圾邮件内容中往往含有图片、链接、邮件头、多个收件人、HTML标签问题等比较特殊的特征,而正常邮件一般没有这些特征。

再次是训练样本,这个步骤一般是提取大量样本按照其上一步提取的特征值进行分析并统计,得到一个比较详细的特征统计表。例如:随机从邮件服务器中提取1000封邮件,然后对每封邮件内容按照前面提到的特征进行统计分析。

再次是检测特征,通过前面的过程我们已经建立了一个朴素贝叶斯模型,我们可以通过编写代码实现自动检测特征。例如,可以通过python或者c++实现文本的特征匹配,这里可以采用其他文本匹配算法。

再次是计算后验概率,根据朴素贝叶斯算法,可以计算在已知分类情况下的特征概率,即先验概率。例如,我们可以计算在假定为正常邮件情况下,文本特征有:图片、链接、多个收件人的情况下概率P(图片|垃圾邮件)、P(链接|垃圾邮件)等,然后我们在计算假定为垃圾邮件情况下,文本特征有图片、链接、多个收件人的情况下概率P(图片|正常邮件)、P(链接|正常邮件)等.

最后,我们可以通过比较先验概率的值和概率来判定该样本属于哪种类型。例如:分别计算P(垃圾邮件)*P(图片|垃圾邮件)*P(链接|垃圾邮件)*….与P(正常邮件)*P(图片|正常邮件)*P(链接|正常邮件)*….,然后看那个值比较大,从而判定属于这个类别。

系统性能指标一般会通过正确率、准确率、召回率这三个指标进行评定。

3、总结

整体来说,整个过程还是比较复杂,特别是样本特征方面,需要考虑比较周全然后其效果才会更加明显,而训练样本的值也会影响最终结果。网上也有一个比较简单的实例,python实现的Naive Bayes[文献3],大伙可以参考。附带几篇比较好的文章。

4、参考资料

(1)范明.范宏建《数据挖掘导论》

(2)焦李成.《智能数据挖掘与知识发现》

(3)Naive Bayes的Python实现

(4)基于朴素贝叶斯分类器的文本分类算法(上)

(5)贝叶斯推断及其互联网应用(一):定理简介

(6)贝叶斯推断及其互联网应用(二):过滤垃圾邮件

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文档

数据挖掘之朴素贝叶斯算法

数据挖掘之朴素贝叶斯算法:最近由于需求翻阅了一些数据挖掘相关资料,对数据挖掘过程中的分类技术进行了理解和研究,遂记录如下。 1、数据挖掘概述 数据挖掘,就是提取或者挖掘数据,主要通过对已获得的大量数据进行深度整理和分析,其分析结果可以反映过去结果和预测未来趋势。目前几
推荐度:
标签: 数据 一些 最近
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top