手机浏览器扫描二维码访问
第11讲掌握多条信息时的推理②以垃圾邮件过滤器为例
banner"
>
11-1垃圾邮件过滤器以贝叶斯推理为基础
在进行统计推算与贝叶斯推理等概率推算时,通常需要两条以上的信息。
并且,信息数量越多,推算出的结果可信度越高。
后面的三讲,会讲解如何利用多条信息来进行推算的问题,而其中的要点则是上一讲中提到的“概率的乘法公式”
。
在这一讲,会讲解如何利用两条信息来计算出后验概率。
本讲主要探讨垃圾邮件过滤器的问题。
所谓的垃圾邮件,指的就是一些不良商家通过网络随意发送的广告邮件。
而垃圾邮件过滤器的功能之一就是自动判别垃圾邮件,并把它归入“垃圾邮件”
的分类中。
事实上,贝叶斯推理的实际应用中,最广为人知的正是这种垃圾邮件过滤器。
而目前,垃圾邮件过滤器已经被引进更为广泛的网络邮件服务当中。
读者们在使用该服务之后,都会为它在分类判断方面的准确性而惊叹不已,而这一切都要归功于贝叶斯推理。
11-2在过滤器上设置“先验概率”
和前面的操作步骤相同,第一步是设定事前类别,并在获得一条信息之后,计算出后验概率。
在这里我们要做的,并不是“自己去判断收到的邮件是否为垃圾邮件”
,而是为大家讲解“电脑会对所收到的邮件做出机械判断”
的原理。
首先,电脑在对收到的邮件进行扫描之前,会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”
先验概率。
在这里,利用“理由不充分原理”
(见3-2),使双方各占0.5的概率。
这就意味着,对于接收到的邮件,过滤器会做出“垃圾邮件的概率是0.5,正常邮件的概率也是0.5”
的判断。
而此时如果有可信度更高的概率,也可以将其设定为先验概率,如图表11-1所示。
图表11-1理由不充分原理的先验概率
11-3扫描字句与条件概率的设定
接下来要做的是,设定一些在垃圾邮件里常见的字句及特征。
但需要注意的是,“贴有其他网页的URL链接”
这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。
反派A老子有钱!陆三生陆某是你祖宗。反派B老子有人!陆三生陆某是你祖宗。反派C老子有门派撑腰!陆三生陆某是你祖宗。众反派能不能别再说祖宗的事了陆三生沉思了一下,淡淡开口陆某…是你祖宗。于是,一场祖宗的无敌之旅从此开始。...
江米一直认为自己的真爱是哥哥聂卫平。却没想到,竟然跟弟弟聂卫东这个冤家对头纠缠不休。...
古代科考是件危险活,韩时遇便穿成了丧命乡试考场的倒霉蛋。原身幼丧父,已娶妻,寡母和妻妹为供他科考熬灯点蜡,不料他却因体弱又遭遇臭号倒在了考场上,留下家中烂摊子。韩时遇看着熬白了头发的母亲,瘦得仿佛一阵风便能吹跑的妻子,惶惶无依的幼妹,还有这一贫如洗的家,除了接过这烂摊子还能怎地?赚钱养家,科举晋身,韩时遇选择了这条路,唯有奋勇直前。后来,他考上了解元,又考上了状元,一路扶摇直上。魔蝎小说...
再给我生一个孩子!他禁锢着她乱动的手脚,眸色染着火热。不,陆先生,我不是你太太,生孩子的事情,做不了。她傲然出唇,拒绝的毫不留情。乖,别闹了,再生一个陆太太给你做。切,以为谁愿意做陆太太!宝宝潇洒翻个白眼,笑的灿然爹地,你还不知道吗!你已经出局了!...
一个神奇的‘万能工具箱’,让乔加踏入了军火界。世界的波谲诡异让乔加逐渐改变了自己的目标先生,你是怎么走到这一步的?我不知道,我一开始只是想要赚点钱,买一套房子,娶一个老婆。但是慢慢的随着我的身边出现了越来越多的人,我的目标也开始变了。那你现在的目标是什么?现在我只想带着自己的伙计们安稳的退休,真的!...
暴富系统真千金打脸爽文虐渣1v1一睁眼顶级影后顾晚诗成了顾家不受宠的真千金小可怜儿爹不疼妈不爱白莲花养女处处陷害!连唯一疼爱自己的爷爷留下来的财产都被抢走!没关系暴富系统在手小可怜儿一跃成为顶级白富美惊艳全球!偏心爹妈瞎眼哥哥顾家的所有财产都是你妹妹的你别想抢!顾晚诗顾家财产我稀罕?直接收购顾氏集团你们所有人都给我打工!渣男前男友亲爱的我以前是一时鬼迷心窍我真心...