什么是垃圾邮件(垃圾邮件判断的算法)

实习编辑 • 2024-06-18 • 电商百科 • 阅读 46

垃圾短信，垃圾邮件和推销的电话使我们深受其扰，不过也有些手机软件助手，可以帮助我们垃圾这些垃圾短信和电话，这些软件的背后的算法是什么？

一黑名单

像360手机卫士这种APP在手机本地或云端保存一份电话的手机黑名单数据，来电的时候手机判断下就可以决定是否为骚扰电话了，本地存储，黑名单的数据量如果很大的话，可能会占内存比较大，不过这个可以借鉴以前的布隆过滤器这种数据结构来解决，但是布隆过滤器有误判的可能，有可能来电非黑名单却当成黑名单进行处理了，这对于拦截软件来说是比较严重的问题，所以可能是多种方法来结合判断，或者对于布隆过滤判断是属于黑名单的电话，再通过一次联网到网上的云端再判断一次是否为真正为黑名单用户，不过这就需要联网，还存在延迟的可能；对于布隆过滤器判断为正常用户的，则一定是正常用户，那么大部分时间是不需要联网判断或结合其他办法判断的。

二规则判断

像很多病毒检测软件，或IDS或WAF软件一样，垃圾短信和骚扰电话也可以建立自己的规则库，通过规则库进行垃圾短信的判断，同样像IDS等软件存在误判的情况一样，垃圾短信采用规则判断的话，也存在一定的误判性，一般也要结合其他的判断规则综合判断。规则有下面几个：

短信中包含特殊词语，比如非法，反动词语。短信发送的号码是群发号码，非我们正常的手机号码。短信很长，包含很多图片表情，网页链接等。电话号码非正常形式，比如+702233等

凡是规则判断，都存在着检测死板，不能检测到不在规则里面的情况，而且会被有心者特意设计避开规则的垃圾短信等。

三基于统计信息进行垃圾短信判断

直观地想一下，垃圾短信，垃圾邮件这些一般都包含特定的词语，或者链接等，那么我们反过来统计邮件中特定的词语的数量，达到一定标准，我们就判断为垃圾邮件。现在对于这种垃圾邮件的判断问题，一般都通过机器学习来解决，在机器学习的算法中，做垃圾邮件判断这个是属于一个二分类问题，可以用很多种算法来解决，常用的有决策树，贝叶斯，SVM，神经网络等，其中贝叶斯算法是属于一个基于统计学的算法，也是本次要介绍的算法。

贝叶斯算法是为了解决“逆序概率”的问题，举个简单的例子，比如我们袋子中有10个红球，8个白球，然后随机从袋子中拿出一个球，问是红球的概率是多少？这是一个非常简单的概率问题，结果就是10/(10+8),这种正向概率问题比较好理解。那么反过来，如果我们只知道袋子中有红球和白球，但是不知道数量和比例，我们拿了几次球，通过拿出这些球的颜色是否可以推断出袋子中两种球的比例那？

贝叶斯算法中有些根据以前经验总结出来的概率，称为先验概率，可以理解成先前的经验的概率，所以叫先验概率，比如清明时节一般会下雨，下雨的概率大概为70%，这就是通过以前的经验总结的；后验概率，是事情发生了，推测可能原因，比如小明迟到了，那么起晚了造成迟到的概率假设为30%，这就是后验概率。条件概率，就是在一个事情假设A发生的情况下，另外一个事情B也发生的概率，记作P(B|A),读作在A发生的情况下，B发生的概率，比如起晚的情况下，小明迟到的概率。 总结一句话：先验概率是经验总结，后验概率是由果推因，条件概率是由因推果。

根据条件概率的定义，可以推导出贝叶斯公式，推导过程在百科里面如下：

说明： 1）P(A|B) = A和B同时发生的概率/B发生的概率，直观想下，B发生的概率一定大于A和B同时发生的概率，相除的含义就是在B发生的概率情况下，有多少A也同时发生的概率，也就符合了条件概率的定义。 2）把除法变乘法就得到了合并后的式子，再变化下，就得到了贝叶斯公式。

可能还比较抽象,举个wiki上的例子：

一所学校里面有 60% 的男生，40% 的女生。男生总是穿长裤，女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生，他（她）穿长裤的概率和穿裙子的概率是多大”，这个就是前面说的“正向概率”的计算。然而，假设你走在校园中，迎面走来一个穿长裤的学生（很不幸的是你高度近似，你只看得见他（她）穿的是否长裤，而无法确定他（她）的性别），你能够推断出他（她）是女生的概率是多大吗？

我们用两种算法进行计算，一是自己直观想，二是用朴素贝叶斯。假设学校一共有U个人，直观想法计算： P(是女生|穿裤子） = 所有穿裤子的女生数量/所有穿裤子的人数 = U*0.4（女生数量）*0.5（一半穿裤子） / (U*0.4*0.5 +U*0.6*1) = 0.2*U /0.8*U = 25%

如果用朴素贝叶斯算法： P(是女生|穿裤子) = P(穿裤子|是女生) *P(是女生)/P(穿裤子) = 0.5*0.4/[(0.6*1 +0.4*0.5）/1] = 0.2 /0.8 = 25% 说明： P(穿裤子） = 穿裤子人数/总人数= U*0.6*1 + U*0.4*0.5/U = 80% 这样看起来，朴素贝叶斯公式也不是很难。

具体来看下垃圾邮件的分类问题：我们用D表示一封邮件，D是由很多单词组成。用f+表示是垃圾邮件，用f-表示是正常邮件，根据贝叶斯公式，问题形式化：

P(f+|D) = P(D|f+)*P(f+)/P(D) p(f-|D) = P(D|f-)*P(f-)/P(D)

四实际操作步骤

1.找到N封邮件，标记好垃圾邮件和非垃圾邮件。 2.对N封邮件进行去掉停词部分，然后采用分词算法做分词。 3.分别计算每个词在垃圾邮件中出现的比例，在正常邮件中出现的比例 4.带入公式算下哪个概率相对大一些，就属于哪个分类。

这里面总结的比较简单，贝叶斯算法，还有很多没有说到，我也理解得不够深刻，先只聊点这种简单的吧。

本文来自投稿，不代表【华信电商网】立场，如若转载，请注明出处：https://www.hn-besturn.com/dianshangbaike/2611.html

展开查看全文

实习编辑

2023年快手618活动什么时候结束？有哪些内容？

上一篇 2024-06-18

普通人怎么成为网红？有哪些要做的点？

下一篇 2024-06-18

羊小咩享花卡提现教程，取现商家曝光了流程！

现在羊小咩大家应该都不会陌生了，在这个软件不仅可以申请贷款，在需要购物的时候还可以再申请一笔消费额度，也就是我们知道的享花卡额度，一般只要我们的信用还算不错都可以申请到3000-10000元不等的羊小咩享花卡购物额度，目前这个额度是可以用于消费的，缺钱的时候我们还可以把享花卡的额度提现出来，那羊小咩享花卡提现秒到的流程是什么呢？下面我们一起来看看把！一、羊小...

娱乐八卦 2024-09-19
微信网页版怎么登录不了？微信怎么解除网页版登录限制

我们的微信如果让别人登录了，其后果是不堪设想的啊，因为我们的微信都绑有银行卡，只要登录了你的微信，银行卡或零钱通里的钱马上会被别人转账转走那么怎么才能防止别人登录你的微信呢？1、不要随便在公共电脑或别人的电脑、手机登录自己的微信。2、有时候由于工作需要，不可避免要在别人的设备上登录微信，例如，你要把自己手机里的照片去照相馆打印，你必须要在照相馆的电脑上登录自...

娱乐八卦 2024-09-19
新加坡投资：探索市场前景和盈利潜力

随着全球化的加速和经济的发展，新加坡成为了一个备受关注的投资目的地。作为一个技术先进、政治稳定、法律完善的小国，新加坡除了拥有良好的投资环境，还有丰富的商业机会和市场前景。本文将着重介绍新加坡投资的两个需求点。需求点一：不断增长的中产阶级新加坡是一座富裕的城市国家，其人均GDP早已超过了大多数国家。近年来，随着中产阶级的不断壮大，新加坡的市场需求也在不断扩大...

娱乐八卦 2024-09-19
说说中差评也就那点事儿

买家买东西并不是只看评论，虽然评论是很重要的一个方面。只要我们卖家做出一定的努力，就能够把差评带给我们的不利影响转变成对我们推广有利的强大工具。买家给差评不外乎三种情况：一，对我们的产品和服务不满意(可分为几个方面，将在下文详细介绍），心里觉得气愤，因而给差评；二，职业差评师为了赚取不正当利益，想借此胁迫卖家；三，竞争对手恶意竞争，因妒生恨。现在根据三种不同...

娱乐八卦 2024-09-19
小店不会装修，装修求高手带

宝贝描述要怎么弄希望哪位朋友指点指点要怎么写O(∩_∩)O查看更多相似文章以上就是小店不会装修，装修求高手带的内容，下面小编又整理了网友对小店不会装修，装修求高手带相关的问题解答，希望可以帮到你。店铺装修怎么找装修工人?1、去装修公司找装修工人。2、到哪里买材料,材料店会有装修师傅的资料。3、去新开盘一年的小区可以找到。4、找已经装修过店铺的老板介绍1、去装...

娱乐八卦 2024-09-19
阿里妈妈冻结的佣金怎么办？如何拿出来？

有些人在阿里妈妈里的部分佣金被冻结了，所以，也不知道怎么办?那么接下来，我们就来讲下，关于佣金冻结的信息，想知道的小伙伴就可以跟着我们一起来好生瞧瞧了，可以帮大家解决下这类的问题。如何拿出来?如果发现了佣金被冻了，建议阅读下淘宝客推广规则，确定推广无违规无作弊，才有可能通过申诉让账户解封拿回自己的佣金。1、首先就是向客服投诉，可以是在线旺旺客服，也可以是电话...

娱乐八卦 2024-09-19
害怕烧钱白忙活?你需要这个直通车技巧

第一，产品需要符合条件。如果店里有很多宝贝，我们并不是每一款都上车去推广，也不能根据自己的喜好来决定推广哪一款。只有有市场趋势的车型才值得推广。如果你的店有你的销量，也可以选择主推模式。要提拔的宝宝必须满足几个条件，这样开车才能有序:1。基本销量:直通车可以做新品引流，但不能做主推车型。经过前期对钱的筛选和衡量，决定更大力度的主推钱。宝宝上车前最好有一定的基...

娱乐八卦 2024-09-19
林炎电商(林炎电商：成功秘诀揭示)

摘要：本文将从四个方面对林炎电商成功秘诀进行探讨，分别是：市场定位，产品策略，客户服务与技术研发。通过详细的分析，我们可以了解到林炎电商成功的原因所在，从而对电商运营有更深刻的认识。一、市场定位1、定位清晰——林炎电商清晰的定位是国内家用电器市场，他们明确自己的目标市场，从而做到了有针对性的市场策略。空气净化器和吸尘器是他们主打的产品，为消费者提供高品质的家...

娱乐八卦 2024-09-19
菜鸟驿站盈利模式菜鸟驿站盈利空间有多大？

作为中国最大的快递代收平台，菜鸟驿站为消费者提供了方便快捷的快递代收服务。但是，许多消费者可能会好奇，菜鸟驿站取件不收费，那么它是如何盈利的呢？今天就为大家揭秘一下菜鸟驿站的几种盈利方式。快递公司的合作费用菜鸟驿站作为一个代收平台，与各大快递公司都有合作关系。快递公司需要向菜鸟驿站支付一定的合作费用，以获得代收服务。这笔费用是菜鸟驿站的重要收入来源之一。菜鸟...

娱乐八卦 2024-09-19
议付信用证是什么意思？国内信用证议付流程介绍

〖产品定义〗国内信用证卖方议付（贴现）是指在议付/延期付款信用证项下，议付（贴现）行在单证相符或者开证行已经承付的情况下扣除议付（贴现）利息后向受益人提供的有追索权的融资业务。在议付信用证项下，只审核单据而未付出对价的，不构成议付。〖产品优势〗办理同业国内证议付业务，属于占用同业授信额度的低风险贸易融资业务（对企业融资而言），有益于降低银行风险资产占用、提高...

娱乐八卦 2024-09-18

什么是垃圾邮件(垃圾邮件判断的算法)

相关推荐