【翻译文章】重新认识一种未被充分利用的概率分布方法

  • A+
所属分类:软件测试
摘要

  泊松分布(发音为“pwas-son”,这里n是发鼻音的)是统计学中的Rodney Dangerfield,在这个领域里,它并没有得到应有的重视。然而,如果运用得当,它能够帮助你更好的作出决策。这里有两个应用实例,通过这些你可能会想到更多能够在你今后工作中应用的方法。

  泊松分布(发音为“pwas-son”,这里n是发鼻音的)是统计学中的Rodney Dangerfield,在这个领域里,它并没有得到应有的重视。然而,如果运用得当,它能够帮助你更好的作出决策。这里有两个应用实例,通过这些你可能会想到更多能够在你今后工作中应用的方法。
大海捞针
  为了进行预防性维护,一个屏幕要拆除框架、进行结构分解、加上一项关键的产品成分,然后与成品进行组合。“我想这就是全部了”,质量经理如是说:“我们让成品通过磁铁,我们已经获得了足够的零部件细节,我们能够将这台显示器恢复到完好如初。现在,我想以此为例看看我们是否获得了全部细节,如果我们想100%确定的话,我们需要多少样本?”
  好的,如果爱意味着永远不要说抱歉,那么统计就是永远不要说你确定——因为没有100%的确定,但是可以接近。
  假设将量产成品按照客户要求的数量进行分类,那么这会涉及到很多批次。定义一个缺陷单元作为一个检测包,其中包含的一个或多个显示器的零部件。如果在一个样本中发现一个缺陷单元,你就能得出这样的结论:磁铁并不完全有效。到底需要多少样本才能让人相信你磁铁检测是有效的呢?
  回答这个问题的一个有效的模型就是泊松分布,关系式如下:

【翻译文章】重新认识一种未被充分利用的概率分布方法

  这里e是自然对数的底数(e = 2.718), λ是泊松分布的平均值或期望值(一般的评价n个产品,n就是样本数;p是不良率),x是检出显示器被拆分的零部件数量。
  因为如果发现缺陷单元就要得出磁铁检测并不完全有效的结论,在早期的模型中x设定为0,这样等式化简为:

【翻译文章】重新认识一种未被充分利用的概率分布方法

  这里P是产品投放市场时你能接受或需要减少的概率。
  举例来说,如果真实不良率是1%(p = 0.01),也就是说1%的完成品检测包中至少包含一个不良零部件,样本数量是100的话,那么 np =1, P = 0.368。这就是这一批次产品因错误放行而流入市场造成不良的几率。
  看到这么高的风险你可能会觉得不舒服。如果想替换掉0.368,你想让风险系数降低到比如说0.05,那么你能通过先前的等式算出正确样本的数量,n:

【翻译文章】重新认识一种未被充分利用的概率分布方法

  然后将风险系数0.05作为概率值P代入到等式中,如果真实不良率仍为1%,不良概率为5%的检测样本所需的数量为:
【翻译文章】重新认识一种未被充分利用的概率分布方法
  如你所看到的,选择样本的大小要由能够接受或放行到市场的风险和一定比率的不良率决定。这些因素怎么选择?那就要看费用和风险的综合结果
  从负面宣传和消费矛盾角度来看,什么是放行不良产品到市场的费用?是健康或安全角度么?相反的,什么是销毁一批产品的费用呢?这样的样本大小的定义并不单纯是一个统计结果了,而是由统计模型支撑的选择。
  提供多重选择是更有用的,这样决策者就能从正反两方面来考量可替换的样本计划,通过下面的曲线就能够进行这种判断,对于固定的风险概率P,样本大小就由假设的真实不良率决定。当实际检出的不良率比预计的不良比例有所下降时,样本的数量会急速增加。图1中曲线所指出的情况为:批次投料时,不允许出现不良单元。期望风险值不同会出现形状类似的一系列曲线。
  基于风险和不良比率的样本大小/ 图1

【翻译文章】重新认识一种未被充分利用的概率分布方法

  粘稠的葡萄干
  一位工艺工程师负责开发一种工艺方法,这种方法是要将含有葡萄干的糖浆涂在早餐甜点上,对于糖浆来说,葡萄干的数量非常少。
  他尽最大可能将葡萄干和糖浆按特殊的比重进行配比,但是却不能准确的在每块甜点上放置2枚葡萄干,这让他非常沮丧,他得出结论是混合不够均匀。然而虽然几经努力实验还是不能成功。
  到底是哪出错了?泊松分布来排忧解难了。假设在混浆罐里的葡萄干数量处于平均水平,也就是他所期望的每块甜点放2枚的水平,他能期待的葡萄干处于哪种分布状态要依赖于机会变动。
  再回想一下泊松分布的公式:
【翻译文章】重新认识一种未被充分利用的概率分布方法
  这里,如果期望的平均值是1,等于每个甜点上涂有2枚葡萄干。如果你想知道在理想混合状态下有多少甜点的表面会准确涂有2枚葡萄干(x=2),计算如下:

【翻译文章】重新认识一种未被充分利用的概率分布方法

  这也就是说,大概有27.1%的甜点上会准确的涂有2枚葡萄干。
  表1中给出的是在理想混合状态下葡萄干的完全分布数据。注意这里只有涂1枚葡萄干的甜点的比例与2枚的一样(27.1%),没有葡萄干的甜点比率为13.5%,还有另外1/3的甜点上涂葡萄干的数量多于2枚,还有将近5%的甜点上会有5~6 枚葡萄干,涂有7枚葡萄干的甜点就会非常少了。
  葡萄干分布表/ 表1
【翻译文章】重新认识一种未被充分利用的概率分布方法
  那么结论呢?如果市场变动要求每只甜点上准确涂有2枚葡萄干的,那么就需要进行工艺改动了,所以你最好能有个装置可以把葡萄干分散的混在糖浆里。
  如果你都理解了,谢谢。现在,你可能会想在什么情况下可以使用泊松分布或者需要用泊松分布去考虑问题。
  一般来说,如果是偶然事件的数据,跟整体量产的关联性不大,对于这种问题而言,那么泊松分布是唯一有效的分析方法(第一个例子中的显示器部件和第二个例子中的葡萄干)。从你感兴趣的统计学书中你还能找到一些其他的假设。
  泊松分布的模型是你魔术袋里的一个非常有用的东西。
  • 我的微信
  • 请务必准确填写验证信息
  • weinxin
  • 我的微信公众号
  • 提供本博客以及生活资讯
  • weinxin
avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: