在网上购买了一本二手书。有三个卖家以基本相同的价格出售这本书。以下是它们的评级情况:

哪个卖家可能提供最好的服务?在假设具有最高百分比正面评价的卖家是最好的之前,请考虑以下更简单的情景。

假设一个卖家有100条评论中的90条为正面评价。另一个卖家只有两条评论,都是正面评价。你可以说一个卖家有90%的认可度,另一个卖家有100%的认可度,所以有100%认可度的卖家更好。但这没有考虑到一个卖家拥有的数据要比另一个卖家多得多。你可以相对确信第一个卖家的90%客户满意度。对于另一个卖家,你并不真正了解情况,因为你只有两个数据点。

贝叶斯观点自然地将数据的数量以及其平均值纳入考虑。让θA表示对公司A的服务满意的客户的概率。让θB表示对公司B的服务满意的客户的概率。假设在我们看到任何评论之前,我们认为所有评级是等可能的。也就是说,我们从一个均匀先验分布θA和θB开始。均匀分布与beta(1, 1)分布相同。

在观察到90个正面评价和10个负面评价之后,我们对θA的后验估计具有beta(91, 11)分布。在观察到2个正面评价之后,我们对θB的后验估计具有beta(3, 1)分布。从θA中随机抽取一个样本大于从θB中随机抽取的样本的概率为0.713。也就是说,从平均认可度较低的卖家那里可能会获得更好的服务的机会较大。

现在回到我们最初的问题。哪个卖家最有可能满足客户?

假设在θX、θY和θZ上有均匀先验分布,它们分别表示每个卖家的良好服务的概率。这些变量的后验分布分别为beta(80082, 5113)、beta(20370, 417)和beta(833, 9)。

这些beta分布具有如此大的参数,以至于我们可以用具有相同均值和方差的正态分布来近似它们。beta(a, b)随机变量的均值为a/(a+b),方差为ab/((a+b)2(a+b+1))。)方差最大的变量θZ的标准差为0.003。其他变量的标准差更小。因此,这三个分布在它们的均值处高度集中,几乎没有重叠的支持区域。因此,从θX或θY中随机抽取的样本不太可能比从θZ中随机抽取的样本更高。

一般来说,仅仅根据平均值可能适用于大量客户评论的情况。但是当评论数量很少时,仅仅根据平均值可能会导致误导。

作者:John D. Cook 来源:johndcook.com 翻译:西墙网

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注