贝叶斯概率分析下的客户评价

在网上购买了一本二手书。有三个卖家以基本相同的价格出售这本书。以下是它们的评级情况：

85,193条评论中有94％为正面评价
20,785条评论中有98％为正面评价
840条评论中有99％为正面评价

哪个卖家可能提供最好的服务？在假设具有最高百分比正面评价的卖家是最好的之前，请考虑以下更简单的情景。

假设一个卖家有100条评论中的90条为正面评价。另一个卖家只有两条评论，都是正面评价。你可以说一个卖家有90％的认可度，另一个卖家有100％的认可度，所以有100％认可度的卖家更好。但这没有考虑到一个卖家拥有的数据要比另一个卖家多得多。你可以相对确信第一个卖家的90％客户满意度。对于另一个卖家，你并不真正了解情况，因为你只有两个数据点。

贝叶斯观点自然地将数据的数量以及其平均值纳入考虑。让θA表示对公司A的服务满意的客户的概率。让θB表示对公司B的服务满意的客户的概率。假设在我们看到任何评论之前，我们认为所有评级是等可能的。也就是说，我们从一个均匀先验分布θA和θB开始。均匀分布与beta(1, 1)分布相同。

在观察到90个正面评价和10个负面评价之后，我们对θA的后验估计具有beta(91, 11)分布。在观察到2个正面评价之后，我们对θB的后验估计具有beta(3, 1)分布。从θA中随机抽取一个样本大于从θB中随机抽取的样本的概率为0.713。也就是说，从平均认可度较低的卖家那里可能会获得更好的服务的机会较大。

现在回到我们最初的问题。哪个卖家最有可能满足客户？

假设在θX、θY和θZ上有均匀先验分布，它们分别表示每个卖家的良好服务的概率。这些变量的后验分布分别为beta(80082, 5113)、beta(20370, 417)和beta(833, 9)。

这些beta分布具有如此大的参数，以至于我们可以用具有相同均值和方差的正态分布来近似它们。beta(a, b)随机变量的均值为a/(a+b)，方差为ab/((a+b)2(a+b+1))。）方差最大的变量θZ的标准差为0.003。其他变量的标准差更小。因此，这三个分布在它们的均值处高度集中，几乎没有重叠的支持区域。因此，从θX或θY中随机抽取的样本不太可能比从θZ中随机抽取的样本更高。

一般来说，仅仅根据平均值可能适用于大量客户评论的情况。但是当评论数量很少时，仅仅根据平均值可能会导致误导。

作者：John D. Cook 来源：johndcook.com 翻译：西墙网

发表回复 取消回复

发表回复取消回复