注册 投稿
经济金融网 中国经济学教育科研网 中国经济学年会 EFN通讯社

条件概率和先验概率的迷惑

jasoniou:

看了很多张五常的文章以后,思考一些经济学或者统计学的问题,都试着从最简单处入手。
一次,在听一位英国帝国理工大学的教授来我们学校讲学,讲的主要是经济计量学的建模,以及一些具体应用实例,没想到听报告过程中,一直在思考一道最简单的概率问题。关于“抛硬币”试验的概率问题。
问题是这样的:
1、多次抛硬币首先是一个贝努利试验,独立同分布的
2、每次抛硬币出现正、反面的概率都是1/2
3、当然硬币是均匀同分布的,而且每次试验都是公正的
4、在上述假设下,假如我连续抛了很多次,例如100次,出现的都是正面,当然,稍懂概率的人都知道,这是一个小概率事件,但是小概率事件是可能发生的。我要问你,下次也就是我抛第101次,出现正、反的概率是不是相等。我认为是不相等的,出现反面的概率要大于正面。我的理由是,诸如“抛硬币”等独立同分布试验都有无数人试验过,而且次数足够多时,正、反面出现的概率应该是逼近1/2的。也就是说,这个过程,即使是独立同分布的试验它也是有概率的。
5、提出这个问题之后,我请教了很多同学和老师,大部分同学一开始都是乍一听这个问题,马上对我的观点提出批判,给我列条件概率的公式,举出种种理由,不过都被我推翻了
很巧的是,没几天,我在图书馆过期期刊阅览室找到一篇关于独立同分布的newman定理
推广到markov链过程的文章,见97年《应用统计研究》,我看不大懂,复印了下来,去请教
我们系数理统计方面比较权威的老师,他的答复我基本满意。他将数理统计可以分为两大类:频率统计学派和贝叶斯统计学派。目前,国内的数理统计主要是频率统计。又给我分析了什么是 先验概率,先验概率和条件概率有什么区别,他认为:在“抛硬币”试验当中,硬币的均匀分布和抛的公正是先验条件或先验概率,但是抛100次正面却是条件概率,接着他又解释了概率的记忆功能,他讲当贝努利试验次数不够大的时候,它不具有记忆功能,次数足够大的时候,也就是服从二项分布时,具有记忆功能。这时,连续抛很多次正面就可以算作是先验概率。
但这样,我又不懂了。我认为,即使只刚抛过1次,如果考虑这个过程的话,对第二次的结果也应该是有影响的,你们认为呢?这个问题,这位老师也没能解释好。
研究这个问题的启示或者意义:
1、推翻了一些东西,可能很大,也可能是我牛角尖钻的太深了
2、一个试验,我在一间屋子里做“抛硬币”的试验,我“一不小心”连续抛出了100次正面,这里请你不要怀疑硬币质地的均匀和我抛法的不公正,这时,你推门进了实验室,我和你打赌,下次抛硬币会出现反面,给你很高的赌注。因为我知道我已经抛了100次正面,在这个过程中正反面出现的概率是要往1:1均衡的。但是我不会告诉你,我已经连续抛了100次正面。你当然认为正反面出现的概率是1:1,而且你的理论依据也是正确的。但是,你的正确的理论可能会使你输钱的。
3、研究这个问题,我是想提出两个问题:其一,正确的理论可能得不出正确的结果,其二,信息的不对称问题。

希望大家能救救我,别让我越陷越深;也希望感兴趣的同学能和我一起探讨这个问题。
我是东北财经大学 2000级 统计学专业的研究生
e-mail: fat@hao.net.cn


bam119:

结果你“一不小心”连续抛出了101次正面,不好意思,你输的,拿钱来吧


I.Lo:

Can you give a formal proof of why the probability of tail turning up after 100 heads is bigger than the probabilty of a head turning up in the 101st trial? Notice that for both events, their joint probability is equal:
P(100 heads and 101st is head)=(1/2)^101.
P(100 heads and 101st is tail)=(1/2)^100*(1-1/2)=(1/2)^101.

By definition of independence, the probability of tail turning up conditional on the occurence of 100 head is equal to the marginal probability of tail turning up. You can say independence is a strong assumption, but this is what you imposed on your question.

I guess you may have thought the following way (correct me if I'm wrong):
(1) After N trials (in your case N=100), the empirical probability of head is 1.
(2) We know that in the limit (with infinite number of trials) the probability of having head has to be 1/2.

So you think that we must have probability of tail>1/2 in the subsequent trials tto make both (1) & (2) satisfied.

The problem of this arguement is that, no matter how large N is (as long as it is finite), its weight in the infinite experiment is virtually zero!


DNKM:

逼近要多近?足够有多够?永远有多远?

————————————————————

既然系里的权威都没有说出个所以然,我就放心大胆地说了,反正错了也有个垫背的。

Jasoniou,你试过抛硬币吗?

一、
考虑一个4次的抛币实验,有16种可能的路径,每种路径的出现是等概率的,你会发现其中只有6种情况是正反面次数相等,也就是说,概率为37.5%,小于次数不相等的概率。

二、
抛硬币太累,用Excel来模拟这个过程。用 int((Rand()-0.5)*2-1)产生仅由数值1、-1组成的随机数列。假定1代表正面,-1代表方面。对这个数列的前n(n=1,2,……)个求和,这个数值代表了前n次抛币正面比反面多的次数,负数代表反面比正面多的次数,如果正面、反面次数相等,那么数值应该是0。

请参看附带文件,那是我模拟3000次抛币的结果图。真正正反面相等的次数是非常少的。

确实,曲线在围绕正反面次数相等这个轴,但有超出一般想象的高高的山峰和深深的低谷,而且这种围绕不是均匀弹簧状的,在大多数阶段中,总是有一面领先。

3000次还不算足够?那么你可以再多试,只要你的电脑运算能力足够,但最终的结果还是大致如此。在大多数时候,某一面总是在一个阶段中连续领先。

据说(我没有证明过),在10000万次的抛币中,其中一侧在9930次中领先、而另一侧在70次中领先的概率大约是10%。

这能不能算是逼近?

逼近要多近?

三、
假定抛币,现在正面比反面多出100次,那么在接下来的“足够多”次数的抛币中,出现累计正面比累计反面次数多10000次的情形的概率是多少?答案是1。

出现多1000……000次的概率是多少?答案还是1!

我们至少不能否认一种理论上的可能性,我们甚至可以有一个更强的结论:假定抛币,现在正面比反面多出100次,那么在接下来的“足够多”次数的抛币中,其中一段出现连续正面N次(N为一有限自然数)的情形的概率是多少?答案是1。

因为我们说要抛“足够多”次!尽管连续出现10000次正面的概率及其微小,但不等于0!你不能在概率意义上否认在“足够多”次数的情况下不会出现这种情况。

足够有多够?

四、
问题的另一面是:在“足够多”的抛币中,正面和反面累计次数的差额永远不等于0的概率是0。

但我们不知道这个“永远”在现实中将会是多长。

你老师所说的记忆,也是建立在“足够”这个基础上,对于任何一个有限次数的抛币,是否足够满足这个“足够”呢?

永远有多远?

五、
一个不知名的中学生说过一句知名的话:“无穷大是这样一个地方,不能发生的事在这里会发生。”

而另一位无名氏是这样认为:“无穷大是一个没有墙壁或天花板,没有地板的房间。”

六、
但愿没有使你更迷惑。


jasoniou:
 
条件概率和先验概率的迷惑(2) 向 I.Lo请教  
首先很感谢您的作答,我的思路正如您所说的(1)、(2)必须同时满足。
{(1) After N trials (in your case N=100), the empirical probability of head is 1.
(2) We know that in the limit (with infinite number of trials) the probability of having head has to be 1/2}.
我一直都承认:
P(100 heads and 101st is head)=(1/2)^101.
P(100 heads and 101st is tail)=(1/2)^100*(1-1/2)=(1/2)^101.
IS TRUE!
的确连续出现100次正面,是我做的一个强假设。很遗憾现在我还不能用正规的数学公式给出您有力的证明(不过我会努力的)。这里我补充一个新的问题。假如在上面的试验当中,同样的强假设,我抛出了100次正面,这时您进来了,我和您赌下100次抛硬币过程中,正、反面出现的概率。我凭借先验信息,预测下一百次,正、反面的概率一定偏离1/2。(如果100不够大,我们研究问题方便,可以把100扩大到1000,当然这时我的假设也是您进来之前,我已经连续抛了1000次正面)。您当然按照您的先验信息或应该说是先验知识认为,概率为1/2。我认为正面出现的概率远小于1/2。
我相信您一定还会对我的强假设提出质疑。
但是,我要强调:小概率事件是可能发生的
我也不排除你以在这2000次实验中,反面出现的概率就是1/4为一小概率事件来反驳我。
另外,有些东西的确是很难证明的,例如经济学中,收入增加后,消费也会增加,但消费的增加一定小于收入的增加,没有人证明过它成立,但大家就都这么用着。你认为呢,您能证明吗?
D.J.Newman有一个关于独立Bernoulli试验中关于连续成功次数的一个极限定理,表达式很复杂,不能写到这里(我可以给你发到信箱),我不清楚它是对我观点的一种支持或者正好推翻我的谬误。
还请大家不吝赐教,不甚感激!


dzz:

jasoniou,给你捣捣乱:你又怎么知道你手中的硬币有没有被人抛过?如果有的话,岂不影响你的结果?

言归正传,我同意I. Lo。


jasoniou:

 Re:条件概率和先验概率的迷惑,回复:dzz
我很同意你的这个看法,我也想过你提出的这个问题
所以,更加找不到答案。
我的这枚硬币我又怎么知道以前,或者在我抛之前,没有被人抛过10000次反面呢?我不清楚…… 或者即使是一枚新的硬币,我们又何尝不可以去假设呢。
我希望有朋友能试我信服我是怎样错的。这样我们学的统计知识才是正确的,否则我对了,不就很多人都错了吗?


I.Lo:

Let p be the probability of head.

I think you've mixed up concepts in bayesian and classical statistics.
In classical statistics, p is treated as a parameter.
In Bayesian statistics, p is treated as a random variable. We update the distribution of p using the realization in the experiment. The resultant distribution is called the posterior distribution.

In the coin flipping example, if you assume p=1/2 is GIVEN, classical statistics gives you the joint probability, conditional probability and marginal probability. Therefore under the independence assumption, conditional probability of EVENT {101st is tail| first 100 are heads} is (1/2).

In Bayesian statistics, we are interested in PROBABILITY DISTRIBUTION of p. The probability of p changes with different realization. However, even in bayesian statistics, your conjecture is wrong. Given that you have so many realizations of head, the posterior distribution of p after updating is larger than 1/2.

A very important point is that if you use Bayesian statistics, you cannot say that p is known to be 1/2. It is a random variable. The only thing you can say is that the prior of p is equal to some distribution. If you like you can use p=1/2 as prior, which is a degenerate distribution.

Assuming p=1/2 in classical case implies that the coin is KNOWN to be fair.
Using p=1/2 as a prior in Bayesian case implies that fair coin is your initial guess.

In your example, if you assume the coin is KNOWN to be fair (classical case), the probability of having head in 101 trail must be 1/2 by independence.

However, if you assume the fairness of the coin is UNKNOWN (Bayesian case), then you have a different prior from your gambling partner. You will guess the probability of having head in 101 trail > 1/2.

When you will guess the probability of having head in 101 trail < 1/2 I don't know.


jasoniou:

 Re:逼近要多近?足够有多够?永远有多远?
谢谢你的观点,很受启发,你研究问题的思路比我开阔多了
我试过抛硬币,不过只抛了5次,没有抛第6次,前5次都是正面。试验是在课间休息时做的,之所以没有抛第6次,一是因为我问周围的同学,你猜我下把扔出正面还是反面,很多人说反面,我说为什么,他们说不清楚,我也说不清楚。再一个原因我为了显示我的技艺高超,连续抛5次都是正面(仿佛赌技似的),赶快见好就收。平日我喜欢学周润发,在上课时把硬币在指缝见来回转,英雄的形象不能受损啊。再举一个例子,假如我在寝室一个人扔飞镖(我的飞镖盘特别小,而且是磁铁的,可能打上去都没粘住,所以能粘上就算成功了),我如果飞了很多次都没粘上,我会一直扔下去,随便瞄一眼,我相信即使瞎猫碰上死耗子也会成功一次。很多人一起扔,即使成功了三次,我也不会再扔,我是见好就收的;如果三次都没粘上,我也不扔了,虽然我知道一直扔下去,肯定会有一次是成功的。就像抛硬币一样,抛了很多次正面,而且正面出现的次数越多,我预测下次出现反面的概率(这处用"可能"也许更好)越大。我猜不单单是我,很多人也象我一样在决策中要考虑先前的一些因素。有很多人是"栽在","最后一次"上的。所以聪明的人总是见好就收的,不过我例外,我可不算聪明。
"一个4次的抛币实验,有16种可能的路径,每种路径的出现是等概率的,你会发现其中只有6种情况是正反面次数相等,也就是说,概率为37.5%,小于次数不相等的概率。"IS TRUE ,但是,奇数次试验呢,是不是相等的概率为0,这里又存在一个界定问题,0.5附近多少就算是正反的概率相等呢,我们可以姑且按95%的置信度来界定。还有顺着你的思路,其实不同次数的试验,每条路径是等概的,但正反相等的次数的概率是不固定的,我没有验证,我猜想应该是以0.5收敛的,按照你的模拟,我的猜想是错误的。但你的结论还是以偏盖全的,我们可以分别列表观察或采用什么方法分析以下,正反相等是不是以某个概率收敛。
你的模拟实验很好,我会实践的,目前还没有弄明白,我会再考虑,惭愧。请多指教。
"曲线在围绕正反面次数相等这个轴,但有超出一般想象的高高的山峰和深深的低谷,而且这种围绕不是均匀弹簧状的,在大多数阶段中,总是有一面领先"。
这说明了什么问题呢?你是反对我的观点,还是认同我。因为别人都觉的,1/2,无论条件1/2。
"3000次还不算足够?那么你可以再多试,只要你的电脑运算能力足够,但最终的结果还是大致如此。在大多数时候,某一面总是在一个阶段中连续领先。"你是想当然,还是依据什么证明的?
"我们至少不能否认一种理论上的可能性,我们甚至可以有一个更强的结论:假定抛币,现在正面比反面多出100次,那么在接下来的"足够多"次数的抛币中,其中一段出现连续正面N次(N为一有限自然数)的情形的概率是多少?答案是1。"
你的上述结论正是Newman定理关于贝努利试验连续成功次数概率为1的定理的描述,不过他的公式我不理解,我并没有反对他的观点,我和他和你在这方面的看法是一致的。
到底"逼近要多近?足够有多够?永远有多远?"你认为呢?
逼近程度可以用置信度来刻画,你可以根据研究问题的方便,选择需要的置信概率。
如果把实验次数可以看作样本的话,大样本是很容易界定的,不同的统计检验方法要求的大样本数目是不同的。所以在判别检验中才会用很多经验值来作为检验值。这0样就足够了。
永远有多远,你如果是女孩,你可以告诉你的男朋友,你如果是男孩,你可以去问你的女朋友。
我想呢,逼近不需要很近,足够也勿需太多,说明问题足矣,永远有多远呢,我至今还没人请教。

至于我们老师讲的"记忆"功能,我只在几本杂志上见过,并不懂。不过依我浅见,即使只有一次试验,也是有记忆功能的。你引用的无穷大的概念很美。

有些东西是没有办法用数字衡量的,我认为,否则你说或许、也许、大概等等,他们的具体概率是多少,你能计算出来吗,哪个更大那么一点点呢?


niou:

我在"继续扔硬币"的文章中,提出了新的问题,对于那些问题的处理,我想我们是否运用了一个先验信息(无穷多次正反比为1/2).,我的问题,还希望感兴趣的朋友,继续思考.


DNKM:

Jasoniou,抱歉在前一个跟帖中用如此非科学的语言对你进行回复,当时我把他当成一个数学趣题了。

I.Lo的证明有没有错?如果不对,能否给出一个较正规的证明?

我觉得你应该反思正、反概率趋近0.5的含义。请注意I. Lo最后那句话:“The problem of this arguement is that, no matter how large N is (as long as it is finite), its weight in the infinite experiment is virtually zero!”极限定理是用相对数表达的,而不是绝对差额,绝对差额会被淹没在一个更大的分母中,以满足任何小的ε的要求。如同我上次那张示意图,无论总共抛多少次,绝对差额与中心轴的绝对距离并不一定要缩小,扩大也是常事,差额就围绕着中心轴波动,只是这个绝对差额同抛币总次数相比而得到的分数,肯定不会越来越大。

“假如在上面的试验当中,同样的强假设,我抛出了100次正面,这时您进来了,我和您赌下100次抛硬币过程中,正、反面出现的概率。我凭借先验信息,预测下一百次,正、反面的概率一定偏离1/2。”你这里的先验信息是什么?

我想你在抛币开始之前,你的先验信息是未来的200次抛币中,正、反面的次数大致相同。

然后你抛币,结果得到了100个正面,此时,你的先验信息是什么?还是总共200次,正反大致相同吗?如果是,为什么?现在前100次已经不是随机变量了。


wuming:
 
实际上,I.Lo已经说的很明白了。他的第一次回答,是要你好好理解极限的概念。第二次回答则从概率论的角度进行了说明。这两个你看懂一个,你的问题就解决了。前提已经是独立了,你们的权威还谈什么记忆功能,根本是在扯淡!


参阅:http://bbs.efnchina.com/dispbbs.asp?BoardID=57&id=8768

文章评论
关注我们

快速入口
回到顶部
深圳网站建设