第10章 概率分析與數理統計
真對不起興衝衝點進來的人,並沒有更新進度。
(期末考完了還沒回家閒著沒事干)
期末復習的時候把概率系統的學了一遍,正巧又想起了上一篇中提到標准差等等內容時有失偏頗。讓我們來理一理其中那組數據所表達的意義。
原文是這樣的:
“然後,這是120年前的有關男性陰莖長度的調查。樣本2000人,陰莖平均長度為17.8cm,標准差2.5cm”
“那麼,12.7cm,對吧?”
“這個數字在120年前變成了96.4%,也就是說,長度僅僅超過了3.6%的受調查者。而且,遠遠低於偏差下限,和平均值的差甚至比標准差大了一倍多,完全脫離了正常范疇。也就是說,和正常相比小的可憐的尺寸。畢竟是3.6%,這樣的推測是合理的。”
提煉關鍵信息:均值17.8,標准差2.5,特殊樣本12.7
標准差的意義是什麼呢?具體的可以去百度,簡單來說是方差開根號(方差小學就學過)。但有如果要用來進行參考就不得不提到切比雪夫不等式:
P{|X−μ|<ε}≥1−σ²/ε²
其中X即是文中主角的長度12.7,μ則是該組數據的數學期望(這樣的調查屬於古典概型,其均值即為數學期望)17.8,σ是標准差。
切比雪夫不等式的意義是:在正態分布中(可以想象成中間胖兩頭窄的橢圓形分布),數學期望(文中均值)為橢圓中軸线,橢圓面積就是各樣本的分布情況(簡而言之,越靠中間越多,越靠兩邊越少)。
在這樣的正態分布中,所有樣本有大多數(約75%)在均值上下兩個標准差范圍內;絕大多數(約88.9%)在均值上下3個標准差范圍內……
簡而言之,在這個橢圓中隨機取一個點,因為橢圓中間寬兩頭窄,這個點落在橢圓兩邊的幾率較小,且越靠近邊緣幾率越小。其具體概率可以通過切比雪夫不等式算出。
(其實正態分布並不是橢圓,但亂傳無關的圖P站會刪掉,所以只能用形狀相近的橢圓來舉例子了)
主角長度X(12.7)-(均值μ)17.8並取絕對值得ε=5.1,這便是72號樣本在這組數據中距離中线(均值)的距離。
而標准差……在寫的時候對詳細情況欠缺考量,考慮到在2倍標准差范圍內的數據應占到75%,我想標准差σ=1.3(15.2cm—20.4cm的人數占75%)更現實一些。
那麼我們就已經湊夠計算所需的所有要素了。由不等式得,該組調查中數據落在均值±5.1(12.7以下或23.9以上)以外范圍的概率P=【(1.3)²/(5.1)²】=6.475%
(上文給出的公式計算的是以內的概率,這里算的是以外所以不需要1-)
而因為計算所得的范圍是橢圓兩頭,所以單獨考慮一邊(即像主角一樣較短的這邊)還需吧概率除以2=3.237%
也就是說,在本次調查中,比主角更短小的概率只有3.237%,接近文中的3.6%(我估的還挺准的嘛)
雖然這只是在理想正態分布的情況下對概率進行的估算,並不代表實際結果,但畢竟是空想出來的東西。。。就當是這樣吧。
嗯,以上大概就是一大二學生在考完後閒得無聊時得出的研究成果,沒有任何參考價值。但是我就是看著這樣的數字反而會興奮起來。百分數真是個好東西。