常態分佈係科學入面最常用嘅概率分佈之一,如果由一個常態分佈嘅總體嗰度抽樣,個變數嘅平均值會係出現得最密嘅數值,低過平均嘅數值同高過平均嘅數值出現嘅機會率一樣,而離平均值愈遠嘅數值,抽到出嚟嘅機會率就愈低,如果按住個樣本畫一個概率分佈圖(打橫個條 X 軸係「個變數嘅可能數值」,而打戙嗰條 Y 軸係「每個數值出現嘅機會率」),一個常態分佈會俾出一條好似鐘噉嘅形狀嘅線[1]:
譬如話以下呢個情況噉:想像有生物學家想研究成年中華白海豚嘅身長,但佢冇可能捉嗮世界上咁多隻白海豚遂隻遂隻嚟度佢哋幾長,於是乎佢就抽個樣本出嚟,用個樣本嚟估計全世界嘅白海豚嘅身長;呢個樣本入面有 20 隻白海豚,佢哋嘅平均身長係 2.2 米,唔係隻隻都啱啱好 2.2 米長-有隻係 1.8 米長,有隻係 2.6 米長呀噉-但一隻白海豚身長高過呢個值嘅機會率大致上等如佢身長低過呢個值嘅機會率,而且離 2.2 米愈遠嘅數值出現嘅機會率愈低。如果畫幅概率分佈圖,「隻白海豚嘅身長」做 X 軸,而「每個身長數值出現嘅機會率」做 Y 軸,幅圖會出一條近似鐘形嘅線。
一般嚟講,做統計嗰陣都會假設抽樣個過程係獨立同分佈(independent and identically distributed,IID)嘅-噉講嘅意思係指,樣本入面每個個體嘅數值喺由個總體嗰度抽出嚟嗰陣嘅概率分佈都係一樣,而且相互之間獨立(independent;一個抽到嘅數值嘅概率分佈唔會影響到下一個抽到嘅數值嘅)。呢個假設慳咗好多時間同精神-如果吓吓做統計都要諗第二個抽出嚟嘅數值同第一個抽出嚟嘅數值嘅概率分佈會唔會唔同咗嘅話,計起統計上嚟就會撈絞得好交關[2]。