呢篇文係一篇好文。想知更多,請撳呢個掣。

訊息論

出自維基百科,自由嘅百科全書
Jump to navigation Jump to search

喺 2005 年互聯網某一部份嘅地圖;每一個節點代表咗一個 IP 位址,每條線代表咗兩個 IP 之間有傳訊息,條線嘅長度代表咗兩個 IP 之間嘅延遲。

訊息論粵拼seon3 sik1 leon6英文information theory)係一個研究訊息(又叫「資訊」)要點樣量化、儲起、同傳達嘅數學理論[1][2]。呢個理論由美國數學家電機工程師克勞迪山農(Claude E. Shannon)喺 1948 年諗出嚟,當時山農喺度研究訊號處理,跟手出咗佢篇著名論文《A Mathematical Theory of Communication》(粵文通訊嘅數學理論),喺篇文當中提出咗呢個理論[3]。自從嗰時開始,訊息論就有一路發展,仲俾人廣泛噉用落去好多領域嗰度,好似係「啲數據要點壓縮」同埋頻道容量等嘅研究課題都會用到訊息論。包括咗旅行者計劃CD手機互聯網語言嘅研究、同對黑洞嘅理解等嘅多種技術同理論都係有訊息論先至搞得成嘅[2]

訊息論嘅核心概念係所謂嘅(entropy)[4]。同物理學上所講嘅唔同,訊息論當中嘅「熵」係一個指標,用嚟量度一個有隨機性喺入面嘅變數或者過程當中帶有幾多不確定性(uncertainty)喺入面。舉個例說明,想像家吓掟一個銀仔同擲一粒骰仔,假設個銀仔同粒骰仔係冇出千嘅,前者有 50% 機會率係公、50% 機會率係字,而後者有 1/6 機會係擲到「1」、1/6 機會係擲到「2」... 如此類推。後者嘅情況有更加高嘅訊息熵-因為後者當中有更多可能性喺度,所以不確定性亦都更加大。亦都因為噉,「話俾人知掟銀仔嘅結果」所俾嘅訊息少過「話俾人知擲骰仔嘅結果」所俾嘅,因為喺後者情況當中,「提供訊息」所消除嘅訊息熵更加多。就係噉,訊息論做到將「訊息」呢一個概念量化,令到訊息成為一個喺科學上可以被研究嘅對象[5][6][7]

訊息論作為一個研究領域處於數學統計學電腦科學物理學[8][9]電子工程神經科學認知科學、同人工智能[10]等領域嘅交界,亦都有俾科學家應用落去做推論統計學自然語言處理[11]密碼學、同生物資訊科學等嘅領域嗰度[12][13]。而且廿一世紀嘅訊息論仲發展咗多個子領域出嚟,成為咗一個獨立嘅專門領域[14]

概論[編輯]

山農嘅相

定義[編輯]

內文: 訊息

訊息論研究訊息(information)嘅傳遞、處理、提取、同運用。抽象啲講,訊息可以定義為「不確定性嘅減少」(reduction of uncertainty),山農喺佢篇論文入面係噉樣諗嘅:佢提議將「訊息」諗做一個包含咗多種可能性嘅,傳訊息嘅人會用某啲訊號(signal)將訊息經由有雜音嘅管道傳出去;收訊息嗰個人跟手要由收到嘅訊號嗰度按照佢對嗰種訊號嘅理解重新建構返傳訊息嗰個人想表達嘅內容出嚟;同時,管道嘅雜音會搞到收訊息嗰個人唔能夠完完全全肯定佢收到嘅訊號真係完美反映傳訊息嗰個人想表達嘅內容,頂嗮櫳都衹係做到盡力令出錯嘅機率有咁低得咁低[15]

舉個例說明,想像家陣有一個黑盒,佢裝住咗啲嘢,A 君唔知個盒裝咗乜(有不確定性),但佢識 B 君,而 B 君睇過個盒嘅內容;而又想像家陣 B 君用口講俾 A 君聽個盒裝咗啲乜,喺呢個過程當中,B 君要將自己嘅所思所想轉化做訊號-講嘢嘅(將訊息用訊號表達),而啲聲會由佢把口傳過去 A 君對耳仔嗰度,A 君個就會由聽到嘅聲嗰度解讀返 B 君想表達嘅內容出嚟(重新建構);假設 B 君係靠得住嘅,A 君就可以透過收佢嘅訊號嚟到判斷嗰個盒嘅內容係乜(不確定性減少)。B 君講嘢向 A 君傳遞咗訊息,但係喺現實裏面,呢種做法好多時都係唔完全靠得住嘅(有雜音),例如可能佢哋兩個周圍嘅環境好嘈,搞到 A 君聽錯[16][17]

例子[編輯]

同樣嘅概念可以用嚟理解好多領域嘅研究:

  • 喺做通訊嗰陣,傳訊嘅人會以某啲方法(好似係文字訊號或者摩斯碼呀噉)向收訊嘅人傳達訊號(將訊息用訊號表達),收訊嘅人收到訊號之後要按照佢對嗰種訊號嘅認識解讀傳訊嘅人想講嘅嘢(重新建構),並且知道對方想表達啲乜(不確定性減少)[18]
  • 又或者用神經科學嚟做例子,對視網膜上面每一粒感光細胞喺受到外界嘅刺激嗰陣,會向個腦嘅視覺區域射神經訊號,而個訊號嘅物理性質(例如係頻率)會按照佢感覺到嘅光嘅屬性而有所不同-例如係啲光愈強射訊號嘅頻率愈高(將訊息用訊號表達),呢啲訊號跟住會上腦,話俾個腦知佢睇到啲乜(可能有雜音嘅管道),而個腦本來唔知眼前有啲乜嘅(不確定性),但佢由感光細胞嗰度收到神經訊號,再解讀啲訊號(重新建構),就知眼前有啲乜嘢(不確定性減少)[19]

訊息量[編輯]

訊息論建基於統計學,尤其係概率論(probability theory)。作為一個科學理論,訊息論首要做嘅嘢係將「訊息」呢個核心概念量化。首先,如果話一個過程俾出某啲訊息嘅話,噉啲訊息所描述嘅事件一定係帶有隨機性嘅。冇隨機性嘅事性係唔使要訊息嘅,因為呢啲事件嘅或然率等如一,即係話結果係唔使估都知嘅。因為噉,用嚟量度訊息嘅指標都會涉及份訊息所描述嘅事件嘅機會率同機會率分佈:例如頭先提到嘅訊息熵噉,訊息熵量度一個有隨機性喺入面嘅變數當中含有幾多訊息。訊息熵係個隨機變數嘅概率分佈嘅一個特性,限制住由個獨立樣本所產生嘅數據嘅壓縮率可以有幾高,而相互資訊係兩個隨機變數嘅共同概率分佈嘅一個特性,反映喺一個有雜音嘅管道當中可靠溝通嘅最大可能率(詳情睇下文)。呢啲量度訊息嘅指標令到訊息論成為一個嚴謹嘅科學理論[20]

喺以下嘅內容當中, 會按照慣例當做,因為無論對數基數係幾多, 都會成立(詳情睇對數)。

訊息熵[編輯]

想像家吓掟一個銀仔(睇埋伯努利試驗),幅圖嘅 Y 軸係訊息熵,而 X 軸係「公」嘅機率。由幅圖睇得出,訊息熵喺個銀仔冇出千(「公」同「字」機率相同,都係 50%)嗰時會最大化。
內文: 訊息熵

以下嘅內容係建基於概率論嘅基礎概念嘅。

算式[編輯]

俾是但一個變數,佢會有一啲可能數值,例如「某年某月某日某刻掟某一個銀仔」嘅可能數值大致上有兩個-「公」同「字」。每個數值都會有一定嘅機會率出現,而描述每一個可能數值出現嘅機會率嘅就係所謂嘅概率質量函數(probability mass function)。知道咗某一件事件嘅概率質量函數之後,件事件所帶有嘅訊息熵(information entropy;數學符號係「」)可以用以下呢條式計算[4]

喺呢條式當中, 係指第 i 個可能性發生嘅機會率,而 以 2 做基數嘅對數。成條式用文字解釋就係:「考慮一件事件嘅所有可能性,將每一個可能性嘅機會率嗰個可能性嘅機會率以 2 做基數嘅對數,再將呢啲得出嘅數加埋嗮一齊,再將個答案乘負一變成正數,就會得出件事件所包含嘅訊息熵」。用呢條式計嘅話,「掟一粒冇出千嘅銀仔」(即係話「公」同「字」嘅機會率都係 50%)呢件事件當中帶嘅訊息熵()係[21]

喺直覺上,呢條式係喺度量度緊件事件含有嘅不確定性。科學家之所以會揀用呢條式嚟計訊息熵,係因為喺可能嘅算式當中,得呢條符合佢哋心目中「一條計不確定性嘅算式應有嘅特性」:例如一件肯定嘅事件係理應冇訊息熵嘅-而如果其中一個可能性機會率等如「1」(即係其他可能性機會率冚唪唥等如「0」), 呢條式會俾出「0」;而另一方面,喺每個可能性機會率都一樣(不確定性最大化)嗰陣, 俾嘅數值會最大化[22]

概論[編輯]

  • 訊息熵嘅單位位元(bit)。有啲研究者會用 2 以外嘅數做上面條式個對數嘅基數嘅,不過道理都一樣,例如用 28 = 256 做基數嘅話,條式就會俾出以位元組(byte)作為單位嘅訊息熵[23]
  • 訊息熵算式嘅一個特殊情況涉及一個得兩個可能數值嘅隨機變數,例如「掟銀仔嘅結果」就屬於呢種變數。喺呢個情況下,兩個可能性嘅機率加埋實會等如 1(,當中 係兩個可能情況分別嘅機率),而呢件事件條訊息熵式就係所謂嘅二元熵函數(binary entropy function)。條式係噉樣嘅:
-係將 應用落去「得兩個可能性」嘅情況嘅樣。
  • 想像家吓有一個訊息源,佢傳送一連串有 N 個符號嘅訊息,而每個符號都係獨立同分佈(independent and identically distributed;iid)-指一個符號係乜唔會影響嗰串嘢入面第啲符號係乜,但每個符號嘅概率分佈相同,例如一連串互不相干,每個都係隨機噉揀嘅英文字母-呢串嘢嘅訊息熵係 (當中 係每一個個別符號嘅訊息熵)噉多位元;而如果呢串嘢係同分佈(每個符號概率分佈相同)但係唔獨立(一個符號係乜可以影響第啲符號係乜嘅機率)-例如係一篇用英文寫嘅文章噉,如果佢某一橛係「information」呢個字嘅話,噉呢橛嘅下一格好大可能係一個空位-喺呢種情況下,串嘢嘅訊息熵會細過
  • 如果有個人傳遞 1,000 位元(0 同 1)長嘅數碼訊號,而收訊號嗰個人喺訊號傳出去之前經已完全噉知道嗮每一個位元係「1」定「0」,噉傳訊號嗰個人冇傳達到任何新訊息-因為收訊號嗰個人喺收到訊號前後嘅訊息熵都係「0」,所以呢串訊號嘅傳遞並冇消除任何訊息熵。但如果喺收訊號嗰個人眼中嗰 1,000 個位元每一個都係 50% 機率係「1」、50% 機率係「0」嘅話,噉用 嚟計,佢透過接收呢串訊號會收到 1,000 位元嘅訊息。

聯合熵[編輯]

聯合熵(joint entropy;)係指兩個隨機變數 X 同 Y 嘅共同訊息熵。條式係噉嘅[24]

當中 係指「X 數值等如 x 而同時 Y 數值等如 y 嘅機會率」,而成條式道理同基本嗰條訊息熵式道理一樣,都係諗嗮所有可能性,將每個可能性嘅機率乘以個機率嘅對數,跟手再將所有可能性嘅呢個數加埋一齊。假如 X 同 Y 係獨立(independent;其中一個數值係乜唔會影響另一個數值係乜)嘅,佢哋嘅聯合熵會等同佢哋各自嘅訊息熵相加,噉係因為當兩件事件係獨立嗰陣,以下呢條式會成立[24]

;喺數學上已知,所以綜合呢兩條式,

條件熵[編輯]

假如家吓有兩個隨機變數 X 同 Y,而收訊息嗰個人知道 X 同 Y 唔係獨立,而係有相關嘅-即係 Y 嘅數值係乜能夠一定程度上預測 X 嘅數值係乜。喺呢種情況下,假設而家嗰個人經已知道咗 Y 嘅數值,但要預測 X 嘅未知數值(predicting X given the value of Y),呢種情況下嘅熵就係所謂嘅條件熵(conditional entropy),而喺知道 Y 嘅數值之下預測 X 嘅訊息熵就係「X 喺 Y 上嘅條件熵」(conditional entropy over Y)。舉個例子說明,家吓個人面前有一隻,佢想預測隻狼有冇食佢落肚嘅意慾:根據佢對狼嘅認識,佢知道如果隻狼個樣係「慢慢噉行緊埋嚟,而且開始流口水」嘅話,「隻狼想食我落肚」嘅機率會比較大;而如果隻狼個樣係「打緊喊露,眼尾睄咗我一吓就冇再望」,噉「隻狼想食我落肚」嘅機率會比較細,所以「隻狼個樣」能夠預測「隻狼想食我嘅意慾」。喺呢個情況下,「隻狼想食我嘅意慾」呢個變數嘅訊息熵就係所謂嘅條件熵。

要計條件熵,就會用到條件概率(conditional probability),例如「Y 數值係 y 之下,X 數值係 x 嘅條件概率」( given )係指當 Y 嘅數值係 y,X 數值係 x 嘅機會率。呢個條件熵嘅計法如下[25]

當中 係指「當 Y 數值等如 y 嗰陣,X 數值等如 x 嘅機會率」。呢條式嘅第二行係指「考慮 Y 嘅每個可能數值,再考慮喺每個 Y 可能數值下嘅 X 嘅可能數值,加埋嗮喺嗰個 Y 數值之下每個 X 嘅可能性嘅條件概率乘條件概率對數,跟手再加埋嗮喺 Y 唔同可能數值當中得到嘅呢個值」,而第二行嗰條式之所以可以變做第三行嗰條,係因為條件概率條式:

同時:

相互資訊[編輯]

喺考慮兩個隨機變數嗰陣時,相互資訊(mutual information)指嘅係透過觀察第一個變數能夠得知嘅有關第二個變數嘅訊息。呢個數字可以幫手計點將傳訊號同收訊號嗰時傳到嘅訊息量最大化。假想家吓有兩個隨機變數 X 同 Y,X 相對於 Y 嘅相互資訊係噉計嘅[26]

呢條式有以下呢啲特性:

  • 當 X 同 Y 係完全獨立()嗰陣, 所計到嘅結果係「0」,即係話當兩個變數完全唔啦更嗰時,睇其中一個變數唔會幫到手預測另外嗰個。
  • ,所以喺傳有關 X 嘅訊號嗰陣,知道 Y 嘅數值平均可以慳返 噉多位元。
  • 條式係對稱(symmetric)嘅:

相對熵[編輯]

相對熵(relative entropy;英文又有叫「Kullback–Leibler divergence」)係一種用嚟比較兩個分佈嘅方法[27]:想像家吓有個生物學家研究狼嘅體重,隻隻狼嘅體重都唔同,所以「狼」呢個總體當中喺「體重」上有一個概率分佈-假如有(例如)30% 嘅狼體重介乎喺 80 至 85 公斤之間,有 20% 嘅狼體重介乎於 85 至 90 公斤之間... 等等,噉是但抽一隻狼嚟睇,佢會有 30% 機率係體重處於 80 至 85 公斤之間嘅。個生物學家手上嘅數據會顯示出一個概率分佈(),但呢個分佈未必會等同真實嗰個分佈()。想像而家個生物學上想將佢手上啲數據壓縮(等柞數據易儲啲),個相對熵()量度緊嗰兩個分佈之間有幾大差異,條式係噉嘅[28]

當中 係指「根據 ,X 數值係 x 嘅機率」。相對熵可以按照「平均嚟講知道個真相會做成幾大嘅驚訝」嚟到理解:想像有一個帶有隨機性嘅變數 X,佢真實嘅概率分佈係 ,而家係噉抽 X 嘅數值,如果 A 君知道 嘅樣,而 B 君心目中嘅分佈係 ,噉平均嚟講 B 君會有更多嘅驚訝(更加成日會估錯 X 嘅數值)。所以相對熵條式可以話係反映咗 B 君嘅驚訝減 A 君嘅驚訝。

主要概念[編輯]

訊息源[編輯]

訊息源(information source)係指一個係噉傳送訊號嘅過程,大致上可以分做無記憶同有記憶兩種:無記憶嘅訊息源唔曉用任何方式記住佢自己過去傳過嘅訊息,所以佢喺是但一個時間點所傳嘅訊號唔會受過去傳過嘅訊號影響,佢射嘅訊號係獨立同埋符合某個分佈嘅;相對嚟講,有記憶嘅訊息源能夠用某啲方式記住佢過去傳過嘅訊息,令到過去嘅訊息能夠影響未來嘅訊息[29]

熵率[編輯]

熵率(entropy rate;)係指個訊息源傳送嘅每一個符號嘅平均熵。喺無記憶嘅訊息源當中,呢個數衹係每一個符號各自嘅訊息熵(每個符號都有一啲可能數值,而每個數值都有一定機率出現,可以用返 嚟計)。而當個訊息源係有記憶嗰陣(假設佢嘅概率分佈唔會隨時間改變),就要用以下呢條式計[30]

即係知道咗個訊息源之前傳過乜嘢訊號之後,嚟緊個訊號係乜乜嘅條件概率。呢條式普遍化(generalize)啲嘅話可以變做:

編碼理論[編輯]

編碼理論(coding theory)係訊息論嘅一個子領域,專門研究點樣喺將訊息編碼做訊號嗰陣令效率最大化同令誤差最少化[31]。舉個例說明,「我睇緊維基文」(唐字)、「ngo5 tai2 gan2 wai4 gei1 man2」(粵拼)、同「ngóh tái gán wàih gēi màhn」(耶魯拼音)都係表達緊同一句廣東話句子,不過用咗唔同方法將佢寫低,而呢啲唔同方法喺唔同時地可能效率會唔同,例如如果傳訊嗰個人唔熟唐字輸入法嘅話,要佢用唐字表達嗰句嘢效率就可能會低啲。除咗噉,數據壓縮同錯誤檢測等都係編碼理論上重要嘅課題。

數據壓縮[編輯]

數據壓縮(data compression)涉及傳訊息嘅人嘗試將佢個訊息用少啲位元嚟表達[31]。舉個例說明,家陣 A 君想遠距離向 B 君傳送「wikipedia」呢個字,佢部電腦嘅做法可以係每一個拉丁字母都俾個 5 個位嘅二進制代碼佢,要部電腦內部將個字用一個 45 個位長嘅代碼嚟表達,跟手再傳呢段代碼俾 B 君部電腦,而 B 君部電腦會解讀呢段碼,再顯示出嗰個字;另一方面,A 君部電腦又可以用一個聰明啲嘅方法,常用嘅字母(例如係啲響音)就用 2 至 3 個位長嘅代碼表達,而冇噉常用嗰啲先用 5 個位長嘅代碼,噉傳「wikipedia」呢個字嗰段代碼實會短過 45 個位-用唔同嘅方法入碼能夠幫到手喺傳送訊號嗰陣用少啲位元,喺傳一個單字嗰陣會慳幾個位元,傳幾千幾萬字長嘅文章嗰陣就會慳數以萬計嘅位元,而事實係,現代嘅家用電腦入面閒閒地有幾百幾千個呢啲噉嘅檔案,所以數據壓縮法幫手慳咗好多位元[31]

頻道模型[編輯]

通訊頻道可以按照結構分做好多唔同種,例如係[26]

  • 一條二元對稱頻道(binary symmetric channel;BSC)係指一條頻道每個符號得兩個可能數值,而收到嘅每個符號都有 p 噉大機率會同傳出嘅符號唔同。例如係數碼電腦噉,一部數碼電腦會傳一大柞「0」同「1」做訊號,而收到訊號嘅另一部電腦會解讀呢啲碼,再將收到嘅訊息顯示俾個用家睇,一般嚟講 p 嘅數值低得好緊要,所以大多數時間收到嘅訊號都會同傳出嘅訊號一樣。
Binary symmetric channel.svg
  • 一條二元消除頻道(binary erasure channel;BEC)係指一條頻道每個符號得兩個可能數值,而收到嘅每個符號都有 p 噉大機率會消失咗,收訊息嗰一方收到嘅每個符號都有三個可能數值:1、0、同 e 呢三款,而 e 代表「消失咗」噉解。「消失咗」(erased)代表有關嗰個符號嘅訊息完全消失唔見咗。
Binary erasure channel.svg

頻道容量[編輯]

喺通訊上,傳遞訊號實會用到某啲頻道,例如係將電腦連上互聯網嘅電線又或者係 Wi-Fi 呀噉,但係由現實生活觀察都知,呢啲頻道好多時都唔係完全靠得住嘅,會有雜音干擾到佢哋所傳嘅訊號,令到傳訊變得唔準。所以訊息頻道嘅運作係訊息論實用研究上嘅一環。

家吓想像有人用一條離散嘅頻道做緊通訊。成個過程可以想像為以下呢個模型[32]

Channel model

喺呢個模型入面,X 代表所傳嘅訊息嘅空間,而 Y 代表喺一個單位時間之內透過條頻道所收到嘅訊息嘅空間。而家將 p(y|x) 設為「如果 X 係 x 嘅話,Y 係 y 嘅機率」,p(y|x) 可以想像做條頻道嘅一個固定特徵,代表咗條頻道有幾多雜音干擾:一條頻道雜音愈少,收訊息嘅人理應更肯定佢收到嘅訊息真係表達緊傳訊人想表達嘅內容[33]。喺呢個情況下,研究者想要令到訊息(或者訊號)嘅傳送率最大化,會用 X 同 Y 嘅相互資訊嚟量度訊息傳送率。如果 X 同 Y 係獨立嘅,噉相互資訊會係 0,亦即係話收件人完全估唔到傳訊人講咗啲乜,而相反,如果 X 同 Y 嘅相互資訊數值高,就表示 Y 能夠準確噉話到俾人聽 X 係乜。一個頻道嘅最大傳送率叫做「頻道容量」(channel capacity),可以用以下呢條式表達[32]

頻道容量有以下嘅一個特性:假定一個細過 C 嘅訊息率 R 而編碼誤差有 ε 噉多(ε > 0);只要 N 夠大,噉就實會有一段 N 噉多位元長嘅碼、大過 R 嘅訊息率、同埋解碼演算法能夠將出錯嘅機會率減到 ε 以下。簡單啲講就係,只要傳緊嘅訊息率細過 C 就實有方法可以將出錯率變到有咁細得咁細[32]

應用例子[編輯]

呢張電腦卡內置咗能夠產生擬亂數嘅硬件。

擬亂數[編輯]

內文: 擬亂數產生

擬亂數產生(pseudorandom number generation)喺密碼學上係一個重要課題,指啲人嘗試用電腦產生一啲類似隨機嘅數。呢一個課題喺密碼設計上好緊要,因為完全隨機嘅數字串係最難預測嘅(訊息熵最大),攞嚟做密碼最安全。但喺現實世界當中,電腦產生嘅嗰啲所謂隨機數字唔係真係隨機嘅,例如有好多電腦程式會噉樣做:個程式內置咗一條複雜嘅方程式,當用家要求佢產生一個隨機數字嗰陣,個程式會攞嗰一刻嘅時間做條方程式嘅輸入,再俾返所計出嚟個數做輸出。如果條方程式夠複雜,佢所產生嘅數列望落會好似隨機嘅噉,但實際上呢串數字依然係跟住一啲決定性嘅法則運行嘅,做唔到真正嘅隨機。亦都有一啲程式會運用隨機種子(random seed)做輸入,但就算係噉都仲係做唔到真正嘅隨機[34]

因為噉,密碼學家同電腦科學家有好多都致力研究要點樣先至可以令產生擬亂數嗰時盡可能令訊息熵最大化(令到產生出嚟嘅數列帶有最多嘅不確定性)。訊息熵成為咗一種有用嘅指標,等啲科學家可以量度產生擬亂數嘅演算法嘅表現[35][36]

語言學[編輯]

睇埋:語言學

語言(language)係人類用嚟互相溝通(互相傳達訊息)嘅一種重要工具,所以有唔少語言學家都著力思考點樣運用訊息論上嘅概念了解語言學上嘅一啲現象。例如呢個世界上有好多語言喺組句子嗰陣都係跟主語行先、再有動詞、最後係賓語(subject-verb-object)噉嘅,例如係廣東話同英文都跟呢個做法:

阿明郁腳踢阿松。
A-ming kicks A-chung.

而唔係好似(例如)日文噉用「主語-賓語-動詞」(subject-object-verb):

私は(我)彼を(佢)蹴る(郁腳踢)。

分析呢個問題嘅語言學家指出,訊息論可以解釋點解日文嘅主語同賓語後面要駁唔同介詞(は、を),但廣東話同埋英文唔使。想像家吓有兩個人喺一個好嘈嘅環境下向對方講嘢,講嘅嘢受到雜音干擾,搞到聽嗰個人聽唔清楚句句子嘅主語同賓語其中一個,如果佢哋用嘅語言係「主語-動詞-賓語」嘅話,聽嗰個人會聽到「阿明郁腳踢」或者「郁腳踢阿松」。如果佢哋用嘅語言係「主語-賓語-動詞」嘅話,聽嗰個人會聽到「阿明郁腳踢」或者「阿松郁腳踢」。喺前者嘅情況之下,聽嗰個人淨係靠語序就判斷到郁腳嘅係邊個人,更加能夠準確噉得到訊息[37]。另一方面,用「主語-賓語-動詞」嘅語言就要用介詞嚟標記主語同賓語嘅分別,同時又另外搵啲方法提升自己嘅效率,等用佢哋嘅人有得準確噉傳達訊息,例如日文就有強烈嘅上下文(context;打前或者打後嗰句會影響一句句子嘅意思)使用[38]。以上嘅例子顯示咗,訊息論嘅概念幫到語言學嘅手[37]

神經科學[編輯]

睇埋:神經編碼

神經科學呢個領域專門研究神經系統,其中一個重要嘅課題係有關個點樣處理訊息,令到有腦嘅動物(好似係人類)曉判斷身邊有啲乜嘢。

有神經科學做咗個假說,運用進階訊息論當中嘅訊息最大化原則(Infomax principle)提倡話,個腦查實識得按照收到嘅輸入嚟自我調節,嘗試令到唔同感覺器官等)所俾嘅訊息最大化:喺神經科學當中,用單純嘅相關(correlation)好多時都冇法子準確噉描述神經細胞嘅活動,因為一粒神經細胞嘅反應會同個外界刺激嘅某個特性之間有住直接嘅相關,又會同嗰個外界刺激嘅第啲特性有局部相關,關係好少可會係簡單嘅線性(linear;指簡單嘅比),所以淨係探測得到線性關係嘅相關冇乜用[39]

發光嗰幾個腦區係預設模式網絡(default mode network);好多時,多個距離遠嘅腦區硬係會同時啟動,又或者一個啟動嗰陣另一個硬係會關閉,呢啲腦區就係一個具有某啲共同功能嘅網絡。如果兩個腦區屬同一網絡,噉佢哋之間理應會有相當嘅相互資訊[40]

於是有神經科學家就改用訊息論當嘅相互資訊嚟做量度指標(邊個邊個外界刺激有幾預測得到邊粒邊粒神經細胞嘅活動)-相互資訊能夠探測到非線性嘅關係,幫到手研究一粒神經細胞嘅活動同個外界刺激嘅各種特性之間嘅關係。有研究者用相互資訊做指標發現,神經細胞所射嘅動作電位(簡單講就係電訊號)會按照感官所探測到嘅外界刺激有所改變,而且改變嘅方法係傾向令到傳達嘅訊息量最大化-訊息論當中嗰啲量度訊息量嘅概念幫咗手將神經科學研究嘅對象量化,令到神經科學研究變得更精確嚴謹[41][42]

睇埋[編輯]

參考[編輯]

經典[編輯]

  • Shannon, C.E. (1948), "A Mathematical Theory of Communication" (PDF), Bell System Technical Journal, 27, pp. 379–423 & 623–656, July & October, 1948. Notes and other formats.
  • R.V.L. Hartley, "Transmission of Information" (PDF), Bell System Technical Journal, July 1928
  • Andrey Kolmogorov (1968), "Three approaches to the quantitative definition of information" in International Journal of Computer Mathematics.

出名論文[編輯]

  • J. L. Kelly, Jr., Betbubbles.com, "A New Interpretation of Information Rate" Bell System Technical Journal, Vol. 35, July 1956, pp. 917–26.
  • R. Landauer, IEEE.org, "Information is Physical" Proc. Workshop on Physics and Computation PhysComp'92 (IEEE Comp. Sci.Press, Los Alamitos, 1993) pp. 1–4.
  • R. Landauer, IBM.com, "Irreversibility and Heat Generation in the Computing Process" IBM J. Res. Dev. Vol. 5, No. 3, 1961
  • Timme, N., Alford, W., Flecker, B., & Beggs, J. M. (2011). Multivariate information measures: an experimentalist's perspective. arXiv preprint arXiv:1111.6857.

教科書[編輯]

  • Arndt, C. Information Measures, Information and its Description in Science and Engineering (Springer Series: Signals and Communication Technology), 2004, ISBN 978-3-540-40855-0
  • Ash, RB. Information Theory. New York: Interscience, 1965. ISBN 0-470-03445-9. New York: Dover 1990. ISBN 0-486-66521-6
  • Gallager, R. Information Theory and Reliable Communication. New York: John Wiley and Sons, 1968. ISBN 0-471-29048-3
  • Goldman, S. Information Theory. New York: Prentice Hall, 1953. New York: Dover 1968 ISBN 0-486-62209-6, 2005 ISBN 0-486-44271-3
  • Cover, Thomas; Thomas, Joy A. (2006). Elements of information theory (2nd ed.). New York: Wiley-Interscience. ISBN 0-471-24195-4.
  • Csiszar, I, Korner, J. Information Theory: Coding Theorems for Discrete Memoryless Systems Akademiai Kiado: 2nd edition, 1997. ISBN 963-05-7440-3
  • MacKay, David J. C. Information Theory, Inference, and Learning Algorithms. Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1
  • Mansuripur, M. Introduction to Information Theory. New York: Prentice Hall, 1987. ISBN 0-13-484668-0
  • McEliece, R. The Theory of Information and Coding. Cambridge, 2002. ISBN 978-0521831857
  • Pierce, JR. An introduction to information theory: symbols, signals and noise. Dover (2nd Edition). 1961 (reprinted by Dover 1980).
  • Reza, F. An Introduction to Information Theory. New York: McGraw-Hill 1961. New York: Dover 1994. ISBN 0-486-68210-2
  • Shannon, Claude; Weaver, Warren (1949). The Mathematical Theory of Communication (PDF). Urbana, Illinois: University of Illinois Press. ISBN 0-252-72548-4. LCCN 49-11922.
  • Stone, JV. Chapter 1 of book "Information Theory: A Tutorial Introduction", University of Sheffield, England, 2014. ISBN 978-0956372857.
  • Yeung, RW. A First Course in Information Theory. Kluwer Academic/Plenum Publishers, 2002. ISBN 0-306-46791-7.
  • Yeung, RW. Information Theory and Network Coding. Springer 2008, 2002. ISBN 978-0-387-79233-0.

第啲書[編輯]

  • Leon Brillouin, Science and Information Theory. Mineola, N.Y.: Dover, [1956, 1962] 2004. ISBN 0-486-43918-6
  • James Gleick, The Information: A History, a Theory, a Flood. New York: Pantheon, 2011. ISBN 978-0-375-42372-7
  • A. I. Khinchin, Mathematical Foundations of Information Theory. New York: Dover, 1957. ISBN 0-486-60434-9
  • H. S. Leff and A. F. Rex, Editors, Maxwell's Demon: Entropy, Information, Computing. Princeton University Press, Princeton, New Jersey (1990). ISBN 0-691-08727-X
  • Robert K. Logan. What is Information? - Propagating Organization in the Biosphere, the Symbolosphere, the Technosphere and the Econosphere. Toronto: DEMO Publishing.
  • Tom Siegfried, The Bit and the Pendulum, Wiley, 2000. ISBN 0-471-32174-5
  • Charles Seife, Decoding the Universe, Viking, 2006. ISBN 0-670-03441-X
  • Jeremy Campbell, Grammatical Man. Touchstone/Simon & Schuster, 1982, ISBN 0-671-44062-4
  • Henri Theil, Economics and Information Theory. Rand McNally & Company - Chicago, 1967.
  • Escolano, Suau, Bonev, Information Theory in Computer Vision and Pattern Recognition. Springer, 2009. ISBN 978-1-84882-296-2
  • Vlatko Vedral, Decoding Reality: The Universe as Quantum Information, Oxford University Press 2010. ISBN 0-19-923769-7

[編輯]

  1. Kullback, S. (1997). Information theory and statistics. Courier Corporation.
  2. 2.0 2.1 Bar-Hillel, Y. (1964). Language and information: Selected essays on their theory and application (p. 162). Reading: Addison-Wesley.
  3. Shannon, Claude E. (July 1948). "A Mathematical Theory of Communication". Bell System Technical Journal. 27 (3): 379–423.
  4. 4.0 4.1 Demystifying Entropy. Towards Data Science.
  5. F. Rieke; D. Warland; R Ruyter van Steveninck; W Bialek (1997). Spikes: Exploring the Neural Code. The MIT press.
  6. Delgado-Bonal, Alfonso; Martín-Torres, Javier (2016-11-03). "Human vision is determined based on information theory". Scientific Reports. 6 (1).
  7. Huelsenbeck, J. P.; Ronquist, F.; Nielsen, R.; Bollback, J. P. (2001). "Bayesian inference of phylogeny and its impact on evolutionary biology". Science. 294 (5550): 2310–2314.
  8. Burnham, K. P. and Anderson D. R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science, New York).
  9. Jaynes, E. T. (1957). "Information Theory and Statistical Mechanics". Phys. Rev. 106 (4): 620.
  10. Thorton, C. (2013, January). A new way of linking information theory with cognitive science. In Proceedings of the Annual Meeting of the Cognitive Science Society (Vol. 35, No. 35).
  11. Bennett, Charles H.; Li, Ming; Ma, Bin (2003). "Chain Letters and Evolutionary Histories". Scientific American. 288 (6): 76–81.
  12. Allikmets, Rando; Wasserman, Wyeth W.; Hutchinson, Amy; Smallwood, Philip; Nathans, Jeremy; Rogan, Peter K. (1998). "Thomas D. Schneider], Michael Dean (1998) Organization of the ABCR gene: analysis of promoter and splice junction sequences". Gene. 215 (1): 111–122.
  13. F. Rieke; D. Warland; R Ruyter van Steveninck; W Bialek (1997). Spikes: Exploring the Neural Code. The MIT press.
  14. David R. Anderson (November 1, 2003). "Some background on why people in the empirical sciences may want to better understand the information-theoretic methods" (PDF).
  15. Urbany, J. E., Dickson, P. R., & Wilkie, W. L. (1989). Buyer uncertainty and information search. Journal of consumer research, 16(2), 208-215.
  16. Galbraith, J. R. (1974). Organization design: An information processing view. Interfaces, 4(3), 28-36.
  17. Weary, G., & Jacobson, J. A. (1997). Causal uncertainty beliefs and diagnostic information seeking. Journal of Personality and Social Psychology, 73(4), 839.
  18. Griffin, E. A. (2012). A first look at communication theory/Em Griffin. New York: McGraw-Hill.
  19. Chen, A. H., Zhou, Y., Gong, H. Q., & Liang, P. J. (2004). Firing rates and dynamic correlated activities of ganglion cells both contribute to retinal information processing. Brain research, 1017(1-2), 13-20.
  20. Arndt, C. Information Measures, Information and its Description in Science and Engineering (Springer Series: Signals and Communication Technology), 2004.
  21. Fazlollah M. Reza (1994) [1961]. An Introduction to Information Theory. Dover Publications, Inc., New York.
  22. Gray, R. M. (2011), Entropy and Information Theory, Springer.
  23. Norman Abramson (1963), Information theory and coding. McGraw-Hill.
  24. 24.0 24.1 MacKay, David J. C. Information Theory, Inference, and Learning Algorithms. Cambridge: Cambridge University Press, 2003. p. 141.
  25. Robert B. Ash (1990) [1965]. Information Theory. Dover Publications, Inc.
  26. 26.0 26.1 Cover T. M., Thomas J. A. (2006). Elements of Information Theory, 2nd Edition. New York: Wiley-Interscience.
  27. Kullback, S.; Leibler, R.A. (1951). "On information and sufficiency". Annals of Mathematical Statistics. 22 (1): 79–86.
  28. Relative Entropy. Wolfram MathWorld.
  29. Jerry D. Gibson (1998). Digital Compression for Multimedia: Principles and Standards. Morgan Kaufmann.
  30. Einicke, G. A. (2018). "Maximum-Entropy Rate Selection of Features for Classifying Changes in Knee and Ankle Dynamics During Running". IEEE Journal of Biomedical and Health Informatics. 28 (4): 1097–1103.
  31. 31.0 31.1 31.2 Vera Pless (1982), Introduction to the Theory of Error-Correcting Codes, John Wiley & Sons, Inc.
  32. 32.0 32.1 32.2 Saleem Bhatti. "Channel capacity". Lecture notes for M.Sc. Data Communication Networks and Distributed Systems D51 -- Basic Communications and Networks.
  33. Hazewinkel, Michiel, ed. (2001) [1994], "Transmission rate of a channel", Encyclopedia of Mathematics, Springer Science+Business Media B.V. / Kluwer Academic Publishers, ISBN 978-1-55608-010-4.
  34. Gentle J.E. (2003), Random Number Generation and Monte Carlo Methods, Springer.
  35. Cherkaoui, A., Fischer, V., Fesquet, L., & Aubert, A. (2013, August). A very high speed true random number generator with entropy assessment. In International Workshop on Cryptographic Hardware and Embedded Systems (pp. 179-196). Springer, Berlin, Heidelberg.
  36. Varchola, M., & Drutarovsky, M. (2010, August). New high entropy element for FPGA based true random number generators. In International Workshop on Cryptographic Hardware and Embedded Systems (pp. 351-365). Springer, Berlin, Heidelberg.
  37. 37.0 37.1 Explaining the origins of word order using information theory. MIT News.
  38. Maynard, S. K. (1997). Japanese communication: Language and thought in context. University of Hawaii Press.
  39. Wang, Z., Alahmadi, A., Zhu, D., & Li, T. (2015, December). Brain functional connectivity analysis using mutual information. In 2015 IEEE Global Conference on Signal and Information Processing (GlobalSIP) (pp. 542-546). IEEE.
  40. Zhang, W., Muravina, V., Azencott, R., Chu, Z. D., & Paldino, M. J. (2018). Mutual Information Better Quantifies Brain Network Architecture in Children with Epilepsy. Computational and mathematical methods in medicine, 2018.
  41. Fairhall AL, et al. Efficiency and ambiguity in an adaptive neural code. Nature. 2001; 412(6849): 787–792.
  42. Sharpee TO, et al. Adaptive filtering enhances information transmission in visual cortex. Nature. 2006; 439(7079): 936–942.

[編輯]