關於隨機，有序和價值

什麼是隨機呢？不確定性是一個很迷人的東西。

人造資訊的編碼

人造的資訊，必須先編碼code，才能在資訊空間cyber space中存在，並進行處理和傳輸等操作。夏農第一定律已經指出了，對於任何資訊的編碼，其長度都有一個下界（與信源的資訊熵entropy有關），在這個下界之上可以進行任意無損的編碼，但是在下界之下，壓縮就變得有損了，可能無法恢復出原來的資訊。

編碼的實質也是一種對映，比如對於文字編碼，就是先定義出一個對應關係，然後對映到1和0的序列。對於廣泛意義上的編碼，就是序列和序列之間的對映。舉例來說，如果我們的語言是一種序列，共有26個不同的字元，那麼把這26個字元分別對映到不同的01序列（00000，00001 等），就完成了一次對映。

當然，這個對映需要是可逆的，否則我們就無法把這串序列從資訊空間中再取出到現實空間，也就沒有達到資訊傳輸的目標。因此在這個方面，人們發明了許多許多種無損編碼方式，都能夠相當好地逼近極限。比如夏農編碼，使用了機率函式的二進位制表示作為編碼序列，非常符合直覺又計算快速；比如哈夫曼編碼，也考慮機率，讓最經常出現的符號擁有最短的序列長度，因此很好地逼近了夏農編碼定理的極限。

剛剛提到的編碼，都沒有避開機率這個概念。因為在設計一種編碼的時候，我們並不知道具體需要傳輸什麼資訊，而只知道這個資訊是在哪個語義下的資訊（字串，數字，還是影象）。更一般地，就是一些符號。然而這些符號可能有不同的出現機率（例如字母中的「e」和「z」）。因此，在不知道具體傳輸啥時，基於符號的出現機率分佈，根據符號和序列的對映，計算出統計意義下的碼長，這才有討論的價值。

這樣我們就清楚了，經過編碼，我們的資訊在資訊空間內變成了一段由「0」和「1」組成的序列。那麼，這個序列的機率分佈又是如何呢？

在資訊空間中的資訊

夏農第一定律說明，對於任何信源，要實現無損編碼，碼字的平均長度不能小於信源的資訊熵。信源的資訊熵是由符號出現的機率分佈所決定的。

參考一下夏農的論文¹，可以看到，如果有一條規則實現了最佳的無損信源編碼，那麼編碼後的結果在機率上是完全隨機的。也就是說，在現實空間有意義的字串，資料，等各種資訊，在編碼之後都會變成統計意義上隨機的序列。我們只能透過預設好的對映關係來逆向編碼的過程，才能得到原始的資訊。信源編碼這個過程，形象地表述起來，是在「補齊」信源不均勻的分佈；也就是試圖把這個低熵體隱藏在隨機之中。

這樣看來，隨機並不意味著沒有資訊意義上的價值。甚至是，只有達到了真正隨機的效果，通訊才達到了最大的效率：使用了最少的資料量傳輸了最多的現實空間的資訊。

然而人們生活在物理空間，編碼後的資訊透過物理通道channel傳輸，才能真正意義上跨越時間或者空間重現資訊，這才能真正實現通訊。也就是說，之前我們只討論了， 資訊在資訊空間如何表示才能更省資源 ，而忽視了資料在物理世界的表示形式。

通訊的物理極限

通訊的物理極限 ，這一文²使用了一個思想實驗，並加以推導，展示了物理世界的資訊該如何傳輸，才能達到最高的效率。

它假設了一個內壁可以完全反射的長為$l$，截面積為$A_t$的一個管子tube（即是在電磁學裡面經常用的腔cavity），且人們擁有一種可以在管內設定任意一個微狀態microstate電磁波的技術。由於完全反射，因此設定的任意一個狀態，都可以無限期地保持下去。這個管子直接通向接受者，這樣就構造出了一個假想的通道。任意一條資訊$x_i$被一個微狀態的電磁波所表示。透過交換不同的管子，就能夠進行資訊的傳輸。

之後的證明，作為一個並不搞電磁的同學，已經開始看不懂了。但是到最後，結論是，採用電磁輻射作為資訊載體，且每單位時間具有固定的能量預算，傳輸效率要達到最優時，產生的強度譜是與黑體輻射相同的。

而我們的宇宙背景輻射，就基本上可以等效為一個約 3K 的黑體所發出的輻射。這幾乎就像是自然界的隨機了。觀察一個物理上的最佳資訊載體，就如同觀察著宇宙一樣，不知道如何解析其中的符號，就永遠無法得到其蘊含的資訊。

感想

到頭來，無論是資訊空間的資訊，還是物理空間的資訊，為了達到最大的傳輸效率，都變成了在統計規律上毫無意義的隨機資料流或者物理現象。在不知道對應的編碼，或者對應的物理解析方式時，它就是毫無意義的東西。

我們用低階的隨機傳輸資料，更高等的文明則使用更接近真隨機的東西。

無數的資料從我們眼前流過，我們卻什麼也發現不了。