megrxu

关于随机,有序和价值

Oct 27, 2018  「Information Theory」  

什么是随机呢?不确定性是一个很迷人的东西。

人造信息的编码

人造的信息,必须先编码code,才能在信息空间cyber space中存在,并进行处理和传输等操作。香农第一定律已经指出了,对于任何信息的编码,其长度都有一个下界(与信源的信息熵entropy有关),在这个下界之上可以进行任意无损的编码,但是在下界之下,压缩就变得有损了,可能无法恢复出原来的信息。

编码的实质也是一种映射,比如对于文字编码,就是先定义出一个对应关系,然后映射到1和0的序列。对于广泛意义上的编码,就是序列和序列之间的映射。举例来说,如果我们的语言是一种序列,共有26个不同的字符,那么把这26个字符分别映射到不同的01序列(00000,00001 等),就完成了一次映射。

当然,这个映射需要是可逆的,否则我们就无法把这串序列从信息空间中再取出到现实空间,也就没有达到信息传输的目标。因此在这个方面,人们发明了许多许多种无损编码方式,都能够相当好地逼近极限。比如香农编码,使用了概率函数的二进制表示作为编码序列,非常符合直觉又计算快速;比如哈夫曼编码,也考虑概率,让最经常出现的符号拥有最短的序列长度,因此很好地逼近了香农编码定理的极限。

刚刚提到的编码,都没有避开概率这个概念。因为在设计一种编码的时候,我们并不知道具体需要传输什么信息,而只知道这个信息是在哪个语义下的信息(字符串,数字,还是图像)。更一般地,就是一些符号。然而这些符号可能有不同的出现概率(例如字母中的 「e」 和 「z」)。因此,在不知道具体传输啥时,基于符号的出现概率分布,根据符号和序列的映射,计算出统计意义下的码长,这才有讨论的价值。

这样我们就清楚了,经过编码,我们的信息在信息空间内变成了一段由「0」和「1」组成的序列。那么,这个序列的概率分布又是如何呢?

在信息空间中的信息

香农第一定律说明,对于任何信源,要实现无损编码,码字的平均长度不能小于信源的信息熵。信源的信息熵是由符号出现的概率分布所决定的。

参考一下香农的论文1,可以看到,如果有一条规则实现了最佳的无损信源编码,那么编码后的结果在概率上是完全随机的。也就是说,在现实空间有意义的字符串,数据,等各种信息,在编码之后都会变成统计意义上随机的序列。我们只能通过预设好的映射关系来逆向编码的过程,才能得到原始的信息。信源编码这个过程,形象地表述起来,是在「补齐」信源不均匀的分布;也就是试图把这个低熵体隐藏在随机之中。

这样看来,随机并不意味着没有信息意义上的价值。甚至是,只有达到了真正随机的效果,通信才达到了最大的效率:使用了最少的数据量传输了最多的现实空间的信息

然而人们生活在物理空间,编码后的信息通过物理信道channel传输,才能真正意义上跨越时间或者空间重现信息,这才能真正实现通信。也就是说,之前我们只讨论了, 信息在信息空间如何表示才能更省资源 ,而忽视了数据在物理世界的表示形式。

通信的物理极限

通信的物理极限 ,这一文2使用了一个思想实验,并加以推导,展示了物理世界的信息该如何传输,才能达到最高的效率。

它假设了一个内壁可以完全反射的长为$l$,截面积为$A_t$的一个管子tube(即是在电磁学里面经常用的cavity),且人们拥有一种可以在管内设置任意一个微状态microstate电磁波的技术。由于完全反射,因此设置的任意一个状态,都可以无限期地保持下去。这个管子直接通向接受者,这样就构造出了一个假想的信道。任意一条信息$x_i$被一个微状态的电磁波所表示。通过交换不同的管子,就能够进行信息的传输。

之后的证明,作为一个并不搞电磁的同学,已经开始看不懂了。但是到最后,结论是,采用电磁辐射作为信息载体,且每单位时间具有固定的能量预算,传输效率要达到最优时,产生的强度谱是与黑体辐射相同的。

而我们的宇宙背景辐射,就基本上可以等效为一个约 3K 的黑体所发出的辐射。这几乎就像是自然界的随机了。观察一个物理上的最佳信息载体,就如同观察着宇宙一样,不知道如何解析其中的符号,就永远无法得到其蕴含的信息。

感想

到头来,无论是信息空间的信息,还是物理空间的信息,为了达到最大的传输效率,都变成了在统计规律上毫无意义的随机数据流或者物理现象。在不知道对应的编码,或者对应的物理解析方式时,它就是毫无意义的东西。

我们用低级的随机传输数据,更高等的文明则使用更接近真随机的东西。

无数的数据从我们眼前流过,我们却什么也发现不了。