这个世界最伟大的不变永远是本质。

——坤鹏论

坤鹏论:为什么汉字信息熵大,表现出来的却是言简意赅?-坤鹏论

昨天《是信息熵越大,信息量越多?还是信息熵越大,信息量越少?》发布后,有网友和坤鹏论进行了讨论。

坤鹏论琢磨了一晚上,连做梦都在琢磨。

实话说,这半个多月时间来,信息熵已经把我折磨到寝食难安了。

一、通信系统只是讯息的搬运工

我们在理解信息熵时,一定要牢记:

香农解决的是通信系统中的讯息如何既高效又准确地传输的问题。

它不是人们所想的——使自己的意图被人理解,传递意义。

香农根本就不关心所传输的讯息的意义。

“对于信息论的研究而言,讯息的‘意义’基本上无关。”

因为,“通信的基本问题是,在一点精确地或近似地复现在另一点所选取的讯息。

不过,香农还是给“意义”下了科学家的定义:

“这些讯息往往都带有意义,也就是说,根据某种体系,它们指向或关联了特定的物理或概念实体。”

就在定义之后,他又将其客气地请出了信息论:

“但通信的这些语义因素,与它们的工程学问题无关。”

通信系统其实和快递很相似,一个是传输讯息,一个是传输实物。

快递公司不创造包裹;

通信系统也不创造讯息。

就像农夫山泉那句广告词一样:我们不生产水,我们是大自然的搬运工。

当它们开始传输的时候,包裹和讯息就已经存在了。

既然讯息已经存在,它的信息熵也就能够直接计算出来。

恰如坤鹏论所说,信息熵是过去时的。

而它们的最终目标都是,要将包裹或讯息完整、准确地送达接收者——也就是使接收者达到完全的确定性。

它们都不可能做那种送到一半就不送的事。

所以,信息论的信息量都是讲从现在的不确定到未来完全的确定性,还需要输入多少信息。

那么,像“信息量 = 获取信息前事件的信息熵 - 获取信息后事件的信息熵”,这样的公式就不太正确了。

因为如果在获取信息后,还有信息熵,那就是没有到达完全的确定性,显然,这个相减的结果,就不是信息论的信息量。

而且,在信息论中,讯息都是已经在那里的,在进入到通信系统时,它的不确定性程度就被计算出来了。

既然讯息已经在那里了,为什么还要说,讯息是被选取出来的呢?

对此,我们不要脱离开信息熵的根本作用去理解它,否则,很容易陷入思维困境。

信息熵的根本作用之一就是,去除讯息中的冗余,使得其体积变小,并且还要保证传输到接收者那里后,没有损失或近似没有损失。

那么该如何去除冗余?

其实就是在已有的讯息中选择,传输什么,不传输什么。

选择标准就是信息熵。

这里提醒大家,信息论看到的讯息,都是一个个字符,顶多是一个个字符组合(单词),它不懂也不想懂它们的意义!

比如:一段文字中有100个“中华人民共和国”,那么可以指定华=中华人民共和国,并通过将其写在译编码中告诉传输模型中的译码器,只要见到“华”,就译成“中华人民共和国”,也就是只选择传输“华”,其他六个字不传输。

或者,就像如果给你看“中华人__共__国”,你基本就能猜出空格的两个字是“民”、“和”,因为它们出现在这个组合中的概率非常高,信息熵低,不确定性弱,证明它们的确定性极强,那么这两个字就是冗余的,就可以不传输。

同时,就像快递包裹,是以个为单位,不管里面有多少东西。

所以,一个包裹可以小到巴掌大,也可以大到整个集装箱。

讯息也一样,以条为单位,一条讯息可以是一个字符,也可以是一整本书。

“通信的基本问题是,在一点精确地或近似地复现在另一点所选取的讯息。”

这里的“点”字用得特别好。

它意味着,讯息的信源和信宿可以在空间或时间上相分隔。

那么,信息的存储,比如:唱片,也可以算是一种通信。

坤鹏论:为什么汉字信息熵大,表现出来的却是言简意赅?-坤鹏论

二、为什么汉字的信息熵大,表现出来的却是言简意赅?

这也一个困扰很多人的经典问题。

特别是在理解了信息熵是不确定性的程度之后。

比如有人会这样琢磨:

“如果汉字的平均信息熵高,说明它的不确定性大,那么由它组成的信息,应该不确定性更大,只有输入更多信息才能消除不确定性呀。”

在对这个问题进行分析时,为了完整与温故而知新,坤鹏论会把昨天文章的意思一并复习一遍。

第一,我们一定要明白,不确定性是接收者对汉字的不确定性,而不是汉字本身的不确定性。

这是一个相对关系,因为汉字就是一个符号,如果孤立地看它,它什么也不是。

只有在被人为地赋予了含义后,它才具有了承载信息的功能。

正如干事业,总是赶时髦,追流行、爱变化,最终就成了被别人牵着鼻子走,跟在别人屁股后面吃土的宿命,很难成功。

想想看,爱情中,最难成的往往是男方落花特别有意,拼命追求逢迎,女方反而越来越流水非常无情。

所以,想得到什么,王道永远是以我为本,改变别人都不如改变自己,先让自己配得上……

这里面揭示的道理就是以不变应万变。

这个世界最伟大的不变永远是本质。

在信息传输系统中,最多变的是讯息;最不变的是接收者。

坤鹏论:为什么汉字信息熵大,表现出来的却是言简意赅?-坤鹏论

第二,信息的本质就是让接收者做出选择。

香农的信息论将接收者定义为,只计字数不管内容的客观存在物,并且在做出选择后便被消除记忆。

那么只有紧紧围绕接收者,这件事就不会跑偏,才能一直稳稳踩在阳光大道上。

所以,汉字的平均信息熵,也就是平均不确定性的程度,都是对于接收者来说的。

比如:我们说“打”这个字的信息熵高。

其中要表达的是,当”打“这个字摆在面前时,接收者不能确切地知道它要传递什么信息。

因为它能和非常多的字或词,通过在前或在后的组合,衍生出更多的含义。

比如:“打人”、“打电话”、“打工”、“打扫”、“打针”、打球“、”打印“……

那么,接收者此时此刻根本无法确定它要表达的意思,也就无法作出选择,只能等待”还能说什么“的信息输入。

第三,那为什么又说,信息熵高,信息量大呢?

这个理解起来很简单。

正因为可能性太多,对于接收者来说,”还能说什么“的”什么“太多了。

既然这里的”什么“是信息,自然”还能说的什么“的”什么“的数量就会很多,这就是信息论角度的信息量大。

这是因为信息论中默认的接收者,就像麦克斯韦妖,它没有分析能力,它只能靠提回答是或否的问题来猜。

所以,对它来说,只能问答案是“是或否”的问题。

比如:如果是四种可能,就是四选一,你平均需要问两个问题就能得到确定答案。

如果是八种可能,就是八选一,你则需要平均问三个问题能得到确定答案。

通过问这样的问题,对一条未知讯息从猜不出来到猜出来所需要问的问题的平均数目,就是信息熵。

显然,概率越小,信息熵越大,得到确定答案需要问的问题越多,这就是所谓的信息量越大。

在《是信息熵越大,信息量越多?还是信息熵越大,信息量越少?》中,我们已经知道,信息、信息熵、信息量是同一时间点定义和计算出来的。

简单说,就是一个”过去已过去,未来还未来“的时间点,这时候所说的信息就是”还能说什么“,信息量则为”还能说多少“。

那么,说汉字因为信息熵高,所以信息量大,没毛病。

或者我们这样理解可能更容易明白,汉字因为信息熵高,所以接收者在看到单个汉字时,不能确定它要表达的意思,对它的不确定性高,那么,还能说的可能性很多,(未来可以接收的)信息量大。

第四,那为什么又说,文字系统的平均信息熵越高,越言简意赅呢?

思考这个问题最好脱离开单个汉字,而是以一个信息集合,比如:一段话、一篇文章、一本书等来考虑。

这时候,除了单个汉字的信息熵外,上下文的关联度也会起到关键作用,毕竟任何文字系统的作用都是组合在一起传递信息。

坤鹏论琢磨了很久怎么找个形象的比喻来解释这点,最后终于想到一个比较恰当的例子。

我们可以把文字系统中每个字符想象成是一个个具有多功能的零件,有的功能是5种,有的功能是10种。

显然,功能越多,零件的不确定性越强,也就是我们不知道它在未来组成的机器中的具体是什么,因为可能性很多。

不过,可以肯定的是,制造同样的机器,肯定是由功能多的零件组成的机器,更节省零件。

或者还可以假设你是一名维修工,如果一个零件的功能多,那么,你外出维修时,需要带的零件就会大大减少。

坤鹏论:为什么汉字信息熵大,表现出来的却是言简意赅?-坤鹏论

亦或者我们可以把每个字符当成一个个人。

有的人是一个人干一个人的活;

有的人能力强、多面手,一个人能干四个人的活。

如果把两种人分别组成公司,完成同样的工作和工作量。

前者组成的公司如果是20个人,后者组成的公司则只要5个人足矣。

功能多,会的多,就是信息熵高。

就像那句话说的——未来不可限量。

这是因为能力强、能力全面,能胜任的工作多,干什么都可能很厉害。

于是,未来到底会在哪方面脱颖反而难以说清,不确定性很强。

对于这样的人,我们总会情不自禁地感叹道:他的故事一定很多。

看,这不就是信息量多吗?!哈哈!

汉字信息熵大,信息量大,表现出来就是言简意赅,这样造成说出来的每个字都很重要,冗余度小,难猜,所以,中国人说话的声音就会偏大。

本文由“坤鹏论”原创,转载请保留本信息


注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827