但凡称之为系统,几乎所有都是由微观个体组成,而系统的状态只不过是微观个体自组织行为的概率表现。

——坤鹏论

坤鹏论:语言系统的信息熵到底有什么意义?-坤鹏论

一、计算语言系统的信息熵到底有什么意义?

通俗地讲,在信息论中,就是该语言中每个字符转化为二进制表达平均需要几个比特。

坤鹏论:语言系统的信息熵到底有什么意义?-坤鹏论

再联系信息熵的计算方法,我们不难得出,一个语言系统的字符种类越多,使用频率越平均,那需要用来表达每个字符所要使用的平均比特数也就越高。

那比特数,或者说二进制表达的意义是什么?

——是作为描述信息的一种通用的方式。

香农的信息论采用的是电报局的办法,只计字数不问内容。

但是,这也会遇到问题。

那就是字数和所采用的符号系统(语言文字)密切相关,而各种符合系统的情况又千差万别。

比如:一段中文,由许多汉字所组成,每个汉字又是从上万个汉字中挑选出来的,其概率约为1/10⁴;

但是,将其拼音出来,它就变成了一串包括空格的字母,每一个字母则是在26个拉丁字母和一个空格间抉择的结果,其概率是1/27;

如果我们再将其翻译成摩斯电码,每一个电码,只有两种可能性,一划或一点,二者必居其一,其概率是1/2。

当然如果再精确些讲,摩斯电码还包括两种停顿,一共算是有四个符号,概率是1/4。

所以,要定义信息量,必须摆脱具体符号系统的限制,从根本上考虑。

正是基于此,香农提出了信息的统计理论,也就是信息熵公式。

同时,他给出了一个规范化的信息表达系统——二进制。

正所谓站在同一起跑线才能公平竞争。

自此,一切其他语言系统都能计算其转化为二进制的难易程度,这样才能够进行科学的比较。

信息熵告诉我们,一条讯息里面有多少比特的不确定性,要想清除这些不确定性,就得再输入相应多少比特的信息。

坤鹏论:语言系统的信息熵到底有什么意义?-坤鹏论

二、只计字数背后是从连续到离散

在信息传输过程中,噪声是个避无可避的存在。

而且,噪声并非我们日常所说的噪声,它涵盖了一切会削弱信号的东西。

比如:多余的附近加信号、明显的错误、随机干扰、静电、失真等。

这里面最麻烦的是,有些可以事先预测,有些则不可预测,而在这个概率的世界里,永远存在着不可预测,除非你什么都不做。

香农把各不相同的通信系统大致分为三类:

连续的;

离散的;

混合的。

在离散的系统中,讯息和信号由独立的个体符号组成,比如:字符、数字或点划。

但是,在当时除了电报之外,工程师每天面对的大多是连续系统,其中的讯息和信号被视为连续函数。

那么,如果要在一个信道中传输更多信息,工程师通常会选择增大输出功率。

但是,这个方法在远距离通信中会失效,因为一次又一次地放大信号,只会导致噪声的逐渐积累。

香农想到避免这个问题的办法就是,像电报那样,把信号视为一串离散符号。

这样,讯息发送者就可以不用增加输出功率,而是增加额外符号的办法来进行纠错,从而克服噪声的干扰。

这就像非洲鼓语,在远距离沟通时,鼓手并不是更加用力地击鼓,而是为自己的鼓语增加额外的字词。

而且,把讯息拆成离散的个体符号看待,不仅可以应用在传统通信领域,还能应用于当时新兴的小众领域——计算机器理论。

离散是什么意思?

离散的意思就是不连续。

整个数学体系可以粗分为两类:连续和不连续。

一般的数学的数据范围都是连续的,比如初高中那些函数,通常都说在某某区间内。

而离散数学则是不连续的数,比如:1和2,中间的如1.1、1.11、1.1111等数都没有连续,所以叫做离散数学。

离散数学也可以说是计算机科学系的基础核心学科,它可以看成是构筑在数学和计算机科学之间的桥梁。

坤鹏论:语言系统的信息熵到底有什么意义?-坤鹏论

三、我们这个世界是离散的还是连续的呢?

这又是一个烧脑的话题。

如果从物理的角度讲,世界是由物质组成的,而物质又是由极小的粒子组成,粒子是离散的。

在物质波理论、量子力学那里,粒子通过波构成我们眼前物质,就像水面的涟漪,那就是一种波。

水波由水分子这种物质组成,但水波却又不是水分子。

比如:我们说100人组成了一个方阵,但方阵并不是100人,只是100个人的排列方式。

法国理论物理学家、物质波理论的创立者、量子力学的奠基人之一路易·维克多·德布罗意认为,物质其实也是波,只是波长特别短,所以你看不到它。

比如:你眼前的桌子看起来是物质,它没有扰动,其实它是波,它在扰动,只是波长太短以至于你没法看见。

而这个观点挑战了“世界是由物质组成”这个主张,因为波不是物质,波是场的扰动。

坤鹏论:语言系统的信息熵到底有什么意义?-坤鹏论

场又是什么?

还没有人知道。

如果深入地了解物理学,你就会发现,如同信息熵,物理学所描述的世界和我们常识中的世界非常的不一样。

在物理的世界中,很多概念都没有意义了。

德布罗意也是爱因斯坦时代的一位牛人,他关于波和量子的论文被爱因斯坦青睐——“这是天才的一笔,揭开了伟大帷幕的一角!”并在自己的论文中专门加入了介绍德布罗意工作的内容。

后来薛定谔发表他的波动力学论文时,明确表示:“这些考虑的灵感,主要归因于路易·维克多·德布罗意先生的独创性的论文。”

在得到电子衍射实验的证实后,1929年,德布罗意因提出物质波理论而获诺贝尔物理学奖。

后来,德国物理学家玻恩又提出物质波是概率波的见解:

波函数的绝对值的平方,就是微观粒子在某一时刻出现在某处的概率。

看,又到概率了!

微观世界里我们只能用概率描述事件,这就是量子力学描述微观世界的物理语言。

比如:就像你我,也有可能出现在月球上,但是,和你我坐在电脑前的概率相比,那是非常非常小,以至于生命有限的我们不可能看到这种情况。

这些都是量子力学的基本概念。

也就是说,量子力学认为物质没有确定的位置,它表现出的宏观看起来的位置其实是对几率波函数的平均值,在不测量时,它出现在哪里都有可能,一旦测量,就得到它的平均值和确定的位置。

在《物理学神兽之拉普拉斯兽和薛定谔的猫》中(建议读,正好可以普及一下量子力学的基础知识),坤鹏论曾讲过丹麦物理学家尼尔斯·玻尔对于电子运动的描述:

“它是一个粒子,同时出现在云中的所有位置,当我们要测量它的时候它会随机选一个位置出现,告诉我们它在哪。”

意思就是,没有观测时,电子可能会在云中的任何位置,只有观测的那一刻,你才知道电子在哪里;电子在你没有观测它时,它是一片云,在你观测的那一刻,它是一粒电子。

也就是,微观物质有不同的存在形式,即粒子和波(云)。

为此爱因斯坦没少和玻尔打嘴仗,提出一个又一个思想试验证明玻尔的矛盾和错误。

而薛定谔的猫这只物理学四大神兽之一,就是薛定谔助力爱因斯坦的思想实验。

通过复杂性科学的学习,我们知道了,所有系统都是由微观个体组成,系统的状态只不过是微观个体自组织行为的概率表现。

就像黑天鹅事件,它出现的稀少并不代表它不存在。

而塔勒布《反脆弱》之所以有用,关键就在于黑天鹅不仅存在,而且发生的概率绝对比我们预想的高得多,甚至根本用不着活久见。

所以,我们的世界归根结底就是概率的世界,概率是它运转的最高法则。

那么,《反脆弱》叫《如何在概率世界更好地生存?》应该更加贴切。

当琢磨明白这个问题后,也就同时踏上了哲学的道路,所以很多大物理学家也同样可以称为哲学家。

也是,毕竟所有科学都诞生于哲学,是哲学下的蛋,它们不过是哲学发展出来探究这个世界的方法论。

本文由“坤鹏论”原创,转载请保留本信息


注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827