
我们为什么要“强迫”客户先框定信源范围,再收集情报?
每次我们和客户开会、介绍源情报服务的方法论和步骤时,客户都会有些意外地发现,我们的做法和主流数据与科技公司好像有点“背道而驰”——后者的营销重点常常非常容易打动人,比如“全网收集”“亿级规模大数据”“精准算法推送”等等,而我们却“强迫”客户在有限的信源数量内,和我们共同梳理出一个信息收集框架以及信源清单。
为什么在海量数据的当下,我们却坚持要人为地划出一定的信息“边界”,不鼓励客户进入“无边”的信息宇宙?这其实是有充分的理论依据的。让我们回到 1948 年克劳德·香农(Claude E. Shannon)那篇具有奠基性地位的论文—— A Mathematical Theory of Communication(《通信的数学理论》)。这篇论文属于应用数学 + 电气工程 + 理论计算机科学的交叉领域,被Scientific American(《科学美国人》)誉为“信息时代的大宪章”。
这篇论文之所以有这么高的地位,是因为香农第一次把“信息”变成了可度量、可计算的量,而不是停留在一个模糊的概念。简单说,“信息量”这个我们常常挂在嘴边的词,在 1948 年就成为了一个可以用公式表示的量——香农用“熵(entropy)”来度量一个系统或信源的平均不确定性,也就是它潜在能够承载的信息量。
信息的本质:不确定性的减少
作为一名社科生,要啃懂这篇长达 55 页、大部分是艰深数学公式的论文,堪比登天,但我还是尽力把没有公式、重点的综述部分啃了一遍,收获也非常大。
香农定义的信息量,不是“数据的多少”,而是我们对未知的不确定程度降低了多少。
换句话说:
信息量 = 不确定性的减少量
在他的公式里,熵(Entropy)代表系统或信源的原始不确定性;当我们收到一个信号、消除了部分不确定性时,才真正“获得了信息”。
比如天气预报: 如果明天可能有晴/阴/小雨/大雨4种情况,你的不确定性很高,处在一个高熵环境中;
但当你听到“明天不会下雨”,可能性就从4种减少到2种,这就是“减少了不确定性”。
也就是说,获得信息的过程,本质上是一个降低不确定性的过程。
如果我们面对的是一个无穷大、无结构、没有明确范围的世界——也就是我们无法说清“有哪些可能的信息”时,系统初始的不确定性是极高的——这是一个极高熵的环境,在这个环境中,我们很难真正判断“我到底减少了多少不确定性”,自然无法真正“获得信息”。
不确定性来自于:信源的随机性 + 传输中的干扰
在香农模型中,不确定性主要体现在两个方面:
- 信源的随机性(Randomness):它决定了消息本身的不确定性;
- 信道中的干扰/噪声(Noise):在传输过程中出现的随机扰动,会让接收端变得不确定。
信息的任务,不是消除一切不确定性,而是保留有意义的不确定性(与问题相关的信源),同时尽量减少无意义的不确定性(传输过程、信源质量参差带来的噪声)。
正因为这样,我们就能更清楚地看出下面这些常见做法的问题。
为什么“全网收集”“亿级大数据”“算法推荐”不一定能降低不确定性
所谓的“全网收集”(其实很多时候也是个营销概念)和“亿级规模大数据”,面对的都是一个范围几乎无限的信源集合,随机性和噪声都非常高。从信息论的角度来说,这样的系统可以类比为一个高熵系统——不确定性极高。
再来看“算法推荐”——虽然这种做法在一定程度上同时降低了随机性与噪声,但是其机制的不透明和不可解释性又引入了一种新的不确定性:我们并不知道算法如何定义“相关性”、如何加权信源、如何决定某条内容出现的概率。换句话说,表面上随机性减少了,但从整个系统来看,不确定性并没有真正降低。
所以,用香农的语言说,这些方法都在不同程度上没有显著减少接收端真正关心的那部分不确定性。要么是信息输入端范围太大,熵高得处理不过来;要么是机制不透明,让系统多了一层结构性的不确定性。
人为限定信源、定期调整:降低熵,但保留活性
“源情报”的方法论,是引导和帮助客户在有限的信源数量内,梳理出一个信息收集框架以及信源清单。
这其实就是在人为地定义一个低熵的通信环境:
- 明确“谁”是我们要听的信源;
- 确定“哪些信息”属于我们的问题空间;
- 让系统只在这个范围内传递信号,从而让信道容量与接收方的认知负荷相匹配。
这一步,相当于在香农的通信模型中——先确定发信者,再谈解码。
这样做的结果是:
- 我们大幅减少了系统初始的熵,让不确定性处在一个可管理的区间里;
- 我们显著降低了无意义的随机性,排除了大部分噪声。
- 通过定期调整和增删信源,我们又能重新引入“有意义的随机性”,避免系统变成一个完全封闭、没有新随机性进来的世界。
从这个意义上说,香农的信息论不仅是一套通信工程的理论,也可以帮助我们理解如何组织信息:信息不是越多越好,而是要让信息系统在一个有限、可理解的范围内高效运行。
对企业而言,在有限的信源范围内收集与提炼情报,不仅是一种秩序,也是一种科学的策略——在不确定的世界中,划出可理解的边界,让信息的流动重新变得可控、可用、有意义。
信源:
- A Mathematical Theory of Communication(《通信的数学理论》)https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf

