Свойство инвариантности, как мы уже видели, позволяет утверждать, что одну и ту же информацию можно фиксировать любыми носителями. Носители информации – языки, алфавиты, способы фиксации и подложки – выступают как бы в роли «информационной тары», которая может содержать информацию, причем любую. Если представление о количестве информации не лишено смысла, то отсюда следует, что для фиксации одного и того же количества информации с помощью разных носителей емкость используемой для этого информационной тары должна быть одной и той же. Полагая элементарные носители информации – отдельные буквы алфавита – дискретными, можно утверждать, что одну и ту же информацию, по меньшей мере в пределах одного и того же языка, можно записывать самыми разными алфавитами, содержащими разное число букв, в том числе и бинарным. Формула (1), показывающая, сколько битов информации содержится в некотором сообщении, по существу означает, что для записи этого сообщения бинарным кодом требуется М букв. Формулу (1) можно записать несколько иначе, а именно: (13) Очевидно, что данная формула показывает, сколько знаков М алфавита, состоящего из п букв, требуется для записи данного количества Н информации. Очевидно, что в основе формулы (13) лежит формула (6), означающая, следовательно, сколько информации может «вместиться» в один из символов данного алфавита. Приняв в качестве единицы количества информации один бит и используя разные значения п и pi, легко убедиться, что информационная емкость отдельных символов может быть выражена любым числом, как целым, так и дробным, в том числе апериодическим. Это лучше согласуется с представлением о континуальности, нежели о дискретности самой информации, в отличие от единиц информационной тары. Итак, мы пришли к выводу, что информационная емкость i-го символа любого алфавита, выраженная в битах, равна –log2pi, где pi есть частота встречаемости этого символа в данном языке. Это утверждение, выведенное из формулы (6) К. Шеннона, можно назвать правилом Шеннона. Заметим, однако, что в работах самого К. Шеннона речь идет не об информационной емкости, а о количестве информации. Справедливо полагая, что количество информации, связанной с каким-либо сообщением, не должно зависеть от его семантики, К. Шеннон формулировал вопрос так: сколько информации получает адресат, воспринимая каждую из букв сообщения? Количество такой информации он и предложил выражать через величину Н и постулировал аддитивность этой величины по отношению к любому числу символов, составляющих сообщение. При этом непроизвольно произошла подмена терминов: понятие об информации, как о содержательной стороне сообщения, было подменено понятием о количестве информации, представляющем собой функцию статистических характеристик составляющих сообщение символов. Эта подмена терминов не имела никаких последствий для развития математической теории связи и даже оказалась для нее благотворной: ведь по каналам связи передают не информацию, а ее носителей, и для оптимизации работы систем связи безразлично, какую именно информацию эти носители содержат и содержат ли они ее вообще. Однако для теории информации эти различия весьма существенны, и вот почему. — 38 —
|