8.1. Міра кількості інформації
У теорії інформації в електронних системах основна увага приділяється знаходженню шляхів максималізації швидкості передачі інформації по каналах зв’язку. В розв’язуванні цього завдання основним є використання імовірнісного підходу. Будемо позначати через Р(a) імовірність появи деякої події а. В нашому випадку а – це реалізація (поява) деякого повідомлення або окремого символу, а Р(а) – імовірність його реалізації (появи). Наприклад, розглянемо 2 повідомлення Гідрометеоцентру по прогнозу погоди на 8 квітня по місту Ужгороду:
а1: 8 квітня очікується ясна тепла погода;
а2: 8 квітня очікується мороз -20С.
Звичайно, що імовірність реалізації другої події дуже мала. Допустимо, що Р(а1) = 0,8, а Р(а2) = 0,01. В якому ж повідомленні міститься більше інформації? З простих міркувань ясно, що в другому, оскільки відомості про такий сильний мороз в ці дні є дуже важливими. Але для конкретних кількісних оцінок необхідно ввести якусь міру кількості інформації.
У теорії інформації передачі повідомлень такою мірою є величина . Цей вираз для обчислення кількості інформації в будь-якій системі числення запропонував Клод Шенон.
Оскільки 0 Р(а) 1, то завжди J(a) > 0 (рис.8.1). Основа логарифму k може бути будь-якою. Але практично в сучасних системах зв’язку використовують k = 2. Тоді J(a) вимірюється в двійкових одиницях, тобто: Якщо ж основу логарифму взяти іншою, то кількість інформації буде виражатися в інших одиницях вимірювань. Із останньої формули слідує, що чим менша імовірність події, тим більшу кількість інформації несе повідомлення про неї. Надалі всюди будемо мати на увазі, що основа логарифму в математичних виразах завжди рівна двом.
Слово “bit” пішло від скорочення виразу “binary digit” (двійкова цифра). Для наведеного вище прикладу біт, а біт.
Розглянемо суть наведених вище формул для оцінки величини інформації в різних повідомленнях. Споживачу наперед невідомий зміст повідомлення, яке буде отримане ним у виді сукупності певних символів, тобто споживач не знає, яка комбінація символів буде йому передана. Зрозуміло, що чим більше символів використовується в даній мові для формування повідомлення, тим менша імовірність буде в ній для появи одного символу, а, відповідно, і більша кількість інформації міститиметься в кожному символі алфавіту. Наприклад, оцінка за п'ятибальною системою більш повно характеризує успішність навчання, ніж за двобальною. А отже, у п'ятибальній системі кожна оцінка значно інформативніша. Якщо ж до наведених прикладів додати очевидну і необхідну для кількості інформації умову адитивності, то такій ситуації для кількісних розрахунків інформації якраз і відповідає наведена вище логарифмічна функція.
|
Рис.8.1. Графік логарифмічної функції, яка задає кількість інформації в повідомленнях
|
В електронних системах первинним неподільним елементом інформації переважно є елементарна двійкова подія а – вибір однієї з двох протилежних реалізацій: ствердження або заперечення; істина або фальш; згода або незгода; наявність або відсутність якогось явища. Приклади двійкових подій в електронних системах можуть бути найрізноманітнішими: імпульс або пауза в електричному колі; чорний або білий елемент телевізійного зображення; наявність або відсутність команди і т.д.
Двійкову подію можна представляти в геометричному вигляді крапкою і пробілом; в арифметичному вигляді – одиницею і нулем; у вигляді сигналу – імпульсом і паузою.
Кількість інформації має властивість адитивності, тобто в кількох незалежних повідомленнях міститься така кількість інформації, яка дорівнює сумі кількостей інформації кожного з цих повідомлень.
Нехай маємо N незалежних повідомлень а1, а2, … , аN із імовірностями реалізації Р(а1), Р(а2), … , Р(аN). В таких випадках говорять про існування ансамблю повідомлень. Відповідно, конкретний ансамбль А повідомлень математично задається набором всіх можливих повідомлень і їх імовірностей: . При цьому ансамбль повідомлень завжди має утворювати повну групу, так що = = 1. Імовірність реалізації всіх незалежних повідомлень ансамблю Р = Р1·Р2·Р3·…·РN. Відповідно, загальна кількість інформації, що міститься в усьому ансамблі незалежних повідомлень, .
Якщо в ансамблі всі повідомлення рівноймовірні, то . Тоді кількість інформації в кожному повідомленні .
Зокрема, якщо використовується двійкова система числення для кодування повідомлень і якщо імовірність появи в коді 0 і 1 однакові, то кожен двійковий символ несе кількість інформації рівну 1 біт.
У загальному випадку кількість інформації повідомлення залежить від того, в який ансамбль воно входить. Чим більша кількість повідомлень N в конкретному ансамблі, тим більша невизначеність того, яке саме повідомлення буде передано. А отже, тим більша невизначеність знімається з передачею якогось із цих повідомлень.
Кількість інформації залежить як від ступеня невизначеності подій, що реалізуються, так і від міри нашого незнання про те, що буде проходити надалі. Найлегше це проілюструвати на дослідах з кульками, які ми будемо витягати з ящика. Нехай ув першому ящику знаходиться 5 білих і 5 чорних кульок. Витягаючи одну з них, ми отримуємо один біт інформації. У другому ящику нехай міститься 1 біла і 9 чорних кульок. Витягаючи з нього чорну кульку, ми отримуємо всього 0,14 біт інформації. Звичайно, що перша система для нас має велику невизначеність, а в другій системі ми ще до реалізації певної події майже безпомилково можемо сказати, що буде витягнуто чорну кульку.
Будемо продовжувати витягати кульки з другого ящика і в певний момент витягнемо білу кульку. Надалі ми зі стопроцентною впевненістю будемо знати, що в послідуючих подіях буде витягатися чорна кулька. Тобто повністю зникла невизначеність подій. Виявляється, що і кількість інформації, отримувана тепер при витяганні чорної кульки, рівна нулю. Отже, вся невизначеність подій для другого ящика була сконцентрована в наявності в ньому однієї білої кульки. І ця невизначеність повністю вичерпується при витяганні цієї кульки із ящика .
Досліди з ящиками з кульками вказують і ще на одну особливість: не все, що є в отриманому повідомленні, є інформацією, а лише те, що нам не було відомо наперед.
Параметр кількості інформації не залежить від “цінності” новин, які закладені в даному повідомленні. Передача попередження про можливий землетрус, з точки зору теорії інформації, буде містити таку ж кількість інформації, як і передача прогнозу про хорошу погоду на завтра.
Інформація бере участь у найрізноманітніших процесах навколишнього світу, починаючи від простого механічного руху і закінчуючи процесом мислення. Але яка її загальна природа? З якими матеріальними фізичними параметрами і характеристиками вона пов’язана? Інформація в житті – це не сила і не енергія. Її природа найбільше пов’язана з ентропією систем.
8.2. Поняття про ентропію в теорії інформації. Ентропія джерела дискретних незалежних повідомлень
До цього часу ми розглядали кількість інформації, яка міститься в окремих повідомленнях. Але в багатьох випадках потрібно оцінювати інформаційні параметри не окремих повідомлень, а всього їх набору в джерелі повідомлень. Тоді виникає необхідність розглядати усереднені інформаційні характеристики. Для спрощення надалі в ролі елементарних повідомлень будемо розглядати окремі його символи.
У найпростішому випадку, коли джерело має ансамбль N незалежних рівноімовірних символів, у кожному з них міститься інформація рівна log2N. Ця величина одночасно буде і середньою кількістю інформації, яка припадає на один символ. Таким чином, при генерації рівноймовірних незалежних символів інформаційні властивості джерела залежать лише від числа символів в ансамблі N.
У реальних умовах окремі символи ансамблю мають різну ймовірність. Прикладом може бути джерело повідомлень, яке містить у ролі ансамблю набір букв алфавіту. Зрозуміло, що в тексті, який передається, різні букви будуть зустрічатися з різною ймовірністю. Зокрема, символи О, Е, А зустрічатимуться значно частіше, ніж символи Ш, Ч, Ф. Тоді виникає необхідність розглядати ймовірності появи кожного елемента ансамблю окремо: Р(а1), Р(а2), …, Р(аN). Зрозуміло, що ці різні букви-символи несуть у собі і різну кількість інформації –log2P(ai). Менш імовірні символи несуть більше інформації, і навпаки. У цьому випадку необхідно провести усереднення по всьому ансамблю і розглядати середню кількість інформації, яка припадає на один символ ансамблю:
.
Ця величина називається ентропією. Вона вимірюється в одиницях [H1(A)] = біт/(повідомлення або символ). Наведене ж співвідношення носить назви формули Шенона.
Формула Шенона дозволяє підрахувати кількість інформації в різних повідомленнях. Наприклад, вас повідомили, що в наступному році відбудеться конференція провідних спеціалістів з електроніки. Ви посилаєте організаторам запит: “Коли відбудеться ця зустріч?”. Яку кількість інформації ви маєте отримати у відповіді на це запитання? Зрозуміло, що вона буде рівна середній інформації, яка припадає на один день року. Конференція може відбутися будь-якого дня року, а тому ймовірність такої події Р = 1/365. Тоді кількість інформації, яку міститиме відповідь, що конференція відбудеться конкретного дня, наприклад, 5 серпня H1(А) = P∙log2∙P = 365∙1/365∙log21/365 = 8,5 біт.
Поняття ентропії запозичене з фізики, де ця величина характеризує невизначеність стану фізичної системи. Чим більша ця невизначеність, тим більша й ентропія системи. Наприклад, провідник, по якому протікає струм, є прикладом системи з певною ентропією. В цій системі ми можемо досить точно вказати напрям руху певного електрона від негативного полюса джерела живлення до позитивного. Невизначеність стану електронів провідника мала, і відповідно мала ентропія. Але ось ми відключили джерело живлення. Тепер певний електрон може мати будь-який напрям руху. Отже, сильно зросла невизначеність у русі електронів провідника, а відповідно зросла й ентропія системи. У теорії інформації ентропія Н(А) теж характеризує невизначеність ситуації до передачі чергового символу повідомлення, оскільки невідомо наперед, який саме символ ансамблю буде передано в даний момент. Чим більша ентропія джерела, тим більша невизначеність і тим більшу інформацію в середньому несе один символ повідомлення.
Розглянемо ентропію джерела двійкового коду, який генерує два незалежні елементарні символи а1 = 0 і а2 = 1. Нехай імовірність появи на виході джерела символу 0 рівна Р(0) = р; тоді імовірність появи символу 1 буде рівна Р(1) = 1 – р. В результаті, ентропія такого джерела . Вона залежить лише від величини імовірності р і ця залежність приведена на рис.8.2. При р = 1/2 ентропія максимальна, що відповідає найбільшій невизначеності ситуації передачі повідомлення. При р = 0 і р = 1 ентропія рівна нулю, що відповідає повній однозначності і кожен переданий символ в цьому випадку не несе ніякої інформації.
|
Рис.8.2. Залежність ентропії джерела незалежних двійкових символів від імовірності появи одного з них
|
Середня кількість інформації, яка міститься в послідовності із N елементарних повідомлень рівна NH1(A). Звідси слідує, що кількість переданої інформації можна збільшувати не лише шляхом збільшення довжин повідомлення N, але і підвищенням інформаційної ємності символів, які генерує джерело повідомлень, тобто його ентропії Н1(A).
Таким чином, інформаційну ємність джерела повідомлень характеризують його ентропією, яка має наступні властивості.
Ентропія Н(A) > 0 завжди, оскільки всі 0 Р(аі) 1.
Ентропія максимальна при рівноімовірних подіях і , де N – кількість можливих символів в ансамблі.
Ентропія рівна нулю лише в тому випадку, коли всі символи мають імовірність реалізації рівну нулю, за винятком одного, імовірність реалізації якого рівна 1.
Ентропія кількох незалежних джерел повідомлень рівна сумі ентропій цих джерел:
|