Введение

Слово РЕДУНДАНТНОСТЬ происходит от латинского глагола «redundare», что означает переполнять, наполнять смыслом, изобиловать. 

Редундантность может иметь как положительный смысл - богатство, так и отрицательный - ненужный балласт. Такой двойной смысл делает это понятие интересным с точки зрения теории информации. Далее мы увидим, что РЕДУНДАНТНОСТЬ означает одновременно и богатство и балласт, в зависимости от того, кому она достается.

Определение ИНФОРМАЦИИ

Следующие определения, со значительными упрощениями, взяты из классической книги Клода Шеннона: «Математическая Теория Коммуникации», Университет Иллинойса, 1948 год.

Определение 1a: ИНФОРМАЦИЯ – это минимальное количество бит, которые должны быть использованы для кодирования Сообщения.

Определение 1б: ИНФОРМАЦИЯ – это длина кратчайшего из возможных кодов, которые можно использовать для передачи Сообщения.

Примеры ИНФОРМАЦИИ

Пример 1.1: Прогноз погоды, который ограничивается двумя возможными сообщениями "1 = солнце" и "0 = нет солнца" содержит ИНФОРМАЦИЮ в 1 бит.

Пример 1.2: Прогноз погоды, имеющий 4 альтернативы, "солнце = 11", "10 = облачно", "01 = дождь", "другие = 00", имеет ИНФОРМАЦИЮ в 2 бита.

Таким образом, принятый термин «ИНФОРМАЦИЯ» принципиально отличается от разговорного термина «Информация».  
Наш термин ИНФОРМАЦИЯ не имеет ничего общего с содержанием, а лишь определяет минимальное количеством нулей и единиц, которое необходимо для того, чтобы сообщить факт из набора возможных фактов. Если количество альтернативных фактов велико, то нам потребуется много битов для идентификации конкретного факта, а ИНФОРМАЦИЯ Сообщения при этом будет также велика.

Пример 1.3: В мире больше телефонов, чем кредитных карт. ИНФОРМАЦИЯ номера телефона соответственно должна быть больше, чем ИНФОРМАЦИЯ номера кредитной карты (несмотря на то, что номера кредитных карт обычно длиннее, чем номера телефонов, и что для мошенников номера карт представляют гораздо больший интерес).

Определение РЕДУНДАНТНОСТИ

Если Код Сообщения больше, чем это абсолютно необходимо (Длина Кода больше, чем ИНФОРМАЦИЯ Сообщения), то код содержит РЕДУНДАНТНОСТЬ.  
Определение: РЕДУНДАНТНОСТЬ это логарифм по основанию 2 от частного из Длины Кода, деленной на ИНФОРМАЦИЮ. 

Формула: РЕДУНДАНТНОСТЬ = log2 (Длина Кода / ИНФОРМАЦИЯ). 
РЕДУНДАНТНОСТЬ не может иметь отрицательные значения. 
РЕДУНДАНТНОСТЬ имеет значение ноль, если Код является наиболее коротким (Длина Кода идентична ИНФОРМАЦИИ, что встречается редко). 
РЕДУНДАНТНОСТЬ равна единице, если Длина Кода в два раза больше ИНФОРМАЦИИ. 
РЕДУНДАНТНОСТЬ больше, чем один, если Длина Кода является гораздо больше, чем ИНФОРМАЦИЯ (что среди людей и вообще в органических системах является нормой).

Примеры РЕДУНДАНТНОСТИ

Пример 2.1: Мы изменим наш прогноз погоды, и представим его в виде 8-разрядных символов ASCII: С = солнце, О = облачно, Д = дождь, ? = другое. 
ИНФОРМАЦИЯ при этом остается размером 2 бит, Длина Кода увеличивается от 2 до 8 бит. РЕДУНДАНТНОСТЬ этого кода равна log2(8/2) = log2 (4) = 2.

Пример 2.2: Мы, меняем наш прогноз погоды, и представляем его в виде семи 8-разрядных символов ASCII: Солнце = солнце, Облачно = облачно, Дождь = дождь, ? = другое. 
ИНФОРМАЦИЯ остается 2 бит, длина кода увеличивается от 2 до 7*8-бит. 
РЕДУНДАНТНОСТЬ этого кода равна log2(56/2) = log2 (28) = 4,8.

Пример 2.3: Мы меняем представление прогноза погоды на иконки (мини-картинки размером 32 x 32 пикселя). ИНФОРМАЦИЯ остается 2 бит, Длина Кода увеличивается с 2 бит до 32 * 32 * 8 бит. РЕДУНДАНТНОСТЬ этого кода равна log2(32*32*8/2) = 5 + 5 + 3-1 = 12.

Сравнение примеров РЕДУНДАНТНОСТИ


Пример 1.2
с 2-х битным Кодом

Пример 2.3 с Иконками

ИНФОРМАЦИЯ

2 Бита

2 Бита

Длина Кода

2 Бита

8*32*32 = 8192 Бита

РЕДУНДАНТНОСТЬ 

log2(1) = 0

log2(4096) = 12

Объем передаваемых данных

минимален

значителен

небольшая ошибка при передаче данных

полная потеря

не имеет значения

Пригодность для передачи Сообщения между Людьми

плохая, необходима инструкция с таблицей соответствия

оптимальна, интуитивно понятно, не требует знаний языков и умения читать.

Пригодность для передачи Сообщения между Компьютерами

оптимальна. Программа оценки данных потребует лишь три if-перехода.

нулевая,  потому что существует так много вариантов изображений для солнца и т.д., что ни одна программа не может охватить все.


Выводы
  • Чтобы закодировать меньше вариантов, вам нужно меньше ИНФОРМАЦИИ. Чтобы закодировать много вариантов, вам нужно больше ИНФОРМАЦИИ. Кодируя ИНФОРМАЦИЮ, вы должны определиться с РЕДУНДАНТНОСТЬЮ. 
  • Нулевая РЕДУНДАНТНОСТЬ - это почти всегда плохо, потому что такие коды являются чрезвычайно неустойчивыми к ошибкам и неразборчивы для интерпретации. 
  • Чем выше РЕДУНДАНТНОСТЬ кода, тем более отказоустойчивым он является и тем лучше он понимается людьми. 
  • Чем больше РЕДУНДАНТНОСТЬ, тем больше требуется объема памяти и ширины канала для передачи Кода и тем сложнее будет компьютеру понять этот Код.
  • Люди хорошо воспринимают РЕДУНДАНТНОСТЬ, а компьютеры ненавидят РЕДУНДАНТНОСТЬ. Коды с низкой РЕДУНДАНТНОСТЬЮ (телефонные номера, номерные знаки автомобилей, номера банковских счетов, и т.д.) не подходят для людей.
  • Для компьютера не подходят коды с высокой РЕДУНДАНТНОСТЬЮ (язык, образы, музыка). Компьютер не может удалить избыточность природных кодов, таких как изображения или языки общения человека. 
  • Чрезвычайно трудно, автоматически устранить РЕДУНДАНТНОСТЬ для очистки ИНФОРМАЦИИ. РЕДУНДАНТНОСТЬ практически «прилипает» к коду. 
  • При вводе данных в компьютер - человеку приходится в значительной степени избавляться от естественной для него РЕДУНДАНТНОСТИ (клавиатура).
    При выводе данных для человека – компьютеру приходится преодолевать свою естественно низкую РЕДУНДАНТНОСТЬ и создавать демонстрационный код с высокой РЕДУНДАНТНОСТЬЮ (Монитор).
  • Есть глупая РЕДУНДАНТНОСТЬ (множественное повторение одного и того же) и интеллигентная РЕДУНДАНТНОСТЬ (художественные вариации). Музыка – это чистая РЕДУНДАНТНОСТЬ. Она не содержит никаких Сообщений, и все же музыка может быть полна духа и гениальности.

Центральной проблемой взаимосвязи между машиной и человеком является адаптация РЕДУНДАНТНОСТИ.

Тот факт, что каждый компьютер вынуждает своего владельца отказаться от редундантности, чтобы поговорить с ним, вызывает обеспокоенность – не принуждает ли компьютер своего владельца становиться более отсталым. Для общения с компьютером человек должен быть кратким, воздерживаться от логических выводов и ассоциаций, он должен формулировать все просто и однозначно. Это бесчеловечно. Но это как водить и летать – при отсутствии собственного движения тела наши ноги не отмирают. Масса мусора в Интернете не является доказательством того, что сеть физиологически повреждает мозг.

Сравнение

Компьютер

Человек

Ввод[бит/сек]

1 Гиг

100 Гиг

Вывод [бит/сек]

1 Гиг

1 Кило

РЕДУНДАНТНОСТЬ

0 bis 4

10 bis 14

Базовый Код

0 und 1

неизвестно

Форма записи Кода

магнитная

неизвестно

Форма передачи Кода

Прямоугольные импульсы

Мембранный потенциал

Операции с числами

хорошо

плохо

Операции с Изображением и Звуком

только через оцифровку

хорошо

Способность к идентичным повторам

очень хорошо

нулевая

Однозначность

почти всегда

почти никогда

Помехоустойчивость

нулевая

хорошая

Обучаемость

плохая

хорошая


История Информатики

Параллельно с развитием растровых дисплеев, примерно с 1980 года из старой Информатики (Обработка Данных) появилась новая Информатика (на базе графического интерфейса Человек-Машина), которую можно разделить на несколько направлений, опираясь на концепцию РЕДУНДАНТНОСТИ:

1. Data Processing = Обработка данных = классическая Информатика = преобразование цифр и букв в другие цифры и буквы = трансляция Кода с низкой РЕДУНДАНТНОСТЬЮ в другой Код с низкой РЕДУНДАНТНОСТЬЮ
Примеры: Финансы, Управление, Базы данных, Компьютерные сети, Математика, Статистика.


2. Computer Graphics = Компьютерная Графика = конвертация Цифр в Изображение = трансляция Кода с низкой РЕДУНДАН
ТНОСТЬЮ в Код с высокой РЕДУНДАНТНОСТЬЮ.
Примеры: Пользовательский интерфейс (Graphical User Interface) = GUI of Mac+Windows+Linux, Черчение = Computer Aided Design = CAD, Замена Цифр на графики, Развлечения = Игры + Фильмы.


3. Image Processing = Обработка Изображений = Преобразование Изображений в другие (измененные) Изображения = Трансляция Кода с высокой РЕДУНДАНТНОСТЬЮ в другой Код высокой РЕДУНДАН
ТНОСТЬЮ.
Примеры: Сканеры, Копировальные машины, Цифровое ТВ, Компьютерная Томография, Ультразвуковое Исследование, Радар.


4. Computer Vision = Компьютерное Зрение = Распознавание Образов
 = Pattern Recognition = Результат анализа цифровых изображений = трансляция Кода с высокой РЕДУНДАНТНОСТЬЮ в Код с низкой РЕДУНДАНТНОСТЬ = Уничтожение РЕДУНДАНТНОСТИ.
Примеры: считывание штрих-кода, распознавание текста = Optical Character Recognition = OCR, Распознавание номеров автомашин, отпечатков пальцев, Хромосом, Опухолей и т.д.

Старая Информатика 1940 - 1980-й годы

Современная Информатика после 1980-го года

Концептуальные проблемы ИНФОРМАЦИИ и РЕДУНДАНТНОСТИ

1. Проблема: оба определения ИНФОРМАЦИИ, далеки от того, что обычно понимается по термином информации. Сообщения «в реке Прегель плавают дельфины» и «в реке Прегель плавают бутылки» не содержат близкую по смыслу информацию. Но для их минимального кодирования требуется примерно равное число бит.
Выход: Шеннон (см. выше) предлагает использовать обратное значение вероятности (Энтропию) как меру ИНФОРМАЦИИ. Это предложение является гениальным, но практически трудно применимым, так как в этом случае необходимо знать все альтернативы, которые должны быть независимы друг от друга, чтобы можно было определит вероятность определенного Сообщения.

2. Проблема: термины ИНФОРМАЦИЯ и РЕДУНДАНТНОСТЬ точно применимы только в области телекоммуникаций. За пределами информационных технологий эти термины редко поддаются количественным измерениям. Но это не означает, что эти термины бесполезны. Даже без количественной оценки эти два термина являются незаменимыми, если требуются множественные процессы преобразования (транскодировки) Сообщений между людьми и медиа-сферой.
Пример: Массивный роман Льва Толстого «Война и мир» был много раз экранизирован в различном качестве. Передача текста романа (например, через Интернет) требует гораздо меньше бит, чем передача одного из фильмов. Может показаться, что даже в худшей версии фильма содержится больше ИНФОРМАЦИИ, чем в романе. Но правда в том, что фильмы уничтожают ИНФОРМАЦИЮ, потому что они представляют только центральные фрагменты и линии романа, опуская значительную часть характерных элементов. Таким образом, создание фильма — это уничтожение ИНФОРМАЦИИ при создании огромной РЕДУНДАН
ТНОСТИ.

3. Проблема: существует мнение, что компьютерная деятельность аналогична человеческому мышлению. По правде говоря, эти аналогии поверхностны и различия между компьютерным и человеческим «мышлениями» огромны. Органические системы эволюционно оптимизированы для обработки огромных потоков данных, которые полны ошибок. Компьютеры эволюционно оптимизированы для обработки минимальных потоков данных, которые практически не содержат ошибок. К примеру, человеческий глаз содержат 120 миллионов сенсорных клеток (= около 60 гигабит/сек один глаз), и не смотря на несовершенство своего устройства, не идеальность оптической системы и нестабильность несущей платформы в виде черепа, глаз отлично справляется с основной задачей – распознавание еды и опасности в меняющемся окружении – днем и ночью, под солнцем и под дождем.

Термины ИНФОРМАЦИИ и РЕДУНДАНТНОСТИ подчеркивают следующие различия: компьютеры работают с ИНФОРМАЦИЕЙ и поэтому беспомощны против сопутствующих помех, Биосистемы работают с РЕДУНДАТНОСТЬЮ и поэтому являются невероятно помехоустойчивыми. Вы должны реалистично оценивать низкую способность к кооперации таких различных систем обработки информации: люди никогда не смогут быть друзьями компьютеров, Интерфейс человек-машина всегда будет оставаться источником боли для прошлых, нынешних и будущих поколений - Смягчение этой Боли является центральной задачей Информатики.

Генетический Код

Геном Человека представляет собой цепочку из 3,2 млрд. двойных битов 00, 01, 10, 11. То есть одна цепочка - это примерно 6,4 млрд. бит или 800 мегабайт, что помещается на один CD-диск. Каждая клетка моего тела, в количестве от 1013 до 1014 хранит в себе копию этого CD-диска и собственный CD-writer. 
Помимо Генома Человека на этом "диске" почти полностью закодированы и некоторые животные и растения,  и при этом наш CD не имеет никакой четкой структуры или описания содержания. Хотя генетический Код, записанный за миллиарды лет эволюции, разделен на 46 Хромосом, в целом - это неструктурированный поток данных, без глав, абзацев, точек и запятых. Невероятно сложно выяснить где, как и какие биологические свойства закодированы в этом потоке. 

Главная проблема - высокая РЕДУНДАНТНОСТЬ Генома, которая равна, как минимум log2(128) = 7, а может даже log2(1024) = 10. 
Почти все свойства многократно (минимум дважды) закодированы в различных местах. 
Дублирующие коды очень схожи, но не идентичны. 
Вероятно, что многократно закодированы те участки, на которых проводятся эксперименты. Копии используются для мутаций, в то время, как Оригинал остается законсервирован. 
По длине отдельных участков Кода невозможно определить ни его важность, не его сложность. Кроме того, Гены могут менять свои позиции, передвигаться и случайным образом встраиваться внутри Генома. При репродукции хромосом, после деления клетки, возникают удивительные ошибки копирования. Если часть Кода много раз повторяется, это не говорит о его важности. Даже давно забытый рудимент может многократно повторяться.
Сверхсложная система управления развитием эмбриона (Гомеозисные Гены), может быть закодирована коротко и с низкой РЕДУНДАТНОСТЬЮ, в тоже время энзимы (простые ферменты) кодируются длинно и сложно.
Длинные последовательности внутри одного гена могут точно повторяться или не повторяться, никак не влияя при этом на функцию этого гена.

Очевидно, не существует никакого специального плана строительства человека, скорее, наш Геном содержит почти все планы для почти всего, что когда-либо жило. Большая часть Кода Генома Человека совпадает с кодами всей живности на Земле, такими как - помидоры, дрожжи, бактерии, насекомые и давно вымершие твари. Подобно операционной системе Windows, Эволюция жизни сохраняет совместимость с давно написанным кодом.
Примерно на 80% Геном Человека идентичен мухам дрозофила, на 98,4% идентичен обезьянам. Наш генетический код похоже является  операционной системой 
не только Человеческого вида, но и всей Жизни на Земле.
Трудно поверить, что лишь 1,6% Генома является Божьей Искрой - способности к языкам, музыке и математике.
Вероятно, что возможности Человека базируются не на этих 1,6% специального человеческого кода, а скорее на богатстве перемешанных инструкций для построения белков, которые нужны только для того, чтобы активировать следующие инструкции. 
И мы лишь потому не стали помидорами или дрозофилами, что почти каждый ген контролируется сверхсложной панелью управления, которая способна этот ген активировать. Эти контрольные панели образуются подвижными сигнальными молекулами и только эти сложные химические реакции и сигнальные каскады делают нас Человеком → Epigenetics.