Форум осваивающих КОБ - Показать сообщение отдельно - Способы ведения информационных войн, тактика и стратегия

assistant · #15 01.02.2010, 11:26

Вернёмся к модели воспринимающего субъекта, и 256 возможных сообщений для него. Такой субъект может набирать закономерности в последовательности сообщений, например, по алгоритму сжатия LZW.

Суть алгоритма LZW в следующем. Основные его объекты: поток символов, словарь, текущая цепочка символов. Если текущая цепочка символов не содержится в словаре, то она добавляется в словарь и текущая цепочка опустошается, осуществляется переход к следующему символу. Если цепочка символов содержится в словаре, то текущая цепочка символов увеличивается на следующий символ из потока. Таким образом, в словаре накапливаются (частотно равномерно) цепочки, причём так, что все их начальные подцепочки тоже будут содержаться в словаре.

Реализация такого алгоритма позволит создать "интеллектуальный протез" для оценки плотности информации в каком-либо тексте. После создания (достаточно большого) словаря на основе обработки большого объёма данных, можно будет оценивать (например, в битах) количество информации в каком-либо тексте, разбивая его на цепочки, содержащиеся в словаре по формуле: I = n * Log2(N), где n - количество выявленных в тексте цепочек, а Log2(N) - логарифм по основанию 2 от количества цепочек в словаре.

Согласно статистическому закону о суммировании большого множества вероятностных величин, распределение плотностей информации на единичный символ: D = I / Len (где I - количество информации в тексте, Len - количество символов в нём, его длина), в большой массе текстов будет близко к нормальному. Из этого, можно вывести классификацию текстов по плотности информации в них:
Если "сигма" - дисперсия нормального распределения, а Dm - среднее значение плотности информации, то большинство текстов, в интервале от "Dm - сигма" до "Dm + сигма" будут "массовые" тексты.
В интервале от "Dm - 2*сигма" до "Dm - сигма" - "графоманские" тексты.
От 0 до "Dm - 2*сигма" - "бездарные" тесты.
От "Dm + сигма" до "Dm + 2*сигма" - "прогрессивные" тексты.
И, наконец, от "Dm + 2*сигма" до 8 - "элитарные" тексты.

Применяя такой алгоритм, можно давать формальную оценку качества текста. Конечно, это только "интеллектуальный протез", который должен быть использован для повышения собственного чувства меры в оценке текста. Однако, применяя его на начальном этапе в качестве первичного фильтра, для отсева (хотя бы бездарных и графоманских) текстов вы сможете приобрести навык самостоятельного различения содержательных текстов от пустых.
_____________________
Читинцы! Объединяемся!