Энтропия

Форум » Сайт Щекотка.Арт » Энтропия » Ответить

Энтропия

SpiralExistence: Провела небольшое самостоятельное исследование. Написала программу, которая определяет энтропию русскоязычного текста, и прогнала через неё многие выложенные на форуме рассказы. В итоге получила значения энтропии для сочинений 13-и авторов. К сожалению, пока что моя программка вычисляет лишь энтропию первого порядка, но думаю в ближайшем времени доработать и до нахождения второго и третьего порядков. Пока же предлагаю всем ознакомиться с результатами: [pre2]@НЕЖНЫЙ ЛЕОПАРД@ 4,4429 KRR 4,4147 SpiralExistence 4,4036 bomb.3006@bk.ru 4,3959 Homyak 4,3958 Wilka 4,3930 ti-j 4,3777 I-Bell 4,3726 adm-shekotun 4,3638 Viola 4,3611 Ickis 4,3610 mark 4,3580 азазелла 4,3088[/pre2] Выводы делайте сами. P.S.: И всё-таки я рада, что оказалась среди первых, хотя и обидно, что не самой первой.

Ответов - 14

adm-shekotun: Два вопроса. 1. Что ты в данном случае имеешь ввиду? Степень вариативности? 2. Какой тип мат.модели использовала в программе? Ну, и ремарка. Собственно, кроме тебя и, в несколько меньшей степени, Леопарда все остальные авторы писали именно тематические вещи. У вас же - про вообще. То есть, скорее всего именно вас двоих и следует исключить из рейтинга ;) А вот KRR - эт да. Чисто тематический. Еще, очень странно отсутствие Jul. Думается, на первый взгляд, она могла бы быть лидером

SpiralExistence: 1. Энтропия текста - это мера его хаотичности. Вообще энтропия описывает избыточность любой информации. Чем больше энтропия - тем более избыточны рассматриваемые данные. А вот однозначно говорить о зависимости "художественности" некоего литературного произведения от энтропии его текста я бы не стала. Тем более, что пока что я нашла только энтропию по буквам, а не по словам; тем более энтропию первого порядка (т.е. минимальный элемент при расчёте - один символ, одна буква). Просто для справки: Энтропия сочинений даже писателей-классиков может сильно различаться. И хотя большинство из них находятся приблизительно на одном уровне по хаотичности художественного языка, есть отдельные имена, что вырываются резко вперёд или даже назад. Например, очень низка энтропия произведений К.Г. Паустовского - самое низкое значение среди классиков русской / советской литературы; а самое высокое значение наблюдается у М.А. Шолохова. Говорит ли это, что Паустовский плохой писатель? Я б не сказала. С другой стороны, как ни странно может показаться на первый взгляд - энтропия стихотворного текста и прозы приблизительно равны, энтропия А.С. Пушкина и В.В. Маяковского также отличаются мало. Так что слишком поспешных выводов из моего исследования делать не стоит. 2. Вначале подсчитываю кол-во использования каждой буквы в тексте, затем делю получившийся результат для каждой буквы на общее кол-во знаков в тексте, в итоге получаю вероятность каждой буквы в тексте. А дальше эти самые вероятности подставляю в формулу энтропии системы с конечным числом возможных состояний. Замечу, что заглавные и строчные формы одной и той же буквы я считаю одной буквой (думаю, это естественно). Также "е" и "ё" в моей модели - один и тот же знак, чтобы уравнять тех, кто "ё" использует, с теми, кто предпочитает ставить всегда "е". Знаки препинания не учитываются, однако пробелы - да. По ремарке. Кто такая Jel? Я пролистала всю тему "Творчество форумчан", но не нашла ни одного сочинения её. Если укажешь мне на её сочинения, я с удовольствием проанализирую и её тексты. И ещё замечу: Я включила в список исследуемых авторов тех, кто написал в "Творчестве форумчан" не слишком мало, притом хотя бы что-то писал не так давно. А вообще это исследование - что-то вроде пробы. В идеале хочется найти энтропию не по буквам, а по словам, притом как минимум первого, второго и, желательно, третьего порядков. Вскоре постараюсь сделать. Вот та уже и какие-никакие выводы делать можно будет.

adm-shekotun: Про энтропию в твоем исследовании - ясно. Про источник - текстов. Используя раздел "творчество форумчан" делаешь выборку даже в рамках форума не репрезентативной. Изначально, самые интересные рассказы вообще не выкладывались на форуме, а сразу же шли в раздел сайта с рассказами. Погляди там. И мои найдешь, тех что на форуме нет, и Jul и некоторых других. А как специалист по исследованиям поинтересуюсь задачами, которые ставились перед этой работой. Может есть более адекватные методы посчитать что-то, тебе интересное?

SpiralExistence: Теперь ясно. Посмотрю и материалы на сайте. Но, наверное, уже когда будет готова программка для расчёта по словам, а не буквам. Задачи? Как таковой задачи, пожалуй, нет. Тут скорее простое любопытство, а точнее - хочется увидеть какую-нибудь закономерность. Будет закономерность - тогда и задачи точные можно будет выдвигать для дальнейшего изучения.

mark: SpiralExistence, со школы стремился минимумом слов передать максимум информации

SpiralExistence: Просчитала ещё для шестерых: [pre2]wndr 4,4107 Drozd 4,3944 lerika 4,3736 Lonely_man 4,3656 Jul 4,3554 МЕДВЕДЬ-ЩЕКОТУН 4,3455[/pre2]

SpiralExistence: To mark: Я ни в коем случае не критикую и не пытаюсь сказать, что кто-то тут пишет плохо (специально, чтобы такого неверного понимания моих данных не было, упомянула про разброс энтропии среди классиков). Так что зря оправдываетесь. В данном случае энтропия - всего лишь математическая характеристика стиля письма.

adm-shekotun: Меня еще пересчитай, с учетом рассказов сайта ;)

SpiralExistence: To adm-shekotun: Тебя я изначально с учётом рассказов сайта считала. Ты там как Sirin обозначен, верно?

adm-shekotun: SpiralExistence пишет: Ты там как Sirin обозначен, верно? Точно, только там рассказика 4-ре есть

азазелла: SpiralExistence пишет: не самой первой. Так интересно узнать, кто первый? SpiralExistence А что это за цифры ты считаешь, ответь, будь добра?

SpiralExistence: To SpiralExistence: Скорее не так - хотелось бы быть первой. Ну, по словам, т.к., всё-таки, энтропией по буквам оценивать общий лексикон человека - явно не дело, хотя какая-никакая корреляция и тут будет. Уже написала - энтропию текста по символам. To all: Постараюсь вскоре к этой теме вернуться. Пока что слишком занята, чтоб программу писать новую (которая по словам считать уже будет).

dust: SpiralExistence пишет: Постараюсь вскоре к этой теме вернуться. Пока что слишком занята, чтоб программу писать новую (которая по словам считать уже будет). Можно банально посжимать, скажем, 5кб текста каждого автора зипом. Чем больше получившийся архив - тем больше количество инфы в тексте :-)

SpiralExistence: Дык алгоритм zip'а, во-первых, работает побитно (точнее, со словами бит различной длины) - следовательно, к оценке по словам языка отношения не имеет; а во-вторых, архивирование не позволяет точно оценить энтропию, т.к. почти всегда (да что уж там - вообще всегда, если только мы не будем специально подстраивать под алгоритм то, что хотим заархивировать) степень сжатия будет всё-таки меньше энтропии; в-третьих, часть (пусть и не столь большая) всё равно займёт словарь, что ещё сильнее исказит оценку.

полная версия страницы