Фрактальные свойства тематических информационных потоков из Интернет
Рассмотрены фрактальные свойства информационных потоков из Интернет. В качестве базы данных для вычислительного эксперимента выбрана система мониторинга сетевых новостей InfoStream. Представлена методика вычисления показателей Херста для кластера, определенного тематикой запроса, приведена качествен...
Збережено в:
Дата: | 2006 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут проблем реєстрації інформації НАН України
2006
|
Назва видання: | Реєстрація, зберігання і обробка даних |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/50844 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Фрактальные свойства тематических информационных потоков из Интернет / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 2. — С. 93-99. — Бібліогр.: 6 назв. — pос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-50844 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-508442013-11-05T03:07:10Z Фрактальные свойства тематических информационных потоков из Интернет Ландэ, Д.В. Системи збереження і масового розповсюдження даних Рассмотрены фрактальные свойства информационных потоков из Интернет. В качестве базы данных для вычислительного эксперимента выбрана система мониторинга сетевых новостей InfoStream. Представлена методика вычисления показателей Херста для кластера, определенного тематикой запроса, приведена качественная интерпретация результатов. Розглянуто фрактальні властивості інформаційних потоків з Інтернет. Як базу даних для обчислювального експерименту обрано систему моніторингу мережних новин InfoStream. Представлено методику обчислення показників Хьорста для кластера, визначеного тематикою запиту, наведено якісну інтерпретацію результатів. Fractal properties of information streams from the Internet are examined. As a database for computing experiment, the network news monitoring system InfoStream is chosen. The technique of calculation of Hurst’s parameters for thematic cluster and qualitative interpretation of results are presented. 2006 Article Фрактальные свойства тематических информационных потоков из Интернет / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 2. — С. 93-99. — Бібліогр.: 6 назв. — pос. 1560-9189 http://dspace.nbuv.gov.ua/handle/123456789/50844 681.3 ru Реєстрація, зберігання і обробка даних Інститут проблем реєстрації інформації НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Системи збереження і масового розповсюдження даних Системи збереження і масового розповсюдження даних |
spellingShingle |
Системи збереження і масового розповсюдження даних Системи збереження і масового розповсюдження даних Ландэ, Д.В. Фрактальные свойства тематических информационных потоков из Интернет Реєстрація, зберігання і обробка даних |
description |
Рассмотрены фрактальные свойства информационных потоков из Интернет. В качестве базы данных для вычислительного эксперимента выбрана система мониторинга сетевых новостей InfoStream. Представлена методика вычисления показателей Херста для кластера, определенного тематикой запроса, приведена качественная интерпретация результатов. |
format |
Article |
author |
Ландэ, Д.В. |
author_facet |
Ландэ, Д.В. |
author_sort |
Ландэ, Д.В. |
title |
Фрактальные свойства тематических информационных потоков из Интернет |
title_short |
Фрактальные свойства тематических информационных потоков из Интернет |
title_full |
Фрактальные свойства тематических информационных потоков из Интернет |
title_fullStr |
Фрактальные свойства тематических информационных потоков из Интернет |
title_full_unstemmed |
Фрактальные свойства тематических информационных потоков из Интернет |
title_sort |
фрактальные свойства тематических информационных потоков из интернет |
publisher |
Інститут проблем реєстрації інформації НАН України |
publishDate |
2006 |
topic_facet |
Системи збереження і масового розповсюдження даних |
url |
http://dspace.nbuv.gov.ua/handle/123456789/50844 |
citation_txt |
Фрактальные свойства тематических информационных потоков из Интернет / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 2. — С. 93-99. — Бібліогр.: 6 назв. — pос. |
series |
Реєстрація, зберігання і обробка даних |
work_keys_str_mv |
AT landédv fraktalʹnyesvojstvatematičeskihinformacionnyhpotokovizinternet |
first_indexed |
2025-07-04T12:42:02Z |
last_indexed |
2025-07-04T12:42:02Z |
_version_ |
1836720243904348160 |
fulltext |
Системи збереження
і масового розповсюдження даних
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 2 93
УДК 681.3
Д. В. Ландэ
Информационный центр «ЭЛВИСТИ»
ул. М. Кривоноса, 2а, 03037 Киев, Украина
Фрактальные свойства тематических
информационных потоков из Интернет
Рассмотрены фрактальные свойства информационных потоков из
Интернет. В качестве базы данных для вычислительного эксперимен-
та выбрана система мониторинга сетевых новостей InfoStream.
Представлена методика вычисления показателей Херста для класте-
ра, определенного тематикой запроса, приведена качественная ин-
терпретация результатов.
Ключевые слова: информационные потоки, стохастические фракта-
лы, Интернет, показатель Херста, размерность фрактальная.
Фракталы и временные ряды
Новостная составляющая информационного пространства Интернет сегодня
настолько значительна по своим объему и динамике, что может рассматриваться
как мощный информационный поток [1]. Причем поток достаточно неоднород-
ный, который может характеризоваться большим количеством параметров, среди
которых выделяются такие как источники информации (web-сайт) и тематики.
Именно их можно рассматривать как лежащие на поверхности основы для класте-
ризации [2].
В то время, как для традиционных средств научной коммуникации подходы к
кластеризации с точки зрения теории фракталов были впервые исследованы Ван
Рааном, анализировавшим массивы статей и связи, образуемые цитированием,
информационные потоки сообщений из Интернет до последнего времени не ассо-
циировались с фракталами, что связано с проблемами идентификации информа-
ционных потоков как фрактальных множеств, а также с трудностью нахождения
основ для построения кластеров — сообщений в политематических потоках, по-
рождающих многократное цитирование.
По этой же причине в рамках данной статьи исследуются количественные ха-
рактеристики лишь тематических информационных потоков, которые характери-
зуются итеративностью при формировании и вполне доступны как для количест-
венного, так и для качественного анализа.
© Д. В. Ландэ
Д. В. Ландэ
94
Объемы сообщений в тематических информационных потоках образуют вре-
менные ряды. Для исследования временных рядов сегодня все шире используется
теория фракталов, традиционная область применения которой — фрактальная
геометрия, обработка изображений и т.п. [3]. Вместе с тем временные ряды, по-
рождаемые тематическими информационными потоками, также обладают фрак-
тальными свойствами [4] и могут рассматриваться как стохастические фракталы
[5, 6]. Этот подход расширяет область применения теории фракталов на информа-
ционные потоки, динамика которых описывается средствами теории случайных
процессов.
С другой стороны, теория фракталов рассматривается как подход к статисти-
ческому исследованию, который позволяет получать важные характеристики ин-
формационных потоков, не вдаваясь в детальный анализ их внутренней структу-
ры и связей. Одним из основных свойств фракталов является самоподобие (скей-
линг). Как показано в работах С.А. Иванова, для последовательности сообщений
тематических информационных потоков в соответствии со скейлинговым прин-
ципом, количество сообщений, резонансов на события реального мира пропор-
ционально некоторой степени количества источников информации (кластеров) и
итерационно продолжается в течение определенного времени. Точно так же, как и
в традиционных научных коммуникациях, растущее множество сообщений в Ин-
тернет по одной тематике во времени представляет собой динамическую кластер-
ную систему, возникающую в результате итерационных процессов. Этот процесс
объясняется републикациями, прямой или совместной цитируемостью, различ-
ными публикациями — отражениями одних и тех же событий реального мира,
прямыми ссылками и т.д. Кроме того, для большинства тематических информа-
ционных потоков наблюдается увеличение их объемов, причем на коротких вре-
менных интервалах — линейный рост, а на длительных — экспоненциальный.
Фрактальная размерность в кластерной системе, соответствующей тематиче-
ским информационным потокам, показывает степень заполнения информацион-
ного пространства сообщений в течение определенного времени:
Nпубл = e rNk (t) r, (1)
где Nпубл — размер кластерной системы (общее число электронных публикаций в
информационном потоке); Nk — размер — число кластеров (тематик или источ-
ников); r — фрактальная размерность информационного массива; e — коэффи-
циент масштабирования. В приведенном соотношении между количеством сооб-
щений и кластеров проявляется свойство сохранения внутренней структуры мно-
жества при изменении масштабов его внешнего рассмотрения.
По мнению С.А. Иванова, все основные законы научной коммуникации, та-
кие как законы Парето, Лотки, Бредфорда, Зипфа, могут быть обобщены именно в
рамках теории стохастических фракталов.
Показатель Херста
Сегодня в связи с развитием теории стохастических фракталов становится
популярной такая характеристика временных рядов как показатель Херста (H). В
Фрактальные свойства тематических информационных потоков из Интернет
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 2 95
книге Е. Федера [4] показано, что он связан с традиционной «клеточной» фрак-
тальной размерностью (Θ) простым соотношением:
Θ = 2 – H. (2)
Условие, при котором показатель Херста связан с фрактальной «клеточной»
размерностью в соответствии с формулой (2), определено Е. Федером следующим
образом: «… рассматривают клетки, размеры которых малы по сравнению как с
длительностью процесса, так и с диапазоном изменения функции; поэтому со-
отношение справедливо, когда структура кривой, описывающая фрактальную
функцию, исследуется с высоким разрешением, т.е. в локальном пределе». Еще
одним важным условием является самоаффинность функции. Не вдаваясь в под-
робности заметим, что для информационных потоков это свойство интерпретиру-
ется как самоподобие, возникающее в результате процессов их формирования.
Можно отметить, что указанными свойствами обладают не все информационные
потоки, а лишь те, которые характеризуются достаточной мощностью и итератив-
ностью при формировании. При этом временные ряды, построенные на основании
мощных тематических информационных потоков, вполне удовлетворяют этому
условию. Поэтому при расчете показателя Херста, фактически определяется и та-
кой показатель тематического информационного потока как фрактальная размер-
ность.
Известно, что показатель Херста представляет собой меру персистентности
— склонности процесса к трендам (в отличие от обычного броуновского движе-
ния). Значение H > ½ означает, что направленная в определенную сторону дина-
мика процесса в прошлом, вероятнее всего, повлечет продолжение движения в
том же направлении. Если H < ½, то прогнозируется, что процесс изменит на-
правленность. H = ½ означает неопределенность — броуновское движение.
Для изучения фрактальных характеристик тематических информационных
потоков изучались значения показателя Херста за определенный период для вре-
менных рядов, составленных из количества относящихся к ним сообщений. Пока-
затель Херста связывают с коэффициентом нормированного размаха (R/S), где R
— вычисляемый определенным образом «размах» соответствующего временного
ряда, а S — стандартное отклонение.
Показатель Херста вычисляется по следующему алгоритму. Сначала вычис-
ляется среднее значение измеряемой переменной (в нашем случае количество со-
общений в информационном потоке) за N дней:
)(1
1
t
N
N
t
N xx å
=
=>< . (3)
Затем рассчитывается накопившееся отклонение ряда измерений x(t) от сред-
него N>< x :
))((),(
1
N
t
u
uNtX ><-=å
=
xx . (4)
Д. В. Ландэ
96
После этого определяется разность максимального и минимального нако-
пившегося отклонения, которая и называется «размахом»:
),(min),(max)( 11 NtXNtXNR NtNt ££££ -= . (5)
Стандартное отклонение рассчитывается по известной формуле:
2/12
1
)))((1( N
N
t
tNS ><-= å
=
xx . (6)
В свое время Херст экспериментально обнаружил, что для многих временных
рядов справедливо:
HNSR )2/(/ = . (7)
Именно коэффициент H и получил название показателя Херста.
Вычислительный эксперимент
В качестве экспериментальной базы для исследования фрактальных свойств
тематических информационных потоков использовалась система контент-мони-
торинга InfoStream, разработанная в Информационном центре «ЭЛВИСТИ». Эта
система, которая применяется для решения задач автоматизированного сбора но-
востной информации с открытых web-сайтов и обеспечения доступа к ней в поис-
ковых режимах, в настоящее время охватывает свыше 2000 источников информа-
ции — более 40000 уникальных новостных сообщений в сутки. В ретроспектив-
ных базах данных системы накоплено свыше 25 млн. сообщений.
Тематика исследуемого информационного потока определялась запросом к
системе InfoStream, состоящим всего из одного слова «Microsoft». Ретроспектив-
ный период исследования составлял весь 2005 год и 2 месяца 2006 года, т.е. 424
дня (N = 424). В результате поиска было найдено 42357 релевантных документов.
Исходные данные были получены из интерфейса режима «Динамика появле-
ния понятий» (рис. 1). На основании обработки этих данных была получена пол-
ная картина экспериментальных данных — временной ряд за указанный период
(рис. 2).
Для этого временного ряда по формуле (6) было вычислено стандартное от-
клонение (S = 43,71). Одновременно, с помощью механизма формирования основ-
ных сюжетов, входящего в состав системы InfoStream, были определены основ-
ные события, приведшие к возникновению пиковых значений на диаграмме.
На рис. 3 представлена динамика накопления отклонения, которая была вы-
числена в соответствии с формулой (4) и позволила в соответствии с формулой (5)
определить «размах» этого параметра (R = 1207,64).
И наконец, для значения N = 424 по формуле (7) был вычислен показатель
Херста, который оказался равным 0,62, что свидетельствует о положительной
персистентности всего временного ряда.
Фрактальные свойства тематических информационных потоков из Интернет
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 2 97
Рис. 1. Фрагмент диаграммы динамики встречаемости понятия «Microsoft»
Рис. 2. Временной ряд встречаемости понятия за весь период. Пиковые значения: встречи в Давосе
(конец января 2005 г.); признание журналом Forbes Б. Гейтса самым богатым человеком в мире
(март 2005 г.); публикация журналом Time 100 самых влиятельных людей планеты (апрель 2005 г.);
атака сетевого червя ZOTOB (август 2005 г.); 50-летний юбилей Б. Гейтса (конец октября 2005 г.)
Д. В. Ландэ
98
Рис. 3. Динамика накопления отклонения
Кроме того, были выполнены расчеты показателей Херста для всех значений
N, начиная с 5, результаты которых приведены на рис. 4.
Рис. 4. Значения показателя Херста для различных временных интервалов
Интерпретация результатов
Изучение такой характеристики как показатель Херста позволяет прогнози-
ровать динамику информационных потоков, сообщения которых отражают про-
цессы, происходящие в реальном мире.
Приведенные в примере данные подтвердили лежащее в основе исследования
предположение об итеративности процессов в информационном пространстве.
Републикации, цитирование, прямые ссылки и т.п. порождают самоподобие, про-
являющееся в устойчивых статистических распределениях и известных эмпири-
Фрактальные свойства тематических информационных потоков из Интернет
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 2 99
ческих законах. Скейлинговый принцип объясняется также сходством ментально-
сти авторов, публикующих сообщения в Интернет. Вместе с тем различные мар-
кетинговые, рекламные, PR-кампании ведут к скачкообразным изменениям в ста-
бильных статистических закономерностях, резким скачкам и искажениям по
сравнению со стандартными статистическими распределениями.
В результате эксперимента также подтверждено наличие статистической кор-
реляции в информационных потоках на длительных временных интервалах.
В частности, на рассматриваемом примере, показана персистентность про-
цесса, что говорит, об общем среднем увеличении публикации о компании Micro-
soft, периодическом появлении пиков, связанных, как правило, с двумя подтема-
ми-кластерами — личностью Билла Гейтса (четыре из пяти топ-кластеров) и от-
ражениями вирусных атак (пятый топ-кластер).
Естественно, описанные результаты исследований могут использоваться не
только для приведенного тематического информационного канала. Своего иссле-
дования ждут кластеры, порождаемые в соответствии и с другими принципами,
например, близкими по направлениям источниками информации (web-сайтами,
сетевыми СМИ, блогами и др.)
1. Брайчевский С.М., Ландэ Д.В. Современные информационные потоки: актуальная пробле-
матика // Научно-техническая информация. — Сер. 1. — 2005. — № 11. — С. 21–33.
2. Van Raan A.F.J. Fractal Geometry of Information Space as Represented by Cocitation
Clustering // Scientometrics. —1991. — Vol. 20, N 3. — Р. 439–449.
3. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. — М.: Вильямс, 2005. —
272 с.
4. Федер Е. Фракталы. —М.: Мир, 1991. — 254 с.
5. Иванов С.А. Стохастические фракталы в Информатике // Научно-техническая информа-
ция. — Сер. 2. — 2002. — № 8. — С. 7–18.
6. Иванов С.А., Круковская Н.В. Статистический анализ документальных информационных
потоков // Научно-техническая информация. Информ. процессы и системы. — Сер. 2. — 2004. —
№ 2. — С. 11–14.
Поступила в редакцию 15.03.2006
|