Подход к анализу новостных потоков как дискретных сигналов
Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных значений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так назы...
Gespeichert in:
Datum: | 2006 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Russian |
Veröffentlicht: |
Інститут проблем реєстрації інформації НАН України
2006
|
Schriftenreihe: | Реєстрація, зберігання і обробка даних |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/50829 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Подход к анализу новостных потоков как дискретных сигналов / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 67-73. — Бібліогр.: 9 назв. — pос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-50829 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-508292013-11-05T03:06:09Z Подход к анализу новостных потоков как дискретных сигналов Ландэ, Д.В. Інформаційно-аналітичні системи обробки даних Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных значений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время. Описано модель, у якій текстові інформаційні потоки розглядаються як дискретні сигнали, амплітудні значення яких — частотно-семантичні ранги найбільш рейтингових термінів або документів. Обґрунтовано підхід до створення інструментарію, який забезпечує перегляд так званих «маргінальних» повідомлень за тематикою, що визначена запитом користувача, тобто таких, що відповідають на запитання, про що пишуть менше за все в межах визначеної тематики останнім часом. A data processing model in which text information streams are considered as discrete signals is described. Frequency-semantic ranks of terms or documents are used as peak values of signals. Creation of the toolkit providing viewing of so-called «marginal» messages on subject-matter determined by user query is validated. The method actually answers the question — what are the least mentioned subjects within determined subject-matter for some time past. 2006 Article Подход к анализу новостных потоков как дискретных сигналов / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 67-73. — Бібліогр.: 9 назв. — pос. 1560-9189 http://dspace.nbuv.gov.ua/handle/123456789/50829 681.3 ru Реєстрація, зберігання і обробка даних Інститут проблем реєстрації інформації НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Інформаційно-аналітичні системи обробки даних Інформаційно-аналітичні системи обробки даних |
spellingShingle |
Інформаційно-аналітичні системи обробки даних Інформаційно-аналітичні системи обробки даних Ландэ, Д.В. Подход к анализу новостных потоков как дискретных сигналов Реєстрація, зберігання і обробка даних |
description |
Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных значений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время. |
format |
Article |
author |
Ландэ, Д.В. |
author_facet |
Ландэ, Д.В. |
author_sort |
Ландэ, Д.В. |
title |
Подход к анализу новостных потоков как дискретных сигналов |
title_short |
Подход к анализу новостных потоков как дискретных сигналов |
title_full |
Подход к анализу новостных потоков как дискретных сигналов |
title_fullStr |
Подход к анализу новостных потоков как дискретных сигналов |
title_full_unstemmed |
Подход к анализу новостных потоков как дискретных сигналов |
title_sort |
подход к анализу новостных потоков как дискретных сигналов |
publisher |
Інститут проблем реєстрації інформації НАН України |
publishDate |
2006 |
topic_facet |
Інформаційно-аналітичні системи обробки даних |
url |
http://dspace.nbuv.gov.ua/handle/123456789/50829 |
citation_txt |
Подход к анализу новостных потоков как дискретных сигналов / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 67-73. — Бібліогр.: 9 назв. — pос. |
series |
Реєстрація, зберігання і обробка даних |
work_keys_str_mv |
AT landédv podhodkanalizunovostnyhpotokovkakdiskretnyhsignalov |
first_indexed |
2025-07-04T12:40:49Z |
last_indexed |
2025-07-04T12:40:49Z |
_version_ |
1836720167669727232 |
fulltext |
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 67
УДК 681.3
Д. В. Ландэ
Информационный центр «ЭЛВИСТИ»
ул. М. Кривоноса, 2а, 03037 Киев, Украина
Подход к анализу новостных потоков
как дискретных сигналов
Описана модель, в которой текстовые информационные потоки рас-
сматриваются как дискретные сигналы, в качестве амплитудных зна-
чений которых выступают частотно-семантические ранги наиболее
рейтинговых терминов или документов. Обоснован подход к созданию
инструментария, обеспечивающего просмотр так называемых «мар-
гинальных» сообщений по тематике, определяемой запросом пользо-
вателя, то есть фактически дающего ответ на вопрос, о чем пишут
меньше всего в рамках данной тематики в последнее время.
Ключевые слова: информационные потоки, обработка сигналов, Ин-
тернет, текстовый корпус, ранжирование
Исследование новостной составляющей информационного пространства Ин-
тернет, то есть потока новостных сообщений, публикуемых на страницах web-
сайтов, должно использовать принципиально новый инструментарий, так как
классические методы сегодня уже не всегда приемлемы ввиду резкого увеличения
объемов и динамики информационных потоков [1].
Одна из идей, к которой все чаще обращаются в настоящее время, заключает-
ся в анализе текстовых массивов как дискретных сигналов, определяемых частот-
но-семантическими рангами [2] ключевых слов или отдельных сообщений.
В этой статье рассматривается модель, в которой аналогами дискретных сиг-
налов выступают ключевые слова (наиболее ранговые термины) из сообщений,
или отдельные сообщения информационных потоков, порождаемых информаци-
онными web-сайтами. В соответствии с приведенным ниже алгоритмом каждому
сообщению приписывается вес, который равен усредненной частоте появления во
всем информационном потоке входящих в это сообщение значимых ключевых
слов. Очевидно, чем меньше этот вес, тем документ более уникален.
Понятно, что для информационного наполнения модели необходимо исполь-
зовать достаточно мощный текстовый корпус, который был доступен автору —
это база данных системы контент-мониторинга InfoStream [3]. Система InfoStream
применяется для решения задач автоматизированного сбора новостной информа-
© Д. В. Ландэ
Д. В. Ландэ
68
ции с открытых web-сайтов, а также обеспечения доступа к ней в поисковых ре-
жимах. Эта разработанная в компании ElVisti система в настоящее время охваты-
вает ретроспективные базы данных, представляющие собой текстовый корпус
объемом свыше 20 млн. документов из 2000 источников информации.
Обработка входных сообщений в системе контент-мониторинга InfoStream и
поступление их в рассматриваемую аналитическую модель выполнялась по сле-
дующей схеме.
Новостные сообщения à конвертирование в формат системы (в том числе
автоматическая рубрикация) à стемминг (морфологическая обработка, усече-
ние флексий) à выделение ключевых слов (в рассматриваемой модели до 12) à
аналитическая модель.
Ниже приведен двухпроходный алгоритм формирования словаря уникальных
слов из входного массива из N сообщений, а затем вычисления весов отдельных
сообщений.
Этап 1: первичная обработка входного информационного массива
while количество необработанных сообщений из массива > 0 do
чтение текущего сообщения
for каждого сообщения do
while не исчерпался список ключевых слов do
for каждого ключевого слова do
if ключевое слово уже входит в словарь
then вес ключевого слова = вес ключевого слова + 1
else добавить ключевое слово в словарь с весом 1
end for
end while
end for
end while
Этап 2: повторная обработка информационного массива
while количество необработанных сообщений из массива > 0 do
чтение текущего сообщения
вес сообщения = 0
for каждого сообщения do
счетчик ключевых слов = 0
while не исчерпался список ключевых слов do
for каждого ключевого слова do
определение веса из словаря уникальных слов
вес сообщения = вес сообщения + вес слова
счетчик ключевых слов = счетчик ключевых слов + 1
end for
end while
end for
вес сообщения = вес сообщения / число ключевых слов
end while
Таким образом, вес сообщения определяется по формуле:
Подход к анализу новостных потоков как дискретных сигналов
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 69
DW
w
Dw
D
å
Î= ,
где WD — вес сообщения; w — ключевое слово из сообщения; |D| — количество
ключевых слов в документе (в рассматриваемой модели 1 ≤ |D| ≤ 12). Как видно,
при значениях β в указанном выше диапазоне w является монотонно возрастаю-
щей функцией от n.
Как следует из алгоритма, каждое сообщение в данной модели рассматрива-
ется как массив ключевых слов (Bag of Words [4]), хотя при построении модели
учитывались структурные особенности сообщений [5], в частности, при опреде-
лении веса ключевых слов учет их местоположения в тексте.
В классической пространственно-векторной модели [6] значения рангов от-
дельных ключевых слов определяется формулой TF·IDF. В данном случае TF —
это локальная частота ключевого слова (Term Frequency), а IDF — величина, об-
ратная частоте встречаемости во всем потоке документов, содержащих данный
терм (Inverse Document Frequency).
В то время как локальная частота ключевого слова в документе говорит о его
значимости в пределах документа, то обратная частота встречаемости свидетель-
ствует об уникальности ключевого слова во всем потоке документов.
В рассматриваемой модели в соотношении TF·IDF фактически анализируется
лишь второй сомножитель (а точнее, обратная ему величина), исходя из того, что
заведомо высокий уровень значений TF определяется процедурой выявления
ключевых слов, выполняемой ранее системой контент-мониторинга.
В рамках модели в качестве веса ключевых слов используется частота их по-
явлений во входном информационном потоке. В свою очередь, эта частота зави-
сит от объема самого потока и от количества уникальных слов, то есть объема ав-
томатически формируемого словаря уникальных слов. В компьютерной лингвис-
тике эмпирический закон Хипса [7] связывает объем документа с объемом слова-
ря уникальных слов, входящих в этот документ. В соответствии с законом Хипса,
эти значения связываются соотношением:
v(n) = Kn β,
где v — объем словаря уникальных слов, составленный из текста, состоящего из n
уникальных слов; K и β — определяемые эмпирически параметры. Для европей-
ских языков K принимает значения от 10 до 100, а β — от 0,4 до 0,6.
В случае анализа не полных текстов, а фиксированного количества нормиро-
ванных ключевых слов, эти параметры изменяются, однако сама закономерность
Хипса остается в силе (рис. 1).
Джордж Зипф [8] экспериментально показал, что, если для какого-либо дос-
таточно большого текста составить список всех встретившихся в нем слов, а затем
ранжировать эти слова в порядке убывания частоты встречаемости в тексте, то
для любого слова произведение его ранга в этом списке и частоты встречаемости
в тексте будет величиной постоянной, то есть f ·r = c, где f — частота встречаемо-
Д. В. Ландэ
70
сти слова в тексте; r — ранг слова в списке; с — эмпирически определяемая кон-
станта.
Рис. 1. График зависимости количества уникальных ключевых слов от общего количества
ключевых слов потока подчиняется закону Хипса. При этом K = 4, β = 0,65
В рассматриваемой же нами модели в соответствии с приведенным выше ал-
горитмом распределение весов ключевых слов вполне вписывается в закон Зипфа
(рис. 2), сформулированный изначально для ранговых распределений ненормиро-
ванных слов в полнотекстовых документах. Однако в модели вместо ранжирован-
ного сортированного словаря используется простой порядковый номер. Феномен
объясняется тем, что в соответствии с положениями математической статистики
большая часть наиболее часто встречающихся слов попадает в некоторое ограни-
ченное количество первых по порядку сообщений.
Рис. 2. Зависимость частоты уникальных слов в потоке от их порядковых номеров
Статистически связанная с названными выше закономерностями зависимость
параметров распределения весов отдельных сообщений от их порядковых номе-
ров в потоке (рис. 3) имеет вполне определенное смысловое объяснение. Оказы-
Подход к анализу новостных потоков как дискретных сигналов
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 71
вается, что амплитуда этого распределения возрастает с увеличением количества
сообщений в потоке (рис. 4). Действительно, средний вес уникального ключевого
слова равен общему числу слов из потока, разделенному на количество уникаль-
ных слов:
w(n) = n/v(n) = n1–β / K.
Этому же значению равно и математическое ожидание веса отдельного со-
общения из потока.
Рис. 3. Графики зависимости веса сообщений от их номеров в потоке.
Рассматривается два информационных потока (50 и 300 сообщений)
Рис. 4. Основные области графика распределения весов сообщений
Изображенные на рис. 4. основные области графика дискретного сигнала, со-
ответствующего информационному потоку, можно охарактеризовать следующим
Д. В. Ландэ
72
образом. Горизонтальные зоны: 1, 2, 3 — топ-новости; 4, 5, 6 — мэйнстрим; 7, 8, 9
— маргинальная зона. Вертикальные зоны: 1, 4, 7 — устаревающие сообщения; 2,
5, 8 — основная тематика; 3, 6, 9 — последние известия.
На рис. 5 приведен документ, попавший в маргинальную зону при анализе
потоков сообщений по компьютерной тематике, полученных с web-сайта
ITWARE (http://itware.com.ua). Этот пример с очевидностью подтверждает уни-
кальность содержания сообщений из этой области по сравнению с мэйнстрим-
сообщениями по информационным технологиям. Это всего лишь одно из многих
практических подтверждений корректности данной модели, подхода к созданию
инструментария в рамках системы контент-мониторинга, обеспечивающего про-
смотр маргинальных сообщений по тематике, определяемой запросом, то есть
фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной
тематики в последнее время. Этот инструментарий логически дополняет уже су-
ществующий в системе InfoStream сервис получения сюжетов из наиболее попу-
лярных сообщений [9].
Рис. 5. Сообщение по компьютерной тематике из маргинальной зоны
Подход к анализу новостных потоков как дискретных сигналов
ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 73
В заключение заметим, что предложенная модель охватывает лишь некото-
рые частотно-семантические подходы к рассмотрению текстовых информацион-
ных потоков как дискретных сигналов. Получены первые результаты исследова-
ния, которое может включать в себя более полный учет структурных особенно-
стей текстов, анализ корреляции сигналов, фильтрацию типа «сигнал–шум» и т.д.
Можно также предположить, что к обработке текстовых потоков будут примени-
мы такие популярные сегодня техники обработки сигналов как анализ главных
компонент, слепое разделение источников, вейвлеты.
1. Ландэ Д.В., Брайчевский С.М. Современные информационные потоки: актуальная про-
блематика // Научно-техническая информация. Сер. 1. — 2005. — № 11. — С. 21–33.
2. Del Corso G.M., Gulli A., and Romani F. Ranking a Stream of News // Proc. 14-th International
World Wide Web Conference. — Chiba (Japan). — 2005. — Р. 97–106.
3. Ландэ Д.В. Сканер системы контент-мониторинга InfoStream // Открытые информацион-
ные и компьютерные интегрированные технологии: Сб. науч. трудов. — Харьков: НАКУ «ХАИ»,
2005. — Вып. 28. — С. 53–58.
4. Salton G., Allan J. and Buckley C. Approaches to Passage Retrieval in Full Text Information
Systems // ACM SIGIR Conference on R&D in Information Retrieval. — 1993. — Р. 49–58.
5. Baeza-Yates R. and Ribeiro-Neto B. Modern Information Retrieval. — Addison-Wesley, 1999.
6. Chakrabarti Soumen. Mining the Web. Discovery Knowledge from Hypertext Data. — San
Francisco: Publisher Morgan Kaufmann, 2002. — 344 p.
7. Heaps H.S. Information Retrieval: Computation and Theoretical Aspects. — Orlando: Academic
Press Inc., FL, 1978. — Р. 206–208.
8. Zipf, George Kingsley. Human Behaviour and the Principle of Least Effort. — Cambridge:
Wesley, MA, 1949.
9. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. — М.: Вильямс, 2005. —
272 с.
Поступила в редакцию 02.02.2006
|