Подход к анализу новостных потоков как дискретных сигналов

Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных значений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так назы...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2006
1. Verfasser: Ландэ, Д.В.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут проблем реєстрації інформації НАН України 2006
Schriftenreihe:Реєстрація, зберігання і обробка даних
Schlagworte:
Online Zugang:http://dspace.nbuv.gov.ua/handle/123456789/50829
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Подход к анализу новостных потоков как дискретных сигналов / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 67-73. — Бібліогр.: 9 назв. — pос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-50829
record_format dspace
spelling irk-123456789-508292013-11-05T03:06:09Z Подход к анализу новостных потоков как дискретных сигналов Ландэ, Д.В. Інформаційно-аналітичні системи обробки даних Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных значений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время. Описано модель, у якій текстові інформаційні потоки розглядаються як дискретні сигнали, амплітудні значення яких — частотно-семантичні ранги найбільш рейтингових термінів або документів. Обґрунтовано підхід до створення інструментарію, який забезпечує перегляд так званих «маргінальних» повідомлень за тематикою, що визначена запитом користувача, тобто таких, що відповідають на запитання, про що пишуть менше за все в межах визначеної тематики останнім часом. A data processing model in which text information streams are considered as discrete signals is described. Frequency-semantic ranks of terms or documents are used as peak values of signals. Creation of the toolkit providing viewing of so-called «marginal» messages on subject-matter determined by user query is validated. The method actually answers the question — what are the least mentioned subjects within determined subject-matter for some time past. 2006 Article Подход к анализу новостных потоков как дискретных сигналов / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 67-73. — Бібліогр.: 9 назв. — pос. 1560-9189 http://dspace.nbuv.gov.ua/handle/123456789/50829 681.3 ru Реєстрація, зберігання і обробка даних Інститут проблем реєстрації інформації НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Інформаційно-аналітичні системи обробки даних
Інформаційно-аналітичні системи обробки даних
spellingShingle Інформаційно-аналітичні системи обробки даних
Інформаційно-аналітичні системи обробки даних
Ландэ, Д.В.
Подход к анализу новостных потоков как дискретных сигналов
Реєстрація, зберігання і обробка даних
description Описана модель, в которой текстовые информационные потоки рассматриваются как дискретные сигналы, в качестве амплитудных значений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «маргинальных» сообщений по тематике, определяемой запросом пользователя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время.
format Article
author Ландэ, Д.В.
author_facet Ландэ, Д.В.
author_sort Ландэ, Д.В.
title Подход к анализу новостных потоков как дискретных сигналов
title_short Подход к анализу новостных потоков как дискретных сигналов
title_full Подход к анализу новостных потоков как дискретных сигналов
title_fullStr Подход к анализу новостных потоков как дискретных сигналов
title_full_unstemmed Подход к анализу новостных потоков как дискретных сигналов
title_sort подход к анализу новостных потоков как дискретных сигналов
publisher Інститут проблем реєстрації інформації НАН України
publishDate 2006
topic_facet Інформаційно-аналітичні системи обробки даних
url http://dspace.nbuv.gov.ua/handle/123456789/50829
citation_txt Подход к анализу новостных потоков как дискретных сигналов / Д.В. Ландэ // Реєстрація, зберігання і оброб. даних. — 2006. — Т. 8, № 1. — С. 67-73. — Бібліогр.: 9 назв. — pос.
series Реєстрація, зберігання і обробка даних
work_keys_str_mv AT landédv podhodkanalizunovostnyhpotokovkakdiskretnyhsignalov
first_indexed 2025-07-04T12:40:49Z
last_indexed 2025-07-04T12:40:49Z
_version_ 1836720167669727232
fulltext ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 67 УДК 681.3 Д. В. Ландэ Информационный центр «ЭЛВИСТИ» ул. М. Кривоноса, 2а, 03037 Киев, Украина Подход к анализу новостных потоков как дискретных сигналов Описана модель, в которой текстовые информационные потоки рас- сматриваются как дискретные сигналы, в качестве амплитудных зна- чений которых выступают частотно-семантические ранги наиболее рейтинговых терминов или документов. Обоснован подход к созданию инструментария, обеспечивающего просмотр так называемых «мар- гинальных» сообщений по тематике, определяемой запросом пользо- вателя, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время. Ключевые слова: информационные потоки, обработка сигналов, Ин- тернет, текстовый корпус, ранжирование Исследование новостной составляющей информационного пространства Ин- тернет, то есть потока новостных сообщений, публикуемых на страницах web- сайтов, должно использовать принципиально новый инструментарий, так как классические методы сегодня уже не всегда приемлемы ввиду резкого увеличения объемов и динамики информационных потоков [1]. Одна из идей, к которой все чаще обращаются в настоящее время, заключает- ся в анализе текстовых массивов как дискретных сигналов, определяемых частот- но-семантическими рангами [2] ключевых слов или отдельных сообщений. В этой статье рассматривается модель, в которой аналогами дискретных сиг- налов выступают ключевые слова (наиболее ранговые термины) из сообщений, или отдельные сообщения информационных потоков, порождаемых информаци- онными web-сайтами. В соответствии с приведенным ниже алгоритмом каждому сообщению приписывается вес, который равен усредненной частоте появления во всем информационном потоке входящих в это сообщение значимых ключевых слов. Очевидно, чем меньше этот вес, тем документ более уникален. Понятно, что для информационного наполнения модели необходимо исполь- зовать достаточно мощный текстовый корпус, который был доступен автору — это база данных системы контент-мониторинга InfoStream [3]. Система InfoStream применяется для решения задач автоматизированного сбора новостной информа- © Д. В. Ландэ Д. В. Ландэ 68 ции с открытых web-сайтов, а также обеспечения доступа к ней в поисковых ре- жимах. Эта разработанная в компании ElVisti система в настоящее время охваты- вает ретроспективные базы данных, представляющие собой текстовый корпус объемом свыше 20 млн. документов из 2000 источников информации. Обработка входных сообщений в системе контент-мониторинга InfoStream и поступление их в рассматриваемую аналитическую модель выполнялась по сле- дующей схеме. Новостные сообщения à конвертирование в формат системы (в том числе автоматическая рубрикация) à стемминг (морфологическая обработка, усече- ние флексий) à выделение ключевых слов (в рассматриваемой модели до 12) à аналитическая модель. Ниже приведен двухпроходный алгоритм формирования словаря уникальных слов из входного массива из N сообщений, а затем вычисления весов отдельных сообщений. Этап 1: первичная обработка входного информационного массива while количество необработанных сообщений из массива > 0 do чтение текущего сообщения for каждого сообщения do while не исчерпался список ключевых слов do for каждого ключевого слова do if ключевое слово уже входит в словарь then вес ключевого слова = вес ключевого слова + 1 else добавить ключевое слово в словарь с весом 1 end for end while end for end while Этап 2: повторная обработка информационного массива while количество необработанных сообщений из массива > 0 do чтение текущего сообщения вес сообщения = 0 for каждого сообщения do счетчик ключевых слов = 0 while не исчерпался список ключевых слов do for каждого ключевого слова do определение веса из словаря уникальных слов вес сообщения = вес сообщения + вес слова счетчик ключевых слов = счетчик ключевых слов + 1 end for end while end for вес сообщения = вес сообщения / число ключевых слов end while Таким образом, вес сообщения определяется по формуле: Подход к анализу новостных потоков как дискретных сигналов ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 69 DW w Dw D å Î= , где WD — вес сообщения; w — ключевое слово из сообщения; |D| — количество ключевых слов в документе (в рассматриваемой модели 1 ≤ |D| ≤ 12). Как видно, при значениях β в указанном выше диапазоне w является монотонно возрастаю- щей функцией от n. Как следует из алгоритма, каждое сообщение в данной модели рассматрива- ется как массив ключевых слов (Bag of Words [4]), хотя при построении модели учитывались структурные особенности сообщений [5], в частности, при опреде- лении веса ключевых слов учет их местоположения в тексте. В классической пространственно-векторной модели [6] значения рангов от- дельных ключевых слов определяется формулой TF·IDF. В данном случае TF — это локальная частота ключевого слова (Term Frequency), а IDF — величина, об- ратная частоте встречаемости во всем потоке документов, содержащих данный терм (Inverse Document Frequency). В то время как локальная частота ключевого слова в документе говорит о его значимости в пределах документа, то обратная частота встречаемости свидетель- ствует об уникальности ключевого слова во всем потоке документов. В рассматриваемой модели в соотношении TF·IDF фактически анализируется лишь второй сомножитель (а точнее, обратная ему величина), исходя из того, что заведомо высокий уровень значений TF определяется процедурой выявления ключевых слов, выполняемой ранее системой контент-мониторинга. В рамках модели в качестве веса ключевых слов используется частота их по- явлений во входном информационном потоке. В свою очередь, эта частота зави- сит от объема самого потока и от количества уникальных слов, то есть объема ав- томатически формируемого словаря уникальных слов. В компьютерной лингвис- тике эмпирический закон Хипса [7] связывает объем документа с объемом слова- ря уникальных слов, входящих в этот документ. В соответствии с законом Хипса, эти значения связываются соотношением: v(n) = Kn β, где v — объем словаря уникальных слов, составленный из текста, состоящего из n уникальных слов; K и β — определяемые эмпирически параметры. Для европей- ских языков K принимает значения от 10 до 100, а β — от 0,4 до 0,6. В случае анализа не полных текстов, а фиксированного количества нормиро- ванных ключевых слов, эти параметры изменяются, однако сама закономерность Хипса остается в силе (рис. 1). Джордж Зипф [8] экспериментально показал, что, если для какого-либо дос- таточно большого текста составить список всех встретившихся в нем слов, а затем ранжировать эти слова в порядке убывания частоты встречаемости в тексте, то для любого слова произведение его ранга в этом списке и частоты встречаемости в тексте будет величиной постоянной, то есть f ·r = c, где f — частота встречаемо- Д. В. Ландэ 70 сти слова в тексте; r — ранг слова в списке; с — эмпирически определяемая кон- станта. Рис. 1. График зависимости количества уникальных ключевых слов от общего количества ключевых слов потока подчиняется закону Хипса. При этом K = 4, β = 0,65 В рассматриваемой же нами модели в соответствии с приведенным выше ал- горитмом распределение весов ключевых слов вполне вписывается в закон Зипфа (рис. 2), сформулированный изначально для ранговых распределений ненормиро- ванных слов в полнотекстовых документах. Однако в модели вместо ранжирован- ного сортированного словаря используется простой порядковый номер. Феномен объясняется тем, что в соответствии с положениями математической статистики большая часть наиболее часто встречающихся слов попадает в некоторое ограни- ченное количество первых по порядку сообщений. Рис. 2. Зависимость частоты уникальных слов в потоке от их порядковых номеров Статистически связанная с названными выше закономерностями зависимость параметров распределения весов отдельных сообщений от их порядковых номе- ров в потоке (рис. 3) имеет вполне определенное смысловое объяснение. Оказы- Подход к анализу новостных потоков как дискретных сигналов ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 71 вается, что амплитуда этого распределения возрастает с увеличением количества сообщений в потоке (рис. 4). Действительно, средний вес уникального ключевого слова равен общему числу слов из потока, разделенному на количество уникаль- ных слов: w(n) = n/v(n) = n1–β / K. Этому же значению равно и математическое ожидание веса отдельного со- общения из потока. Рис. 3. Графики зависимости веса сообщений от их номеров в потоке. Рассматривается два информационных потока (50 и 300 сообщений) Рис. 4. Основные области графика распределения весов сообщений Изображенные на рис. 4. основные области графика дискретного сигнала, со- ответствующего информационному потоку, можно охарактеризовать следующим Д. В. Ландэ 72 образом. Горизонтальные зоны: 1, 2, 3 — топ-новости; 4, 5, 6 — мэйнстрим; 7, 8, 9 — маргинальная зона. Вертикальные зоны: 1, 4, 7 — устаревающие сообщения; 2, 5, 8 — основная тематика; 3, 6, 9 — последние известия. На рис. 5 приведен документ, попавший в маргинальную зону при анализе потоков сообщений по компьютерной тематике, полученных с web-сайта ITWARE (http://itware.com.ua). Этот пример с очевидностью подтверждает уни- кальность содержания сообщений из этой области по сравнению с мэйнстрим- сообщениями по информационным технологиям. Это всего лишь одно из многих практических подтверждений корректности данной модели, подхода к созданию инструментария в рамках системы контент-мониторинга, обеспечивающего про- смотр маргинальных сообщений по тематике, определяемой запросом, то есть фактически дающего ответ на вопрос, о чем пишут меньше всего в рамках данной тематики в последнее время. Этот инструментарий логически дополняет уже су- ществующий в системе InfoStream сервис получения сюжетов из наиболее попу- лярных сообщений [9]. Рис. 5. Сообщение по компьютерной тематике из маргинальной зоны Подход к анализу новостных потоков как дискретных сигналов ISSN 1560-9189 Реєстрація, зберігання і обробка даних, 2006, Т. 8, № 1 73 В заключение заметим, что предложенная модель охватывает лишь некото- рые частотно-семантические подходы к рассмотрению текстовых информацион- ных потоков как дискретных сигналов. Получены первые результаты исследова- ния, которое может включать в себя более полный учет структурных особенно- стей текстов, анализ корреляции сигналов, фильтрацию типа «сигнал–шум» и т.д. Можно также предположить, что к обработке текстовых потоков будут примени- мы такие популярные сегодня техники обработки сигналов как анализ главных компонент, слепое разделение источников, вейвлеты. 1. Ландэ Д.В., Брайчевский С.М. Современные информационные потоки: актуальная про- блематика // Научно-техническая информация. Сер. 1. — 2005. — № 11. — С. 21–33. 2. Del Corso G.M., Gulli A., and Romani F. Ranking a Stream of News // Proc. 14-th International World Wide Web Conference. — Chiba (Japan). — 2005. — Р. 97–106. 3. Ландэ Д.В. Сканер системы контент-мониторинга InfoStream // Открытые информацион- ные и компьютерные интегрированные технологии: Сб. науч. трудов. — Харьков: НАКУ «ХАИ», 2005. — Вып. 28. — С. 53–58. 4. Salton G., Allan J. and Buckley C. Approaches to Passage Retrieval in Full Text Information Systems // ACM SIGIR Conference on R&D in Information Retrieval. — 1993. — Р. 49–58. 5. Baeza-Yates R. and Ribeiro-Neto B. Modern Information Retrieval. — Addison-Wesley, 1999. 6. Chakrabarti Soumen. Mining the Web. Discovery Knowledge from Hypertext Data. — San Francisco: Publisher Morgan Kaufmann, 2002. — 344 p. 7. Heaps H.S. Information Retrieval: Computation and Theoretical Aspects. — Orlando: Academic Press Inc., FL, 1978. — Р. 206–208. 8. Zipf, George Kingsley. Human Behaviour and the Principle of Least Effort. — Cambridge: Wesley, MA, 1949. 9. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. — М.: Вильямс, 2005. — 272 с. Поступила в редакцию 02.02.2006