Компьютерная обработка текстов в качественных и количественных социологических исследованиях

The author substantiates the necessity of computerized work with texts in qualitative and quantitative empirical sociological studies. Based on the analysis of opportunities provided by known software for work with texts the author offers a procedure with text data in quantitative and mixed (cont...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2006
Автор: Горбачик, А.
Формат: Стаття
Мова:Russian
Опубліковано: Iнститут соціології НАН України 2006
Назва видання:Социология: теория, методы, маркетинг
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/90293
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Компьютерная обработка текстов в качественных и количественных социологических исследованиях / А. Горбачик // Социология: теория, методы, маркетинг. — 2006. — № 1. — С. 124–133. — Бібліогр.: 5 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-90293
record_format dspace
spelling irk-123456789-902932016-01-07T11:13:31Z Компьютерная обработка текстов в качественных и количественных социологических исследованиях Горбачик, А. The author substantiates the necessity of computerized work with texts in qualitative and quantitative empirical sociological studies. Based on the analysis of opportunities provided by known software for work with texts the author offers a procedure with text data in quantitative and mixed (containing both qualitative and quantitative) empirical research. Besides, he suggests the program realization of this procedure as an extension to the statistical analysis package named as a Sociological Questionnaire Handling (SQH). 2006 Article Компьютерная обработка текстов в качественных и количественных социологических исследованиях / А. Горбачик // Социология: теория, методы, маркетинг. — 2006. — № 1. — С. 124–133. — Бібліогр.: 5 назв. — рос. 1563-4426 http://dspace.nbuv.gov.ua/handle/123456789/90293 ru Социология: теория, методы, маркетинг Iнститут соціології НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
description The author substantiates the necessity of computerized work with texts in qualitative and quantitative empirical sociological studies. Based on the analysis of opportunities provided by known software for work with texts the author offers a procedure with text data in quantitative and mixed (containing both qualitative and quantitative) empirical research. Besides, he suggests the program realization of this procedure as an extension to the statistical analysis package named as a Sociological Questionnaire Handling (SQH).
format Article
author Горбачик, А.
spellingShingle Горбачик, А.
Компьютерная обработка текстов в качественных и количественных социологических исследованиях
Социология: теория, методы, маркетинг
author_facet Горбачик, А.
author_sort Горбачик, А.
title Компьютерная обработка текстов в качественных и количественных социологических исследованиях
title_short Компьютерная обработка текстов в качественных и количественных социологических исследованиях
title_full Компьютерная обработка текстов в качественных и количественных социологических исследованиях
title_fullStr Компьютерная обработка текстов в качественных и количественных социологических исследованиях
title_full_unstemmed Компьютерная обработка текстов в качественных и количественных социологических исследованиях
title_sort компьютерная обработка текстов в качественных и количественных социологических исследованиях
publisher Iнститут соціології НАН України
publishDate 2006
url http://dspace.nbuv.gov.ua/handle/123456789/90293
citation_txt Компьютерная обработка текстов в качественных и количественных социологических исследованиях / А. Горбачик // Социология: теория, методы, маркетинг. — 2006. — № 1. — С. 124–133. — Бібліогр.: 5 назв. — рос.
series Социология: теория, методы, маркетинг
work_keys_str_mv AT gorbačika kompʹûternaâobrabotkatekstovvkačestvennyhikoličestvennyhsociologičeskihissledovaniâh
first_indexed 2025-07-06T18:27:11Z
last_indexed 2025-07-06T18:27:11Z
_version_ 1836923153291411456
fulltext Алексей Горбачик Компьютерная обработка текстов в социологических исследованиях АЛЕКСЕЙ ГОРБАЧИК, àñïèðàíò Íàöèîíàëüíîãî óíèâåðñèòåòà “Êèåâî-Ìîãèëÿíñêàÿ àêàäåìèÿ” Abstract The author substantiates the necessity of computerized work with texts in qualitative and quantitative empirical sociological studies. Based on the analysis of opportunities provided by known software for work with texts the author offers a procedure with text data in quantitative and mixed (containing both qualitative and quantitative) empi� rical research. Besides, he suggests the program realization of this procedure as an extension to the statistical analysis package named as a Sociological Questionnaire Handling (SQH). Развитие компьютерных технологий дало ощутимый толчок примене% нию количественных методов в эмпирических социологических исследова% ниях. Сложные вычисления с большим объемом эмпирических данных, ра% нее выполнявшиеся в течение нескольких недель, теперь осуществляются за считанные секунды с минимальными затратами труда на формулирование задачи для использования соответствующего количественного метода. Неко% торые количественные методы, ранее существовавшие фактически только на бумаге и не имевшие широкого применения из%за сложности расчетов, после создания соответствующих общедоступных компьютерных программ полу% чили распространение и стали стандартным исследовательским инструмен% том. Исследователь получил возможность формулировать и быстро прове% рять с использованием собранных эмпирических данных множество содер% жательных гипотез. Компьютерные программы эффективно выполняют тех% ническую работу в рамках конкретных исследований, тогда как формулиров% ка гипотез, постановка задачи и содержательная интерпретация полученных результатов остаются за исследователем. Среди компьютерных программ, чаще всего используемых в работе отечественными специалистами, следует назвать американский пакет статистического анализа данных SPSS и отечес% 124 Социология: теория, методы, маркетинг, 2006, 1 твенную разработку — пакет ОСА. Известны отнюдь не единичные и посто% янно появляются новые попытки создания автоматических аналитических систем, однако качество полученных с их применением результатов пока уступает результатам работы человека%аналитика. В результате значитель% ного прогресса в сфере информационных технологий ныне количественные эмпирические социологические исследования требуют меньше средств и времени, то есть являются более оперативными. К тому же результаты таких исследований более точны и статистически обоснованны. Качественные методы эмпирических социологических исследований, которые часто называют интерпретативными [1], оказались более сложны% ми для компьютерной реализации. Это во многом связано с тем, что сами процессы понимания и интерпретации сложны для формализации. Многие качественные подходы требуют тщательного анализа именно первичной (то есть не прошедшей предварительной формальной категоризации и/или об% общения) информации самим исследователем. В таких условиях компью% терные средства можно использовать как важные, однако всего лишь вспо% могательные технические инструменты. Тем не менее, определенные, и весьма существенные сдвиги в направлении компьютеризации произошли и в сфере качественных эмпирических социологических исследований. В основном, когда речь идет о качественных эмпирических исследова% ниях, говорят об анализе документов. При этом документ понимают в широ% ком смысле, трактуя в качестве документов разного рода тексты, изображе% ния (рисунки, фотографии), аудио% и видеозаписи и т.п. Но одним из наибо% лее часто употребляемых форматов данных для анализа в качественных ис% следованиях являются собственно тексты. Поэтому именно обработки тек% стов касается большинство разработок компьютерных систем для поддер% жки качественных исследований. Одной из первых компьютерных программ для анализа текстов можно считать “The General Inquirer”, созданную еще в 1966 году. Эта программа по% зволяла на основе анализа введенного в компьютер текста создать словарь этого текста, сгруппировать в этом словаре слова по определенным категори% ям, подсчитать частоту употребления в тексте определенных слов и катего% рий, а также частоту общего вхождения тех или иных слов или категорий. То есть эта программа автоматизировала определенную часть работы, которую выполняют исследователи, работающие по методу контент%анализа текстов. Этой программой, в частности, пользовались историки и лингвисты. С тех пор, за последние 40 лет, разработано немало различных компью% терных программ автоматического анализа текстов. Среди них такие, кото% рые базируются на структурных особенностях языка и позволяют на основе определенных формальных критериев выделять важные смысловые фраг% менты (термины, словосочетания и т.п.), характеризующие содержание тек% ста. Прикладная ценность результатов, полученных к настоящему времени в этом направлении, ограничивается преимущественно автоматическим рефе% рированием научно%технических текстов и созданием систем автоматическо% го поиска документов (в библиотеках, крупных учреждениях, всемирной компьютерной сети). Сочетание этих достижений с результатами работ в об% ласти экспертных систем и искусственного интеллекта может дать качес% твенно новые компьютерные средства содержательного анализа качествен% ных данных, хотя это все равно не решает проблемы понимания текста. Ведь Социология: теория, методы, маркетинг, 2006, 1 125 Компьютерная обработка текстов в социологических исследованиях действительное понимание сложных по смыслу текстов, с которыми обычно имеют дело социологи (жизненных историй, глубинных интервью, просто кратких ответов на открытые вопросы в формализованных опросниках) не% возможно без обращения к контексту интервью, к жизненному опыту да и к здравому смыслу, что пока остается недоступным даже для развитых систем семантического анализа обычных (не искусственных) языков. Поэтому сей% час при анализе текстов качественных социологических исследований ком% пьютер может оказаться полезным исследователю прежде всего как эффек% тивный инструмент обработки, а не содержательного анализа текстов. Мож% но назвать следующие сферы возможного применения компьютера в работе с текстами в качественных социологических исследованиях: — ввод, хранение, редактирование и копирование (создание необходи% мого для работы количества копий) данных; — преобразование данных или их фрагментов в различные форматы, что зачастую необходимо при использовании в анализе разных тех% нических или программных средств; — структурирование данных качественных исследований, упорядоче% ние фрагментов таких данных по различным критериям и создание баз данных; — быстрый и эффективный поиск и отбор информации по разным кри% териям в базе данных исследования; — автоматический количественный контент%анализ в базе данных ис% следования (вычисление статистических характеристик текстов на основе результатов поиска в базе данных исследования по конкрет% ным критериям); — кодирование документов — отнесение фрагментов текста, изображе% ния, аудио% или видеозаписей к определенным содержательным кате% гориям путем присвоения этим фрагментам соответствующих число% вых кодов, что позволяет отбирать и группировать фрагменты по со% держательным критериям в дальнейшем анализе; — запись и сохранение в соответствующей базе данных комментариев и примечаний, связанных с определенными фрагментами текстов (это не только фиксирует историю процесса создания категорий и коди% рования текста, но и служит основой для дальнейшего углубленного анализа); — создание и визуализация структур во множестве категорий и/или вы% деление фрагментов путем установления связей между соответству% ющими кодами (анализ таких структур полезен при анализе содержа% ния текста и служит основой для построения тех или иных объясни% тельных теорий, связанных с текстом); — определение количественных характеристик текстов, проведение ко% личественных вычислений, которые могут применяться даже в качес% твенных исследованиях; — организация коллективной работы группы исследователей над об% щим проектом; — подготовка и оформление отчета по исследованию. Таким образом, компьютерные программы способны существенно по% высить эффективность и надежность значительного объема технических 126 Социология: теория, методы, маркетинг, 2006, 1 Алексей Горбачик работ, связанных с проведением качественных исследований (введение, со% хранение, редактирование, упорядочение, визуализация, поиск и отбор ин% формации, коммуникация между исследователями и т.п.). Использование компьютеров упрощает организацию коллективной работы по анализу ка% чественной информации. Это снижает затраты на проведение исследова% ния, повышает его качество и валидность. Условно компьютерные программы, направленные на поддержку ка% чественных социологических исследований, можно классифицировать сле% дующим образом [3]: 1. Текстовые процессоры и редакторы. Этот класс включает множество программ для ввода и редактирования текстов. В качестве примера, в частности, можно назвать такие программные комплексы, как MS Word, Word Perfect, WordPad и многие другие, ставшие уже стандартными и привычными. Действительно полезными не только для ввода и редактирования, но и для более сложной обработки текс% тов являются те программы данного класса, которые имеют разви% тый набор операций с текстами, позволяют осуществлять поиск с ис% пользованием сложных образцов (в том числе делают возможной за% пись образцов для поиска в виде регулярных выражений) и имеют широкие возможности построения макросов (специальных неболь% ших программ, обеспечивающих многоразовое применение и повто% рение последовательности операций по поиску и редактированию текстов). Примером такой достаточно развитой системы является MS Word, ставший уже стандартной программой для подготовки, ре% дактирования и форматирования различного рода текстов. 2. Программы текстового поиска. Программы этого класса предназна% чены для поиска в больших массивах текста с использованием весьма сложных критериев, учитывающих особенности грамматики языка. Примерами таких специализированных программ служат системы Metamorph, Orbis, Sonar Professional, The Text Collector, WordCrun% cher, ZyINDEX. Проблемой использования подобных программ в отечественной практике является то, что они тесно “привязаны” к конкретному языку (его правилам словообразования, грамматиче% ским конструкциям и т.п.), а значит, непосредственное применение разработанных для англоязычных текстов программ для анализа, скажем, текстов на украинском языке, малоэффективно. Определен% ные проблемы могут возникнуть и тогда, когда тексты содержат фрагменты на разных языках. Примером может быть такая типичная ситуация, когда в украинском тексте (скажем, в стенограмме фо% кус%группового интервью) попадаются определенные предложения и даже абзацы на русском языке (если кто%то из участников фо% кус%группы высказывает свое мнение на русском языке). 3. Менеджеры текстовых баз данных. Программы этого класса позво% ляют в большом количестве текстов выделять множество фрагмен% тов, а также организовывать, упорядочивать и связывать эти фраг% менты между собой. Примерами таких специализированных про% грамм являются системы askSam, Folio VIEWS, MAX, Tabletop. Эти программы весьма полезны в рамках анализа сообщений СМИ, пред% ставления конкретной темы в сегменте Интернета и т.п. Социология: теория, методы, маркетинг, 2006, 1 127 Компьютерная обработка текстов в социологических исследованиях 4. Программы для кодирования и поиска. Программы данного класса по% зволяют выделять в тексте (как правило, речь идет о работе не с одним большим текстом, а с их совокупностью) фрагментов разного размера, приписывать им числовые коды и таким образом распреде% лять эти фрагменты между определенными категориями для даль% нейшего анализа. Примерами таких специализированных программ являются системы HyperQual2, Kwalitan, Martin, QUALPRO, The Ethnograph. Процесс кодирования (детальнее он будет рассмотрен ниже) не является автоматическим, осуществляется исследователем творчески, исходя из теоретических концепций исследования и, как правило, сопровождается созданием системы соответствующих ка% тегорий и содержательным комментированием всех своих действий. Поэтому программы кодирования имеют мощные возможности по% иска в текстах. Закодированные тесты служат основой для содержа% тельного анализа и написания отчетов по исследованию. В частнос% ти, возможность отбирать фрагменты, относящиеся к определенным категориям, позволяет исследователю насыщать свое “плотное опи% сание” нужными цитатами. 5. Программы для создания, визуализации и анализа структур катего� рий. Программы этого класса дают возможность в процессе построе% ния категорий для кодирования определять нужные отношения на множестве категорий и таким образом создавать на множестве катего% рий определенные структуры (зачастую речь идет либо об упорядо% ченных списках, либо об иерархических деревьях, либо о сетях). Визу% альный анализ графической подачи таких структур в совокупности с соответствующими фрагментами текстов, отнесенными к определен% ным категориям, нередко оказывается эффективным инструментом выявления латентного (неочевидного) содержания совокупности тек% стов. Примерами подобного рода аналитических инструментов явля% ются программы AQUAD, ATLAS/ti, HyperRESEARCH, NUD.IST. Некоторая условность такой классификации программных систем за% ключается в том, что не всегда ту или иную конкретную программу можно четко отнести только к одной категории. Часто программные системы орга% низованы как некая совокупность операций, покрывающих спектр дейст% вий из разных категорий. Но не все программные системы ориентированы исключительно на подачу и автоматизацию определенного набора взаимос% вязанных операций с текстами. Сейчас активно разрабатываются и совер% шенствуются различные специализированные программы, которые под% держивают достаточно сложные теоретические подходы к качественному анализу информации. В частности, такие программы, как NUD.IST, ATLAS/ti и WinMax, по мнению их авторов [2], полностью нацелены на поддержку такого известного подхода к анализу качественных данных, как “метод построения обоснованных теорий” (“Grounded Theories”) [5]. Согласно методу обоснованных теорий исследователь может начинать обработку данных еще до завершения этапа сбора данных. Тщательно ана% лизируя имеющиеся в распоряжении данные, исследователь не только при% бегает к кодированию, но и направляет дальнейший процесс сбора дополни% тельных, новых данных в соответствии с “теоретической выборкой”. Под “теоретической выборкой” понимается целенаправленный отбор информа% 128 Социология: теория, методы, маркетинг, 2006, 1 Алексей Горбачик ции, основанный на содержательных категориях, возникающих в процессе анализа имеющихся данных, а также в процессе проверки гипотез и теорий, построенных исследователем. В ходе аналитической работы исследователь пишет комментарии, в которых фиксирует идеи, положенные в основу сис% темы категорий и выбора кодов, взаимосвязи между категориями и т.п. При этом нередко взаимосвязи между фрагментами текста, категориями, соот% ветствующими кодами и комментариями могут быть визуализированы в виде графов. То есть процессы построения выборки, сбора данных и анализа собранных данных не только развиваются параллельно, но и взаимодейст% вуют друг с другом. Результатом такой деятельности исследователя являет% ся постепенное построение концептуальной структуры, пребывающей в не% прерывном развитии на протяжении всего исследования. Центральным процессом в работе исследователя по методу обоснован% ных теорий является кодирование. Выделяют как минимум три типа коди% рования [5]: 1. Открытое кодирование — концептуальное формулирование важных для цели исследования свойств объектов, о которых собирают ин% формацию, и определение диапазона возможных изменений таких свойств (по крайней мере, определение полярных значений); эти сво% йства выступают как категории для кодирования. 2. Осевое кодирование — концентрация внимания исследователя на од% ной категории, ее углубленная детализация, анализ структуры кате% гории, возможное выделение определенных подкатегорий. 3. Выборочное кодирование — построение структур путем определения отношений или связей разного типа между категориями, введенны% ми в анализ ранее. Кодирование можно рассматривать как важный шаг к формализации ка% чественных, слабо структурированных данных. В результате кодирования исследователь получает набор переменных, фиксирующих определенные ха% рактеристики текста (в дальнейшем для большей определенности мы будем говорить о текстах, хотя подобный подход можно применять и для качествен% ной информации иного типа). Полученные как результат кодирования пере% менные могут быть дихотомическими (фиксировать наличие или отсутствие в тексте определенной категории или признака), порядковыми (фиксировать интенсивность какого%либо признака) или метрическими (фиксировать определенное количественное значение, например возраст респондента). Использовать такие переменные для вычисления корреляций, проведения факторного анализа или построения регрессий в большинстве случаев невоз% можно, поскольку выборка в качественных исследованиях небольшая, труд% но говорить о наличии нормального распределения и т.п. Тем не менее для этих переменных можно вычислять описательные статистики, коэффициен% ты и показатели, основанные на χ2 , проводить автоматическую классифика% цию (то есть применять методы кластерного анализа) и т.п. Полученные та% ким образом характеристики, разумеется, нельзя изучать традиционными для статистики методами проверки значимости, однако они могут быть по% лезны для генерации гипотез, выдвижения определенных предположений относительно исследуемой проблемы. Необходимость работать со слабоструктурированными данными, в час% тности с текстами, возникает не только в качественных, но и в количествен% Социология: теория, методы, маркетинг, 2006, 1 129 Компьютерная обработка текстов в социологических исследованиях ных социологических исследованиях. Во%первых, в последние годы все чаще планируют и проводят крупные комплексные социологические иссле% дования, которые содержат как “качественную”, так и “количественную” со% ставляющую. Такой подход весьма интересен, поскольку позволяет рабо% тать и с формализованными (количественными) данными, касающимися тематики исследования, и с качественными данными, которые не только служат основанием для гипотез, предполагающих “количественную” про% верку, но и являются важным дополнительным средством поддержки ре% зультатов анализа количественных данных (своего рода элементом методи% ческой триангуляции в рамках комплексного исследования), а также важ% ным инструментом улучшения содержательной интерпретации результа% тов количественного анализа. Во%вторых, и в сугубо количественных (или “преимущественно количественных”) исследованиях работа с фрагмента% ми текстов необходима при проведении не только контент%анализа, уже ставшего традиционным, но и при использовании таких распространенных в практике эмпирических социологических исследований методов сбора информации, как анкетирование и интервью. Речь идет, в первую очередь, о так называемых открытых и полуоткрытых вопросах формализованных опросников. Весьма часто в формализованных опросниках открытых вопросов ста% раются избегать. Считают, что подготовка к количественному, в основном статистическому, анализу информации, полученной при помощи таких во% просов, сложна и трудоемка. Но в некоторых исследованиях такие вопросы важны, прежде всего исходя из темы исследования. К ним относятся и ис% следования, связанные с изучением биографий. Разумеется, исследователь может попытаться заранее формализировать биографию респондента как последовательность определенного типа событий и определить характерис% тики каждого из них. Но, с одной стороны, трудно предусмотреть перед на% чалом работы все возможные события биографий разных респондентов, си% туации, в которых им пришлось оказаться, формы их деятельности, профес% сии и т.п. И даже если все возможные варианты можно учесть заранее (на% пример, создать стандартизированный перечень всех специальностей или сфер производственной деятельности), эти перечни могут оказаться такими большими и сложными (полный список профессий может состоять из не% скольких сотен позиций), что непосредственно представить их для выбора респонденту и даже интервьюеру практически невозможно. К тому же “сво% бодный” (или близкий к таковому) рассказ респондента о своей жизни отличается (даже в психологическом плане) от “заполнения формуляров” стандартизированных опросников. Таким образом, нередко открытых или полуоткрытых вопросов не избежать даже в собственно количественных исследованиях с формализованными опросниками. Обычная схема работы с открытыми и полуоткрытыми вопросами пред% полагает следующие этапы: 1. Интервьюер записывает как можно точнее в отведенное для этого место в опроснике ответ респондента на открытый или полуоткры% тый вопрос. В случае полуоткрытого вопроса интервьюер также от% мечает в опроснике код или несколько кодов закрытых (формализо% ванных заранее) вариантов ответа на вопрос. 130 Социология: теория, методы, маркетинг, 2006, 1 Алексей Горбачик 2. После завершения сбора данных (полевого этапа исследования) все тексты ответов выписывают на специальные карточки. Такую работу может делать ассистент исследователя. 3. Исследователь читает все карточки, подготовленные на этапе 2, и со% здает для вопроса схему кодирования. Эта схема включает перечень понятий с комментариями и уникальный код для каждого из этих по% нятий. В случае полуоткрытого вопроса схема кодирования содержит понятия, дополняющие перечень возможных ответов, сформулиро% ванных заранее. Выписывать ответы лучше именно на карточки, по% скольку при построении схемы кодирования исследователю часто приходится группировать и упорядочивать тексты ответов по различ% ным критериям, создавать связанные по смыслу группы ответов и т.п. 4. Исследователь или специально обученные кодировщики вниматель% но читают все тексты ответов на вопрос и, пользуясь комментариями к категориям в схеме кодирования, приписывают каждому ответу один или несколько кодов категорий. Эти коды заносятся в опросник. 5. После того, как все открытые и полуоткрытые вопросы закодирова% ны, опросник передают операторам для ввода собранных данных в компьютер. Как уже отмечалось, исследователь может заранее, до начала исследова% ния, подготовить схему кодирования, которая оказывается настолько слож% ной (сформулированной в абстрактных терминах, содержащей множество категорий и кодов), что ее нельзя непосредственно отразить в анкете как пе% речень возможных ответов на вопрос. В таком случае шаги 2 и 3 не нужны. Но все равно этап кодирования перед началом ввода данных в компьютер необходим и в таких случаях. Основные недостатки такого “закрытия” открытых и полуоткрытых воп% росов заключаются, во%первых, в том, что ввод информации можно начинать только после того, как закодированы все открытые и полуоткрытые вопросы. Часто это неудобно, особенно если часть данных можно анализировать без привлечения таких вопросов. Во%вторых, практически невозможно изменить схему кодирования после того, как данные внесены в компьютер. Нет воз% можности и инструментов для того, чтобы заново (согласно новой, другой схеме кодирования) закодировать тексты ответов и внести эти новые коды в уже введенный файл данных количественного исследования. Пакет ОСА предлагает иную технологию работы с открытыми и полуот% крытыми вопросами в формализованном опроснике. Собранные данные вводят еще до кодирования открытых и полуоткрытых вопросов. Это позво% ляет начинать ввод данных даже раньше, чем закончится этап их сбора, то есть до того, как исследователь будет иметь все заполненные опросники. Оператор вводит не только коды ответов на закрытые вопросы, но и полные тексты ответов на открытые и полуоткрытые вопросы. При этом создается база текстовых данных, содержащая также информацию о том, какого воп% роса и в какой анкете касается тот или иной фрагмент текста. Иными слова% ми, компьютер сохраняет информацию о том, ответом какого респондента и на какой вопрос является каждый фрагмент текста. После завершения вво% да данных исследователь может начинать анализ информации, относящей% ся к закрытым вопросам опросника (в количественном исследовании за% крытые вопросы обычно преобладают). Параллельно с этим можно осуще% Социология: теория, методы, маркетинг, 2006, 1 131 Компьютерная обработка текстов в социологических исследованиях ствлять кодирование открытых и полуоткрытых вопросов. Пакет ОСА по% зволяет из созданной при вводе данных базы текстовых фрагментов ото% брать те, которые связаны с одним конкретным вопросом. Затем исследова% тель читает и анализирует содержание всех этих фрагментов (фрагменты, касающиеся одного вопроса, можно собрать в один текстовый файл), вы% страивает свою схему кодирования и рядом с каждым фрагментом простав% ляет соответствующий код (либо несколько кодов, если схема позволяет от% носить ответ респондента не только к одной, но и к нескольким категориям). Проставленные коды автоматически заносятся пакетом ОСА в уже ранее введенный файл данных и таким образом происходит “закрытие” открытого или полуоткрытого вопроса. Эта технология имеет ряд преимуществ по сравнению с описанной ра% нее “традиционной”. Во%первых, не нужно откладывать начало ввода дан% ных до момента, когда будут закодированы все открытые и полуоткрытые вопросы. Во%вторых, “закрытие” открытых и полуоткрытых вопросов мож% но осуществлять поэтапно; не обязательно сразу кодировать все подобные вопросы. В%третьих, есть возможность изменить схему кодирования и весь% ма эффективно и быстро провести повторное кодирование (повторное “за% крытие”) по новой измененной схеме, не повторяя снова ввода всех данных. Такое повторное кодирование можно проводить и спустя длительное время после ввода данных. Иными словами, исследователь может работать со схе% мой кодирования, неоднократно уточняя и изменяя ее. При этом данная ра% бота не требует обращения к исходным данным — “бумажным” копиям за% полненных опросников. Вся необходимая для него информация содержит% ся в электронной базе текстов ответов респондентов, которая автоматичес% ки создается при вводе данных операторами. Автором разработана и реализована программа “Викинг”, имеющая до% полнительные возможности и создающая дополнительные удобства для ко% дирования открытых и полуоткрытых вопросов в пакете ОСА. Важнейшим преимуществом использования предлагаемой программы является то, что процесс создания схемы кодирования, по сути, совмещается во времени с процессом кодирования. Это, в свою очередь, более типично для современ% ных подходов к работе с текстовой информацией в социологических иссле% дованиях различного типа. Кроме того, программа “Викинг” позволяет ко% дировать текстовые данные, собранные в качественных исследованиях ме% тодами фокус%групповых, нарративных и глубинных интервью, а также ко% дировать различные тексты (например, сообщения СМИ, выступления по% литических деятелей, предвыборные программы политических партий и т.п.) для целей контент%анализа. Исходной информацией для работы этой программы является электронная база данных текстов ответов на открытые вопросы, созданная при вводе данных в пакет ОСА, либо тексты транскрип% тов фокус%групповых, глубинных и других неформализованных интервью, а то и просто совокупность текстовых фрагментов. Кодирование можно осу% ществлять или по заранее подготовленной схеме, или параллельно с созда% нием самой схемы кодирования. С заранее подготовленной схемой могут работать специально обученные кодировщики. Однако в качественных ис% следованиях часто предусматривается, что кодирование обязательно дол% жен осуществлять сам исследователь. Именно в этом случае исследователь и создает схему кодирования в процессе кодирования. Исследователь чита% 132 Социология: теория, методы, маркетинг, 2006, 1 Алексей Горбачик ет и анализирует фрагменты текстов, поддающиеся кодированию, и не толь% ко определяет, какие коды из схемы кодирования можно приписать тому или иному фрагменту, но и может добавлять в схему кодирования новые ка% тегории и определять коды для них. Таким образом, схема кодирования со% здается в процессе кодирования и принимает окончательный вид уже после завершения кодирования. Программа “Викинг” осуществляет удобную поддержку двух обозначенных параллельных во времени процессов. В ходе работы исследователь может постоянно обращаться к схеме кодирования, вносить в нее изменения и даже, при необходимости, привлекать к работе дополнительный контекст, обращаясь к значениям определенных количес% твенных параметров соответствующего респондента, содержащимся во вве% денном ранее в пакет ОСА файле количественных данных. По результатам работы программы “Викинг” легко создать средствами пакета ОСА соответ% ствующие переменные в ранее введенном файле данных. Эти переменные содержат результаты кодирования (выбранные для фрагментов текстов коды), и в дальнейшем их можно анализировать вместе с количественной информацией, введенной ранее. Выводы Необходимость анализировать слабоструктурированную информацию, обычно представленную в виде текстов, возникает не только в рамках качес% твенных социологических исследований, где такая информация является основой результатов работы на полевом этапе исследования, но и в случае ко% личественных. В частности, речь может идти о работе с открытыми и полуот% крытыми вопросами опросников формализованных интервью. Спектр задач в случае работы с текстовыми данными весьма широк. Для решения таких за% дач разрабатывают специальные программные средства, либо имеющие вид набора реализованных операций для работы с текстами, либо реализующие определенные более или менее целостные стратегии анализа текстов (напри% мер, метод обоснованных теорий). Программные средства для работы с тек% стами гораздо менее стандартизированы по сравнению с пакетами количес% твенного анализа, что создает проблемы при комплексном применении про% граммных систем в сложных исследованиях. Предложенный и реализован% ный автором в программе “Викинг” подход к кодированию текстов в сочета% нии с технологией пакета статистического анализа ОСА является эффектив% ным средством подготовки слабоструктурированных текстовых данных для дальнейшего количественного анализа и может применяться в сложных по своему плану социологических исследованиях, которые включают как коли% чественную, так и качественную компоненту, в частности в исследованиях, направленных на изучение биографий. Литература 1. Ядов В.А. Стратегия социологического исследования. Описание, объяснение, по% нимание социальной реальности. — М., 1998. 2. Kuckartz U. WinMax pro‘96. Scientific Text Analysis. — Berlin, 1996. 3. Ragin C. Using Qualitative Comparative Analysis to Study Configurations // Com% puter%Aided Qualitative Data Analysis / Ed. by U.Kelle. — L., 1995. — P.177–189. 5. Strauss A. Qualitative Analysis for Social Scientists. — Cambridge, 1987. Социология: теория, методы, маркетинг, 2006, 1 133 Компьютерная обработка текстов в социологических исследованиях