Quality evaluation of consolidated data
Problems in programming 2014; 4: 40-47
Gespeichert in:
Datum: | 2019 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут програмних систем НАН України
2019
|
Schlagworte: | |
Online Zugang: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/682 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Problems in programming |
Institution
Problems in programmingid |
pp_isofts_kiev_ua-article-682 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/92/5e8442c68b31dbd03c3b2aed9a514392.pdf |
spelling |
pp_isofts_kiev_ua-article-6822025-02-12T23:28:28Z Quality evaluation of consolidated data Оцінювання якості консолідованих даних Shahovska, N.B. UDC 51.001.57+004.652.4+004.827 УДК 51.001.57+004.652.4+004.827 Problems in programming 2014; 4: 40-47 Cтаття присвячена опису особливостей оцінювання якості даних, отриманих з різних джерел, та розробленню алгоритму визначення релевантності відповіді користувачу.Problems in programming 2014; 4: 40-47 Інститут програмних систем НАН України 2019-03-27 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/682 PROBLEMS IN PROGRAMMING; No 4 (2014); 40-47 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 4 (2014); 40-47 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 4 (2014); 40-47 1727-4907 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/682/734 Copyright (c) 2025 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2025-02-12T23:28:28Z |
collection |
OJS |
language |
Ukrainian |
topic |
UDC 51.001.57+004.652.4+004.827 |
spellingShingle |
UDC 51.001.57+004.652.4+004.827 Shahovska, N.B. Quality evaluation of consolidated data |
topic_facet |
UDC 51.001.57+004.652.4+004.827 УДК 51.001.57+004.652.4+004.827 |
format |
Article |
author |
Shahovska, N.B. |
author_facet |
Shahovska, N.B. |
author_sort |
Shahovska, N.B. |
title |
Quality evaluation of consolidated data |
title_short |
Quality evaluation of consolidated data |
title_full |
Quality evaluation of consolidated data |
title_fullStr |
Quality evaluation of consolidated data |
title_full_unstemmed |
Quality evaluation of consolidated data |
title_sort |
quality evaluation of consolidated data |
title_alt |
Оцінювання якості консолідованих даних |
description |
Problems in programming 2014; 4: 40-47 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2019 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/682 |
work_keys_str_mv |
AT shahovskanb qualityevaluationofconsolidateddata AT shahovskanb ocínûvannââkostíkonsolídovanihdanih |
first_indexed |
2025-07-17T09:58:00Z |
last_indexed |
2025-07-17T09:58:00Z |
_version_ |
1838410094247673856 |
fulltext |
Тестування, надійність та якість програм
© Н.Б. Шаховська, 2014
40 ISSN 1727-4907. Проблеми програмування. 2014. № 4
УДК 51.001.57+004.652.4+004.827
Н.Б. Шаховська
ОЦІНЮВАННЯ ЯКОСТІ КОНСОЛІДОВАНИХ ДАНИХ
Cтаття присвячена опису особливостей оцінювання якості даних, отриманих з різних джерел, та розро-
бленню алгоритму визначення релевантності відповіді користувачу.
Вступ
Сучасний рівень розвитку інформа-
ційної технології (ІТ) все більше набуває
глобалізаційного характеру. «Цінною»
вважається інформація, яка отримана з рі-
зних джерел, подана під різними кутами
зору, але водночас є цілісною та несупере-
чливою. Консолідованими даними нази-
вають системно інтегровані повні несупе-
речливі дані, придатні для підтримки
прийняття рішень.
Внаслідок керування різнотипними
даними з метою розв’язання аналітичних
задач стратегічного рівня перед дослідни-
ками виникає задача якості даних – відпо-
відності вимогам користувачів. На рівні
задач, для яких використовується точкове
джерело, якість даних цього джерела є до-
статньою, і задовольняє (повністю чи час-
тково) потреби осіб, що приймають рі-
шення на їх основі. Проте використання
даних з декількох джерел, наперед неузго-
джених та з невідомими структурами, при-
зводить до того, що якість даних різко
знижується і вже не може задовольняти
потреб користувача через неузгодженість
форматів, різне подання, необхідне для ви-
рішення проблеми.
Під оцінюванням якості даних ро-
зумітимемо процес компонування даних,
очищення та вдосконалення даних, а також
об’єднання з усуненням дублювання та
невизначеності. До якісних даних став-
ляться такі вимоги: повнота, точність,
зв’язність, доступність, актуальність, своє-
часність. Відсутність хоча б однієї з вище-
наведених характеристик впливає на пра-
вильність рішення, прийнятого на основі
консолідованих даних.
Реалізовані в сучасних серверах баз
даних засоби аналізу та видобування даних
(MS Analysis Server, Oracle Analytics тощо)
не дають змоги враховувати наявність
шуму, що, у свою чергу, породжує форму-
вання помилкових залежностей даних.
Особливо ця проблема загострюється тоді,
коли дані надходять з різних джерел, у то-
му числі і неструктурованих. На підтвер-
дження цього ми спостерігаємо стрімке
поширення NoSQL.
Однією з інформаційних технологій
забезпечення опрацювання різнотипних
інформаційних джерел даних є простір
даних.
Дамо ряд визначень.
Інформаційний ресурс (ІР) Ir – су-
купність даних в інформаційних об’єктах.
Характеризується структурою даних Sd .
Інформаційний продукт (ІП) – до-
кументований інформаційний ресурс, який
є результатом функціонування інформа-
ційної технології RlCgIrIp Ip ,, , де IpCg –
каталог, Rl – методи доступу. Інформа-
ційними продуктами є програмні засоби,
текстові файли, веб-сторінки, електронні
таблиці, xml-файли, бази даних, сховища
даних, дані інших форматів.
Каталог ІП – метадані про ІП
IpCgRlPlSd . Описує місцезнахо-
дження ІП Pl , його структури даних
(СДІР), методи доступу до ІР тощо.
Простір даних (ПД) – це блоковий
вектор, що містить множину інформацій-
них продуктів предметної області, поділе-
ну на три блоки: структуровані дані St (ба-
зи, сховища даних), напівструктуровані
дані SemS (XML, електронні таблиці) та
неструктуровані дані Ns (текст). Над цим
вектором та його окремими елементами
визначено операції та предикати.
Сховище консолідованих даних gc –
віртуально побудоване сховище, що міс-
тить результат запиту користувача, отри-
Тестування, надійність та якість програм
41
маний з різних інформаційних продуктів
шляхом узгодження структур даних.
1. Постановка проблеми в
загальному вигляді
Проблемою якості даних займалися
ще з 80-х років минулого століття. Так,
Ванг, Кон сформували складники якісної
інформаційної системи, а саме поняття
«якість» трактували як відповідність вста-
новленим вимогам користувача (рис. 1).
Якість даних
синтаксис
версійність
наявність
псевдонімів
оригінальність
семантика
релевантність
вартість
джерела
незмінюва-
ність
своєчасність
можливість
використання
вартість
завантаження
системна
готовність
готовність на
рівні транзакцій
привілейо-
ваність
повнота
узгодженість
достовірність
точність
інтерпретованість корисність доступність правдоподібність
адекватність
Рис. 1. Складові якості
Якість також означає повноту даних
для ефективного прийняття рішень.
Загалом методи оцінювання якості
в ІТ призначені для оцінювання якості веб-
сторінок (релевантності) та програмних
засобів.
Модель RADCAB [1] має 6 основ-
них параметрів для оцінювання якості
веб- сторінок: релевантність (відповід-
ність до теми пошуку) відповідність (чи
доречна ця інформація користувачеві, на-
приклад, за віковою категорією), деталь-
ність (кількість інформації), часова харак-
теристика (дата створення або оновлен-
ня), авторитетність (компетентність авто-
ра), нахил (причина створення докумен-
та). Передбачає експертне оцінювання,
зведення оцінок експертів за допомогою
методу аналізу ієрархій.
Аналогічним чином здійснюють
оцінювання якості веб-сторінки Ciolek
T.M. та Standler R.B. [2, 3]. Проте остан-
ній параметри якості зводить у функцію
якості, експерти визначають вагу параме-
трів, і далі оцінюються ті веб-сторінки, у
яких найбільше значення показника з
найбільшою вагою.
На жаль, у просторі даних недо-
статньо лише експертного оцінювання
якості даних через велику кількість дже-
рел і необхідність реалізації пошуку ме-
таданих.
Наступна група методів здійснює
оцінювання інформативності. Так, індек-
сний метод [4] використовується для
оцінювання адекватності числових да-
них, здійснює згортку параметрів і вико-
ристовується для визначення оптимізації
запитів. Проте він не може бути викорис-
таний для визначення адекватності текс-
тових даних. Метод Коваль Г.І. [5] вико-
ристовується для оцінки якості ПЗ. За
деякими змінами його можна було б за-
стосовувати для визначення якості дже-
рел даних, де явно вказано нижні та вер-
хні межі надійності та відмовостійкості,
підбір параметрів здійснюється експерт-
но методом аналізу ієрархій. Проте для
простору даних ця група методів також
незастосовна через неможливість попе-
реднього встановлення значення відмо-
востійкості певного джерела даних.
Наступна група методів для оціню-
вання якості використовує функцію кори-
сності. Серед методів цієї групи доцільно
виділити методи Згуровського М.З., Пан-
кратової Н.Д. [6] та Соловйової К.О. [7].
Передбачають визначення корисності від
додавання джерела, класифікування ситу-
ацій прийняття рішень за рівнем невизна-
ченості. Вводиться метрика якості рішен-
ня, прийнятого на основі заданих даних.
Якщо після введення нового джерела як-
ість даних знижується, приймається рі-
шення про його видалення з простору да-
них. Проте необхідно вказувати межі ін-
формативності джерел даних, що у випад-
ку простору даних потребує доопрацю-
вання, оскільки маємо справу з динаміч-
ною системою (з’являються нові джерела
даних).
Метод корисності Афонічкіна А.І.
[8] полягає у порівнянні якості прийнятих
рішень на основі даних з невизначеністю
та після усунення невизначеності. У ви-
падку ПД це також необхідно робити у
зв’язку з невизначеністю, що з’являється
в консолідованих даних.
Тестування, надійність та якість програм
42
Отже, саме у напрямі формування
функції якості консолідованих даних доці-
льно реалізувати оцінювання якості.
Метою статті є введення показників
якості консолідованих даних, визначення
функції якості та методу оцінювання якос-
ті даних.
2. Визначення показників
якості даних
У просторах даних домінуючого
значення набувають самі дані, їхнє збері-
гання і опрацювання. Для оцінювання яко-
сті даних застосуємо спільний методичний
підхід до виділення адекватної номенкла-
тури стандартизованих в ISO 9126 базових
характеристик і субхарактеристик [9]. Ба-
зовими характеристиками стандарту є: фу-
нкціональна придатність до використання;
коректність або достовірність; ресурсна
економічність; практичність; супроводжу-
ваність; мобільність.
Функціональна придатність визна-
чається, у першу чергу, повнотою накопи-
чених об’єктів – відносною кількістю об'є-
ктів або документів, наявних у джерелах
даних, до загальної кількості об’єктів, що
протралили у локальне сховище, яке міс-
тить консолідовані дані:
IrIpgcz i .1 . (1)
Коректність або достовірність да-
них – це ступінь відповідності даних про
об’єкти в базах даних реальним об’єктам
у даний момент часу, що визначається
змінами самих об’єктів чи їх характерис-
тик. Визначена як відносна кількість опи-
сань об’єктів, які не містять дефектів і
помилок, до загальної кількості об’єктів у
просторі даних:
gcIpz P )(2 . (2)
Використовуваність ресурсів (або
ресурсна економічність) у стандарті відо-
бражається зайнятістю ресурсів централь-
ного процесора, оперативної, зовнішньої
та віртуальної пам’яті, каналів введення-
виведення, терміналів і каналів зв’язку.
Цей показник у роботі не аналізується,
оскільки існують розроблені методи (на-
приклад, метод критичних робіт) та засоби
визначення завантаженості ресурсів.
Практичність – визначає застосов-
ність консолідованих даних для певних
користувачів. Оцінка практичності здійс-
нюватиметься за допомогою функції кори-
сності прийнятих рішень )(rv .
gcrvz )(3 .
Окрім того, цей показник враховує
залежність прийнятого рішення від рівня
довіри.
Супроводжуваність даних відо-
бражається зручністю і ефективністю ви-
правлення, удосконалення або адаптації
структури та змісту описань даних залеж-
но від змін у зовнішньому середовищі за-
стосування, а також у вимогах і функціо-
нальних специфікаціях замовника. Узага-
льнено якість супроводжуваності консо-
лідованих даних можна оцінювати потре-
бою ресурсів для її забезпечення і для ре-
алізації. У просторах даних характеристи-
ка супроводжуваності пов’язана зі зміною
даних про джерела даних у каталозі.
gcCgIpz iupdmeta ._4 . (3)
Мобільність характеризується три-
валістю і трудомісткістю інсталяції інфо-
рмаційних продуктів, адаптації та замі-
щення при перенесенні на інші апаратні
та операційні платформи. Він також не
використовується для оцінювання якості
даних.
Отже, показниками якості даних є:
функціональна придатність, коректність,
практичність, супроводжуваність. Усі ці
показники безрозмірні, 0...1iz , 1, 4i .
3. Метод визначення якості даних
Визначимо корисність даних з ІП
стосовно прийняття рішення на їх основі.
Оцінку корисності даних здійснено на-
ступним чином. Є множина керованих
змінних 4321 ,,, zzzzZ . Визначено не-
перервну функцію якості Q . Допустима
множина розв’язків замкнена, непуста й
обмежена, оскільки за визначенням при-
Тестування, надійність та якість програм
43
наймні 2 показники якості ( 21, zz ) більші
за нуль.
Цільова функція якості при обме-
женнях має глобальний максимум:
max,...,
4
1 1
41
i j
iji
k
k PzrzzQ , (4)
025.0
0
75.01
21
3
1
zz
z
z
24
11
Ccz
Ccz
Ttz
Ttz
z
s
s
2
1
4 5.01
де j вказує на інформаційний продукт,
ijP – рівень довіри до інформаційного
продукту j для рішення k, kr – оцінка рі-
шення k, 1C – загальна вартість заванта-
ження об’єктів, 2C – загальна вартість
модифікації описів, T – загальний час за-
вантаження, st – середній час заванта-
ження одного об’єкта, c – середня вар-
тість завантаження (модифікації) одного
об’єкта.
Це задача нелінійної оптимізації з
лінійними обмеженнями, яка вирішується
певними методами (наприклад, градієнт-
ний).
Поряд з фактичним оцінювання
якості консолідованої інформації (4) необ-
хідно провести оцінювання якості еталон-
ного зразка, що відображає найкраще
прийняте рішення. Потім виконується но-
рмування фактичної оцінки, де ik – ранг
важливості, ik [0; 1],
, ,e e e e
i i i const i i
i i
Q n z Q k Q (5)
e
constconstconst QQQ / , (6)
Для того, щоб підвести підсумок,
наведемо основні етапи процедури оціню-
вання якості консолідованих даних.
Складання системи характерис-
тик якості консолідованих даних. Ця сис-
тема має вигляд ієрархічної структури.
Для різних методик характерна різна кі-
лькість рівнів ієрархії, а також різна кіль-
кість критеріїв кожного рівня ієрархії.
Система критеріїв якості може включати
як внутрішні, так і зовнішні характерис-
тики даних. Однак перевагу слід віддава-
ти зовнішніми характеристиками. Крім
того, критерії можуть носити як кількіс-
ний, так і якісний характер. Перевагу вар-
то віддавати кількісним характеристикам.
У нашому випадку мова йде про кількість
показників Z .
Визначення значень відносних ваго-
вих коефіцієнтів 41,..., rr характеристик
якості із залученням думок експертів. Ре-
комендуємо здійснювати методом аналізу
ієрархій. У випадку наявності різних ду-
мок – використовувати коефіцієнт конкор-
дації Кендела.
Оцінювання значень показників яко-
сті 41,..., zz . Інформація про значення по-
казників може бути отримана за результа-
тами випробувань, експертного чи соціо-
логічного опитування. Найкращим є перше
джерело, але у випадку, якщо оцінка кри-
теріїв цим методом неможлива або надмі-
рно трудомістка, то залучається експертна
інформація.
Нормування значень одиничних по-
казників якості. У різних методиках вико-
ристовуються різні функції приведення.
Для пропонованої методики розрахунку
значень показників нормування проводити
недоцільно.
Обчислення факторів якості на пі-
дставі розрахунку зваженої згортки зна-
чень одиничних показників якості. У різ-
них методиках використовуються різні
оператори згортки і різне число кінцевих
показників якості.
Далі розробимо алгоритм визна-
чення відповідності рішення, прийнятого
на основі консолідованих даних, еталон-
ному.
Укрупнений алгоритм визначення
відповідності рішення еталонному пода-
но так.
1. Отримання параметрів вибірки
еталонних та консолідованих даних.
2. Визначення критеріїв оптималь-
ності.
3. Визначення найкращого значення
за критерієм.
4. Визначення найгіршого значення
за критерієм.
Тестування, надійність та якість програм
44
5. Пошук прямо пов’язаних даних.
6. Групування вибраних даних.
7. Обрання тих консолідованих да-
них, у яких агреговані кількісні характе-
ристики рівні середньому значенню кри-
теріїв 2) і 3).
8. Визначення джерела даних, з
якого отримано інформацію, що задово-
льняє 7.
Ступінь співпадіння критерію з ета-
лонним для заданих параметрів буде ви-
значатись як
t
n
i
i aas
1
, (7)
де n – кількість нечасових параметрів спі-
вставлення; ia – значення нечасового і-го
параметра співставлення, яке набуває зна-
чення, ta – значення часового параметра
позначений параметр ,1
позначений не параметр ,0
ia ;
інтервалів яспівпадінн повне 4,
інтервалів перетин ,3
інтервали ивраховуват не ,2
еталону з дати ігнорувати 1,
джерел з дати ігнорувати 0,
ta .
Слід зазначити, що кількість пара-
метрів співставлення n буде різною для
кожного типу рішення, що приймається.
Обрання того чи іншого параметра фізич-
но означатиме, що при співставленні
знайдених даних та еталону за обраним
атрибутом буде виконуватись операція
агрегації для визначення релевантності.
Чим більше параметрів буде включено до
агрегування, тим точнішим буде отрима-
ний результат співставлення. Обрання
усіх параметрів означає максимальний
ступінь довіри до отриманих результатів
співставлення.
Можуть бути отримані такі резуль-
тати співставлення :
еталон не має аналога, 0 ;
знайдені дані не відповідають
жодному еталону, 1 ;
часткове співпадіння (при агре-
гації даних еталону та знайдених даних
отримано кількісні характеристики, які не
рівні між собою) , 2 ;
повне співпадіння, 3 .
Блок схему алгоритму визначення
ступеня співпадіння показано на рис. 2, 3.
Визначення
параметр ів
агрегац ії
Визначення
способ ів
опрацювання
часових інтервалі в
Виб ірка даних з
джерел , що
задовольняють
умовам вибору
Пошук прямо
пов 'язаних даних з
інших джерел
Групування даних
по джерелах за
параметрами
агрегац ії
Групування даних
по критер іях за
параметрами
агрегац ії
Вибір даних по
джерелах , у яких
агрегован і
кільк існі
характеристики
2
Визначення
параметр ів
вибірки
Початок
1
1
Рис. 2. Алгоритм визначення відповідності
прийнятого рішення еталонному (початок)
Сума
характеристик
джерела=0
Різниця між
еталоном та
джерелом
знаходиться у
заданих межах
Еталон та
джерело
співпадають
Виведення назви
джерела
Виведення назви
джерела
Дані у джерелі не
відповідають
еталону
Нема відповідного
джерела
ні
ні
ні
2
так
так
так
кінець
Визначення
ступеня довіри до
джерела
Рис. 3. Алгоритм визначення
відповідності прийнятого рішення
еталонному (закінчення)
Тестування, надійність та якість програм
45
4. Апробація методу
Тут досліджувалась якість консолі-
дованих даних для текстових джерел да-
них. Результатом роботи є занесення у
консолідоване сховище даних інформації з
резюме пошукувачів роботи, причому ре-
зюме укладені у довільній формі. Ставила-
ся задача аналізу резюме, де міститься на-
ступна інформація:
1) дані про колишнє місце праці ан-
кетованого;
2) дані про бажане місце праці ан-
кетованого за такими характеристиками:
а) назва місця праці;
б) посада;
в) стаж роботи;
г) зарплата.
Є чотири множини, що не перети-
наються: М – «Місце»; П – «Посада»; С –
«Час»; З – «Зарплата». На початку роботи
усі вони є порожніми:
М={ }; П={ }; С={ }; З={ }.
Подається набір значень
},...,,{ 21 nxxxX ;
n є числом цілим невід’ємним і відносно
невеликим: 500 n . Результатами ви-
конання алгоритму є формування цих
множин.
Метод, використаний у системі
аналізу анкет, заснований на основі методу
вибірки з множини документів. Вхідний
текст поділяється на лексичні одиниці, для
кожної з яких будуються класифікаційні
правила визначених розмірів (у даній сис-
темі від 1 до 6 слів у правилі). Далі кожне
з цих правил аналізується за правилами
аналізу семантичних елементів, правилами
порівняння слів, словником моделей то-
що). Обираються ті класифікаційні прави-
ла (тобто набори слів), які згідно з резуль-
татами аналізу описують один з підпунктів
(а, б, в, г).
Далі система аналізує текст зага-
лом, щоб дослідити логічні зв’язки між
обраними правилами. Наприклад, нехай
запропонований текст: «Я рік працював в
інституті викладачем. Потім моїм місцем
праці була фірма, де я отримував 500 $ у
місяць.». Після побудови та аналізу правил
система видала б результат, наведений у
табл. 1.
Таблиця 1. Результати роботи системи
після аналізу ключових слів
Місце
праці
Посада Час Зарплата
Інститут
Викла-
дач
Рік
500 $ у
місяць
Фірма
Після аналізу тексту загалом систе-
ма видасть результат, наведений у табл. 2.
Таблиця 2. Результати роботи системи
після аналізу тексту
Місце
праці
Посада Час Зарплата
Інститут
Викла-
дач
Рік –
Фірма – – 500 $ у місяць
Загалом система опрацювання ан-
кет функціонує за схемою, показаною на
рис. 4.
База правил
побудови
множини
ключових
слів
Компонент
побудови
множини
ключових
слів
Текст
Компонент
аналізу
семантичної
мережі
Побудова
семантично
ї мережі
Словники
База правил
аналізу
множини
ключових
слів
Компонент аналізу зв'язків у
тексті
База правил
аналізу
тексту
Обрані
дистрибуції
Дані
Рис. 4. Схема опрацювання анкет
системою
Тестування, надійність та якість програм
46
Компонент побудови множини
ключових слів, користуючись правилами
побудови класифікаційних правил, здійс-
нює розбиття тексту на лексичні одиниці,
обирає слова, будує для них лексеми різ-
них розмірів. Вхідними даними для нього
є текст, результатом роботи – список лек-
сем. Компонент аналізу класифікаційних
правил аналізує кожну послідовність пра-
вил на наявність інформації про місце
праці, обирає з них найбільш відповідні,
потім процес повторюється для даних про
посаду, час праці та зарплату. Вхідними
даними для компоненту є список правил,
результатом роботи – список правил для
кожного з чотирьох питань. Компонент
аналізу зв’язків у тексті, використовуючи
правила аналізу тексту, впорядковує спи-
ски обраних правил за належністю до од-
нієї події. Вхідними даними є список пра-
вил для кожного з чотирьох питань, вихі-
дними – впорядковані дані по чотирьох
питаннях.
Якість консолідованих даних пере-
вірялася експертно. Результати наведені у
табл. 3.
Таблиця 3. Результати консолідації
текстових даних
Кіль-
кість
анкет
%
правильно
визначе-
них анкет
%
частково
визначених
анкет
%
неправиль-
но визначе-
них анкет
12 0,50 0,25 0,25
56 0,57 0,27 0,16
128 0,62 0,23 0,16
289 0,73 0,16 0,10
587 0,77 0,15 0,09
Чим більше анкет проаналізовано,
тим точнішим є результат пошуку. Усу-
нення невизначеності даних відбувається
в сховищі консолідованих даних шляхом
руху мережею записів. Аналіз результа-
тів пошуку даних у джерелах наведено у
табл. 4.
Таблиця 4. Результати оцінювання
якості консолідованих даних
Відсоток
правильних
відповідей
для
Пошук
в ІП
Пошук у сховищі кон-
солідованих даних, де
1z >0.9 2z >0.9
Посада 92 67 86
Місце роботи 93 91 92
Зарплата 87 74 81
Висновки
У статті проаналізовано методи ви-
значення якості даних. Наукова новизна:
розроблено метод визначення якості кон-
солідованих даних на основі формалізації
стандарту ISO 9126, що уможливило ви-
значати придатність цих даних для пода-
льшого прийняття рішень.
Практична цінність: розроблено
засоби консолідації структурованих і не-
структурованих даних та визначення їх
якості, що дало змогу підвищити релеван-
тність знайдених даних.
1. Christensson K. RADCAB– 2007. –
http://www.radcab.com/about.html.
2. Ciolek T.M. Digitising Data on Eurasian
Trade Routes: An Experimental Notation
System – 2000. – www.ciolek.com/PAPERS
/pnc-berkeley-02.html.
3. Standler R.B., «Equations for Some Transient
Overvoltage Test Waveforms System – 2004.
–http://www.eeel.nist.gov/817/pubs/spd-
anthology/files/Citations%20Part%204.doc
4. Borisova E. Index method of quality of the
integrated complex objects – 1999. –
http://www.mce.su/archive/doc15498/doc.pdf
(in Russian).
5. Koval H. Models and methods of engineering
quality software systems at the early stages of
the life cycle: Kyiv: Kyiv national university
Press, 2005 – 24 p.
6. Zgurovskiy M., Pankratova N. Basis of
system analisys. – Кyiv: BHV, 2007. – 544 p.
(in Ukranian).
7. Sovovjova K. Systemic and mathematical
principles of natural classification and their
use in intelligent systems. – Kharkov:
Kharkov university of radioelectronics Press,
1999. – 34 p. (in Ukrainian).
http://www.ciolek.com/PAPERS/pnc-berkeley-02.html
http://www.ciolek.com/PAPERS/pnc-berkeley-02.html
http://www.eeel.nist.gov/817/pubs/spd-anthology/files/Citations%20Part%204.doc
http://www.eeel.nist.gov/817/pubs/spd-anthology/files/Citations%20Part%204.doc
http://www.mce.su/archive/doc15498/doc.pdf
Тестування, надійність та якість програм
47
8. Aphonichkin A., Panphiloff A. The quality of
information provision in the management //
Saratov: Saratov University Press, 1988. –
175 p. (in Russian).
9. Shakhovska N. Algebraic system of dataspace
// Proc. of International Conference on
Intellectual Systems for Decision Making and
Problems of Computational Intelligence
«ISDMCI’2011», 16–20 May 2011,
Yevpatoria. – Vol. 1. – Kherson, 2011. –
P. 14–18.
Одержано 10.06.2014
Про автора:
Шаховська Наталія Богданівна,
доктор технічних наук, доцент,
професор кафедри
інформаційних систем та мереж.
Місце роботи автора:
Національний університет
«Львівська політехніка»,
м. Львів,
вул. С. Бандери, 28.
Тел.: (032) 258 2404.
Е-mail: natalya233@gmail.com
|