Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти
Розглянуті основні елементи інтелектуального зорового сприйняття людини та значення вибірковості для цього. Проведений аналіз методів інтелектуального сприйняття на базі фовеальних сенсорів з радіальною та ієрархічною організацією рецепторного поля. Пропонується підхід до інтелектуального вибірко...
Gespeichert in:
Datum: | 2011 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут проблем штучного інтелекту МОН України та НАН України
2011
|
Schriftenreihe: | Штучний інтелект |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/59347 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти / В.П. Боюн // Штучний інтелект. — 2011. — № 3. — С. 16-24. — Бібліогр.: 7 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-59347 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-593472014-04-08T03:02:39Z Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти Боюн, В.П. Концептуальные проблемы создания систем искусственного интеллекта Розглянуті основні елементи інтелектуального зорового сприйняття людини та значення вибірковості для цього. Проведений аналіз методів інтелектуального сприйняття на базі фовеальних сенсорів з радіальною та ієрархічною організацією рецепторного поля. Пропонується підхід до інтелектуального вибіркового сприйняття, який базується на грубо-точному методі пошуку і забезпечує можливість управління параметрами зчитування інформації з відеосенсора. Розглянуті інформаційні аспекти вибірковості та приклади її використання. Рассмотрены основные элементы интеллектуального зрительного восприятия человека и значение избирательности для этого. Проведен анализ методов интеллектуального восприятия на базе фовеальных сенсоров с радиальной и иерархической организацией рецепторного поля. Предлагается подход к интеллектуальному избирательному восприятию, который базируется на грубо-точном методе поиска и обеспечивает возможность управлять параметрами считывания информации с видеосенсора. Рассмотрены информационные аспекты избирательности и примеры ее использования. The basic elements of human intellectual visual perception and importance of selectivity for this purpose are considered. The analysis of methods of intellectual perception on the base of fovea sensors with radial and hierarchical structures of receptor field is carried out. The new approach to intelligent selective perception is offered. It is based on a coarse-to-fine method of searching and provides facilities to operate parameters of reading information from videosensors. The information aspects of selectivity and examples of their applications are considered. 2011 Article Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти / В.П. Боюн // Штучний інтелект. — 2011. — № 3. — С. 16-24. — Бібліогр.: 7 назв. — укр. 1561-5359 http://dspace.nbuv.gov.ua/handle/123456789/59347 681.327.21/23; 681.3.06 uk Штучний інтелект Інститут проблем штучного інтелекту МОН України та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Концептуальные проблемы создания систем искусственного интеллекта Концептуальные проблемы создания систем искусственного интеллекта |
spellingShingle |
Концептуальные проблемы создания систем искусственного интеллекта Концептуальные проблемы создания систем искусственного интеллекта Боюн, В.П. Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти Штучний інтелект |
description |
Розглянуті основні елементи інтелектуального зорового сприйняття людини та значення вибірковості
для цього. Проведений аналіз методів інтелектуального сприйняття на базі фовеальних сенсорів з
радіальною та ієрархічною організацією рецепторного поля. Пропонується підхід до інтелектуального
вибіркового сприйняття, який базується на грубо-точному методі пошуку і забезпечує можливість
управління параметрами зчитування інформації з відеосенсора. Розглянуті інформаційні аспекти вибірковості
та приклади її використання. |
format |
Article |
author |
Боюн, В.П. |
author_facet |
Боюн, В.П. |
author_sort |
Боюн, В.П. |
title |
Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти |
title_short |
Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти |
title_full |
Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти |
title_fullStr |
Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти |
title_full_unstemmed |
Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти |
title_sort |
інтелектуальне вибіркове сприйняття візуальної інформації. інформаційні аспекти |
publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
publishDate |
2011 |
topic_facet |
Концептуальные проблемы создания систем искусственного интеллекта |
url |
http://dspace.nbuv.gov.ua/handle/123456789/59347 |
citation_txt |
Інтелектуальне вибіркове сприйняття візуальної інформації. Інформаційні аспекти / В.П. Боюн // Штучний інтелект. — 2011. — № 3. — С. 16-24. — Бібліогр.: 7 назв. — укр. |
series |
Штучний інтелект |
work_keys_str_mv |
AT boûnvp íntelektualʹnevibírkovesprijnâttâvízualʹnoíínformacííínformacíjníaspekti |
first_indexed |
2025-07-05T10:28:48Z |
last_indexed |
2025-07-05T10:28:48Z |
_version_ |
1836802457964904448 |
fulltext |
«Искусственный интеллект» 3’2011 16
1Б
УДК 681.327.21/23; 681.3.06
В.П. Боюн
Інститут кібернетики імені В.М. Глушкова НАН України, м. Київ
vboyun@gmail.com
Інтелектуальне вибіркове сприйняття
візуальної інформації. Інформаційні аспекти
Розглянуті основні елементи інтелектуального зорового сприйняття людини та значення вибірковості
для цього. Проведений аналіз методів інтелектуального сприйняття на базі фовеальних сенсорів з
радіальною та ієрархічною організацією рецепторного поля. Пропонується підхід до інтелектуального
вибіркового сприйняття, який базується на грубо-точному методі пошуку і забезпечує можливість
управління параметрами зчитування інформації з відеосенсора. Розглянуті інформаційні аспекти вибірковості
та приклади її використання.
Вступ
Візуальна інформація є найбільш інформативною формою відображення зовнішнього
світу. Вона представляється у дво- чи тривимірному просторі, у часі та у трьох кольорових
координатах, тобто 6 – 7-вимірному просторі, вимагає сприйняття у реальному часі
≈100 Мбайт/с та продуктивності ≈10 Гміпс для її обробки.
Незважаючи на значні об’єми інформації в зображенні і особливо у відеопослідов-
ності, зорово-аналізуюча система людини досить ефективно і оперативно справляється з
цими задачами за рахунок своєї надзвичайно високої вибірковості. В роботі [1] виділено
десятки структурних (конструктивних) та фізичних особливостей зорового аналізатора
людини, десятки механізмів та процесів, які мають місце і діють в ньому. Однак висока
вибірковість сприйняття інформації людиною забезпечується, в першу чергу, завдяки
структурним особливостям побудови зорового аналізатора (широке поле огляду з малою
роздільною здатністю периферійної сітківки та «гострий» зір в зоні ямки – фовеал), ме-
ханізмам уваги і адаптації та різним типам руху очей.
Основні елементи інтелектуального зорового сприйняття:
– широке поле огляду периферійного зору (сітківки) з невисокою роздільною здат-
ністю, яке реалізує функції збудження та направлення погляду (механізм уваги);
– концентрація роздільної здатності в зоні ямки сітківки ока, яка служить як деякий
зонд, з допомогою якого зорова система досліджує світ;
– високорівневе управління рухами ока, яке визначається поставленою перед систе-
мою метою (пошук об’єктів, розглядання, слідкування, панорамування тощо).
Система верхнього рівня послідовно формує гіпотези про об’єкти сцени та направ-
ляє очі для збору додаткової інформації, щоб підтвердити або відкинути ці гіпотези.
Проблема створення досконалих систем технічного зору, здатних з високою опера-
тивністю і ефективністю вирішувати задачі обробки зображень, пошуку і розпізнавання
об’єктів в реальному часі, є актуальною для створення інтелектуальних відеосистем різ-
ного призначення. Основними задачами тут є: організація динамічного налагодження зо-
рової системи до сприйняття широкого кола простору, цілеспрямований пошук об’єктів
та концентрація уваги на локальних ділянках для їх детального аналізу.
Інтелектуальне вибіркове сприйняття візуальної інформації…
«Штучний інтелект» 3’2011 17
1Б
Механізм уваги – одна з центральних складових системи, оскільки вона вибирає
інформацію, на якій базуються дії системи. Для більшості задач, які повинні бути роз-
в’язані системою, має місце додаткове знання, яке може бути використане для спрощення
системи або алгоритму розв’язання задачі, тобто для спеціалізації системи.
Стратегія «механізмів уваги» базується на швидкому, грубому аналізі статичного або
динамічного зображення з метою виділення яких-небудь характерних інформаційних
ознак: яскравісних, колірних, динамічних, геометричних (меж областей, горизонтальних
та вертикальних ліній, кутів...) тощо, з наступною більш тонкою їх перевіркою. Стратегія
«механізмів уваги» враховує, що об’єкт складається з частин з різними властивостями.
Стратегія є адаптивною, тобто пристосовується до статистики ознак зображення та доз-
воляє значно зменшити загальний обсяг обчислень [2].
Фовеальне сприйняття візуальної інформації
Були спроби повторити таку організацію візуального сприйняття з широким пери-
ферійним оглядом і детальним розглядуванням в технічних та алгоритмічних моделях.
Одним з таких напрямків є створення фовеальних сенсорів [3].
Фовеальні сенсори можна умовно поділити на два класи:
– з радіальною організацією рецепторного поля,
– з ієрархічною організацією рецепторного поля.
Перший клас сенсорів реалізує логарифмічне полярне перетворення (log-polar
mapping), яке забезпечує інваріантність до повороту та зміни масштабу образу. Реалізація
таких сенсорів полягає в безпосередньому синтезі пристроїв на сучасній CMOS-тех-
нології з нерівномірним розміщенням рецепторів на площині – щільне розміщення
елементів в центральній частині і зменшення щільності елементів від центра до пери-
ферії матриці. Другий варіант реалізації полягає в тому, що з допомогою спеціальної
оптичної системи забезпечується нерівномірне відображення елементів в центральній і
периферійних ділянках. Недоліком радіальної організації є необхідність управління
«поглядом», тобто напрямом оптичної вісі сенсора, що вимагає використання приво-
ду та системи управління ним.
Сенсори з ієрархічною організацією рецепторного поля реалізують принцип дина-
мічної організації центрального і периферійного полів зору залежно від поточної зони
уваги. Ідеологія організації такої обробки випливає з робіт зі створення пірамідальних
систем машинного зору і моделюванню механізмів уваги [2].
Однак реалізація ієрархічного інтелектуального сприйняття, як це здійснюється в
пірамідальних системах, не задовольняє умовам реального часу, оскільки в них спочатку
зчитується зображення з максимальною роздільною здатністю, а потім, шляхом фільтрації
та проріджування, формуються наступні шари піраміди, кожен з яких має в 4 рази мен-
ший розмір зображення. Ця процедура вимагає значних витрат часу та пам’яті, що не за-
безпечує умов реального часу.
Інтелектуальне вибіркове сприйняття
візуальної інформації
Метою роботи є наближення принципів побудови систем технічного зору до ін-
телектуального сприйняття візуальної інформації зоровою системою людини.
Тому пропонується підхід до ієрархічної організації вибіркового сприйняття ві-
зуальної інформації, який базується на грубо-точному методі пошуку і полягає в на-
ступному. Спочатку зчитується проріджене зображення або послідовно окремі рядки
Боюн В.П.
«Искусственный интеллект» 3’2011 18
1Б
зображення з деяким кроком, який враховує геометричні розміри шуканого об’єкта,
шукається об’єкт за заданими ознаками (наприклад за кольором), визначаються його
габаритні розміри і в цих габаритах зчитується уточнене зображення об’єкта для роз-
пізнавання. Такий підхід є значно ефективнішим, особливо в технічних відеосистемах
реального часу, оскільки не вимагає зчитування всього зображення з високою розділь-
ністю, не вимагає додаткової обробки інформації для формування піраміди зображень та
не вимагає приводу з системою управління «поглядом» (як це має місце в сенсорах з
радіальною організацією).
Якщо в зображенні декілька об’єктів, то вони відшукуються за грубим зображенням, а
потім зчитується з більшою роздільністю один об’єкт, наприклад з більшим пріоритетом, і
наступні для подальшого розпізнавання. Тобто має місце перевернута піраміда. Крім того,
технічні можливості сучасних CMOS-відеосенсорів дозволяють легко перепрограмовувати
їх в процесі сприйняття відеоінформації на зчитування розрідженого, фізично повного або
більш детального (з інтерполяцією між сусідніми пікселами) зображення.
Крім грубо-точного сприйняття візуальної інформації по простору (тобто в коорди-
натах X,Y) око людини реагує не на величину яскравості або колірності в зображенні, а на
зміни цих величин між значеннями яскравості сусідніх рецепторів, або значеннями яс-
кравості даного рецептора у часі, тобто на динаміку цього параметру.
Залежно від динаміки процесів, які спостерігає зорова система людини, від рівня
освітлення, необхідності розглядання великих або дрібних деталей в зображенні, діють
адаптаційні механізми, що управляють типами рухів очей, їх швидкістю, чутливістю ре-
цепторів тощо. Тому і в системах технічного зору також доцільно управляти частотою
зчитування відеоінформації, коефіцієнтом підсилення та розрядністю її представлення.
Таким чином, для реалізації інтелектуального вибіркового сприйняття зображень
необхідно забезпечити такі можливості:
– управління роздільною здатністю по простору;
– зчитування довільної прямокутної ділянки зображення;
– виділення динамічної інформації (в рядку, між стовпчиками матриці зображень
або між кадрами);
– управління розрядністю яскравості або колірності;
– управління частотою відеозйомки.
Звичайно в відеосистемах реального часу виникає необхідність реалізації ще деяких
можливостей управління відеокамерою, зокрема управління експозицією, автофокусом,
врахування типу освітлення тощо, але ці параметри меншою мірою впливають на об’єм
інформації з зображення.
Інформаційні аспекти вибірковості
Розглянемо більш детально інформаційні аспекти вибірковості за рахунок зазначе-
них вище можливостей управління параметрами зчитування відеоінформації.
Для визначення об’єму інформації у зображенні звичайно використовується по-
тенційна оцінка на основі амплітудно-просторової роздільності:
1
log 2. zyx
C з
, (1)
а для відеопослідовності (динамічного зображення) ще і часової роздільності:
,
1
1
log 2.. tzyx
C пв
(2)
Інтелектуальне вибіркове сприйняття візуальної інформації…
«Штучний інтелект» 3’2011 19
1Б
де X і Y – розміри поля зображення;
Z – координата яскравості зображення;
x, y, z, t – дискретність представлення відповідних координат зображення.
Для кольорової відеопослідовності кількість інформації визначиться як
,
1
1log1log1log 222... tz
B
z
G
z
R
yx
C пвк
(3)
де R, G, B – кольорові (червона, зелена, синя) складові світла.
Потенційна оцінка використовується для розрахунку необхідної пропускної здат-
ності каналів зв’язку для передачі зображення, об’єму пам’яті для збереження зобра-
ження і продуктивності обчислювальних засобів для його обробки. Потенційна оцінка
відбиває методи і засоби знімання зображень за допомогою традиційних відеокамер.
У виразах (1) і (2) значення X, Y і Z прийняті фіксованими і рівними максималь-
ному значенню, фіксованими є і значення x, y, z, t, тому такий підхід дає оцінку
зверху кількості інформації, що є дуже завищеною і не вказує шляхів скорочення над-
лишковості цифрового представлення зображень.
Такі шляхи з’являються при інтелектуальному вибірковому сприйнятті візуальної
інформації за рахунок вказаних вище можливостей управління параметрами зчитуван-
ня відеоінформації.
Управління роздільною здатністю.
1. Проріджування зображення, тобто збільшення кроку дискретизації простору
x та y вдвічі: yyxx 2 ,2 ,
1log 2. z
Z
y
Y
x
X
C з
=
1log
4
1
1log
22 22 z
Z
yx
XY
z
Z
y
Y
x
X
,
приводить до зменшення об’єму інформації в 4 рази.
2. Сканування зображення окремими рядками або стовпчиками з великим кро-
ком xnx або ymy приводить до зменшення об’єму інформації в n або m раз.
Зчитування довільного прямокутника з зображення в межах від X1 до X2 та
від Y1 до Y2
1log. 2
Z
Z
y
Y
x
X
Cз
зменшує кількість інформації в поданні зображення в
YX
XY
раз, де ,12 ΧΧΧ
12 ΥΥΥ .
Виділення динамічної інформації. Яскравісна (колірна) картина зображення не
є постійною, а змінюється від піксела до піксела і від кадру до кадру. Тому величина
Z у формулі (1) не є константою, а є функцією координат зображення ij i iz f x y .
У своїй праці [4] В.М. Глушков дав таке містке визначення поняття інформації, що
воно не втратило своєї актуальності навіть до теперішнього часу: «Информация в самом
общем ее понимании представляет собой меру неоднородности распределения материи
и энергии в пространстве и времени, меру изменений, которыми сопровождаются все
протекающие в мире процессы». При цьому виділяються два різновиди інформації –
статична (характеризує поточний стан певної матеріальної чи енергетичної системи)
та динамічна (її змінність у часі і просторі). І якщо статичній інформації було приділено
Боюн В.П.
«Искусственный интеллект» 3’2011 20
1Б
сотні робіт у світі і вона стала вже класикою, то динамічній інформації не було надано
необхідної уваги практично до кінця ХХ століття. Однак визначення поняття динаміч-
ної інформації виявилося винятково плідним при вивченні інформаційних властивостей
фізичних систем та процесів.
Основи динамічної теорії інформації закладені в монографії [5]. Це дозволило
виділяти й використовувати корисну (динамічну) інформацію з випадкових стаціо-
нарних і нестаціонарних сигналів, зображень, просторових полів, ітераційних проце-
сів, рекурентних процедур тощо, значно зменшивши її надлишковість.
У роботі [5] уведено поняття ентропії значення випадкової величини 2
1
1
k
N i i
i
H N
plog ,
що є мірою невизначеності самого значення випадкової величини і являє собою середню
кількість розрядів, що приходиться на одне значення випадкової величини.
Розглядаючи матрицю (m x n) значень яскравості пікселів як значення випадкової
величини, одержимо оцінку ентропії зображення [6]
1log2
1 1
. z
z
pH ij
n
j
m
i
ijз
. (4)
Так само як для Шеннонівської ентропії стану, одиницю виміру ентропії значення
випадкової величини визначає основа логарифма. При основі логарифма, рівній двом,
одиницею ентропії значення є біт.
Пронормувавши H величиною
1log max
2 z
z
, одержимо приведену ентропію яскра-
вісної характеристики зображення
1log max
2
.
z
z
H
h з
z . (5)
Приведена ентропія яскравісної характеристики зображення характеризує розкид по
розрядності представлення яскравості пікселів зображення і змінюється в діапазоні (0 ÷ 1).
Так, при 1zh всі значення яскравості пікселів зображення вимагають для свого
представлення приблизно однакової розрядності. Зображення виглядає монотонно світ-
лим і слабо контрастним. У цьому випадку для скорочення надлишковості цифрового
представлення зображення, знаючи середнє значення яскравості, усі значення яскравості
пікселів можна представити у виді відхилень від .срz Використовувати змінну розрядність
для представлення яскравості пікселів недоцільно.
При zh 0,5 зображення є досить контрастним. У цьому випадку доцільний перехід
на змінну розрядність представлення значень яскравості і кількість розрядів для пред-
ставлення значень яскравості може бути скорочена більш ніж у 2 рази.
З огляду на необхідність виділення перепадів яскравості між сусідніми елементами
в рядку і стовпці матриці зображення, воно може бути представлене у виді матриці різ-
ниць між сусідніми елементами (матриці приростів).
При цьому ентропія зображення визначиться як
,1log2
1 1
z
z
pH
ij
n
j
m
i
ij (6)
Інтелектуальне вибіркове сприйняття візуальної інформації…
«Штучний інтелект» 3’2011 21
1Б
де різниці ijz можуть бути визначені як по рядках ( ijz ), так і по стовпцях ( ijz )
матриці:
ijj,iijijj,iij zzz,zzz 11 .
Звичайно, для кодування приростів знадобиться менша кількість розрядів, що також
зменшить кількість інформації в зображенні.
З огляду на необхідність сприйняття різниць між відповідними пікселами двох сусід-
ніх кадрів, одержимо матрицю різницевого зображення (матрицю різниць або матрицю
приростів) [6]. При цьому ентропія його визначиться як
,1log2
1 1
z
z
pH
k
ijn
j
m
i
ij (7)
де ij
kk
ij
k
ij zzz 1 , k – номер кадру відеопослідовності.
У різницевому зображенні, аналогічно попередньому, також можна виділити корисну
інформацію, тобто об’єкт, відсіявши фон, або виділити тільки зміни в об’єкті між кадрами.
Аналогічно попередньому, тут також забезпечується зменшення об’єму інформації
в зображенні.
Управління розрядністю представлення відеоінформації. Грубе представлення
інформації може стосуватись не тільки роздільної здатності просторового представлення,
але й точності представлення яскравості (колірності), тобто розрядності. Зменшення роз-
рядності приводить до відповідного зменшення кількості інформації в зображенні, однак
використати повною мірою це зменшення в більшості випадків дуже складно.
Умовно можна вважати, що кількість інформації, знятої кольоровою відеокамерою,
зростає в 3 рази. Однак у системах реального часу в ряді застосувань можливе використан-
ня тільки окремих R, G, B-складових чи перейшовши до моделі HSB, використовувати,
наприклад, тільки колірну чи яскравісну ознаку, які більшою мірою несуть корисну інфор-
мацію для даної задачі. Тому для підвищення вибірковості доцільно забезпечити можли-
вість зчитування тільки необхідної в даній задачі інформації.
Управління частотою відеозйомки. Зменшення частоти відеозйомки, тобто збіль-
шення кроку дискретизації по часу t, приводить до пропорційного зменшення об’єму
інформації у відеопослідовності.
Практичне використання можливостей управління
параметрами зчитування інформації з відеосенсора
Крім забезпечення можливості управління параметрами зчитування інформації вкрай
важливим для систем технічного зору є суміщення процесів уведення зображення з його
обробкою у часі, що не дуже складно реалізується з допомогою каналів прямого доступу
до пам’яті сучасних процесорів цифрової обробки сигналів. Суміщення процесів дозволяє
після закінчення уводу зображення з мінімальною затримкою у часі визначити параметри
управління відеосенсором на наступний кадр зображення, тобто значно зменшити затримку
інформації в контурі зворотного зв’язку. Вказані можливості варіювання параметрами
зчитування відеоінформації та суміщення забезпечують вибірковість та значне зменшення
інформації (без втрати корисної інформації) для обробки, тобто підвищення ефективності і
оперативності подання зображення.
Боюн В.П.
«Искусственный интеллект» 3’2011 22
1Б
Наведемо приклади використання цих можливостей в практичних задачах. Залежно
від поставленої перед системою технічного зору задачею можна виділити ряд типових
режимів або етапів, які по аналогії пов’язані з рухами очей та особливостями сприйняття
відеоінформації зоровим аналізатором людини:
– пошук об’єкта за ознаками;
– розглядання (розпізнавання, порівняння, вимірювання) об’єкта;
– слідкування за об’єктом;
– панорамування сцени.
Можливість управління параметрами зчитування інформації з відеосенсора може бути
ефективно використана при реалізації стратегії «механізмів уваги»:
– для швидкого пошуку об’єкта за декількома ознаками за «грубим» зображенням;
– зчитування виділеного об’єкта з більшою роздільністю для детального розглядання і
виділення деяких інформаційних ознак для його розпізнавання, порівняння або вимірювання.
Такий підхід дозволяє значно зменшити загальний обсяг обчислень.
У ряді випадків обробка зображення на цьому завершується, в інших випадках, впев-
нившись, що знайдений об’єкт є шуканим, продовжується процедура слідкування за ним.
У режимі слідкування за об’єктом чи просто при необхідності зчитування тільки
частини відеокадру, яка цікавить, із зображення вирізується і зчитується тільки відповідна
частина відеокадру, що дає скорочення необхідної кількості інформації як співвідношен-
ня площ повного кадру і частини кадру. Крім того, у цьому випадку також можливе пред-
ставлення частини зображення, що зчитується, у виді приростів, як описано вище, із
прив’язкою до значення відповідної яскравості (чи колірності) у попередньому кадрі чи в
кутовій точці кадру, що зчитується. При спостереженні одночасно за декількома об’єктами
в оцінці ентропії враховується сумарна площа виділених прямокутників з об’єктами.
Залежно від абсолютного значення приросту яскравості (колірності) між кадрами, від
інтегральної величини змін чи від швидкості переміщення зображення в кадрі, а також від
величини експозиції, можлива зміна в процесі відеозйомки частоти кадрів (тобто кроку
дискретизації за часом t), а отже, і ентропії відеопослідовності, без істотної зміни якості
системи технічного зору.
При зйомці поворотною відеокамерою (із секторним чи круговим оглядом) чи зйомці
відеокамерою, установленою на транспортному засобі, традиційно зйомка здійснюється з
постійною частотою кадрів і з перекриттям зображень у сусідніх кадрах, що забезпечує
збереження руху у відеопослідовності. За рахунок перекриття кадрів, величина яких
залежить від співвідношення швидкості руху чи повороту камери і частоти зйомки кадрів,
а також кута огляду відеокамери, виникає деяка надлишковість у цифровому представ-
ленні відеопослідовності. Ця надлишковість може бути усунута шляхом зчитування (чи
виділення) тільки нової інформації від кадру до кадру.
Її ентропія в кожному кадрі визначиться за однєю з формул [6]:
1log
1
2
z
ij
m
j
n
ni
z
z
H
i
ij
або
1log
1 1
2
z
ij
m
j
n
i
z
z
H
i
ij
, (8)
де
x
X
n i
i
, Xi – координата поточного зображення, по якій здійснюється підстиковка
його до попереднього зображення.
Аналогічно визначається ентропія і для двохкоординатного панорамування.
Якщо швидкість руху чи повороту є постійною і дальність до панорами залишається
приблизно тією ж, то координата Xi може бути приблизно визначена розрахунком чи
експериментально. Тоді для побудови панорамного зображення необхідно тільки її уточ-
Інтелектуальне вибіркове сприйняття візуальної інформації…
«Штучний інтелект» 3’2011 23
1Б
нити. При змінній швидкості руху чи повороту доцільне використання датчиків положення
відеокамери, тому що математичні методи пошуку зони стикування відеокадрів вимагають
великих обчислювальних витрат.
Іншою проблемою, що виникає при панорамуванні, є забезпечення плавного
стикування відеокадрів. Залежно від вимог до якості панорамного зображення вико-
ристовуються або прості методи фільтрації, або більш складні методи з корекцією
геометричних спотворень.
При панорамуванні забезпечується значна компресія зображень, що визначається сту-
пенем перекриття площ кадрів у відеопослідовності. Панорамування в системах кругового
огляду, крім значної компресії зображення, створює передумови для автоматичного ви-
значення змін, що відбуваються між оборотами відеокамери. Доцільне використання пано-
рамування і для спрощення монтажу довільних відеопослідовностей, як у функції коорди-
нат, так і часу. Для цього на статичному панорамному зображенні задається довільна
траєкторія координат центра рамки, що виділить і сформує задану відеопослідовність.
Приклади реалізації інтелектуальних відеопристроїв
Деякі з цих принципів вже реалізовані в ряді пристроїв та систем:
– інтелектуальній відеокамері;
– пристрої контролю якості, форми та розмірів продукції, ідентифікації об’єктів за
заданими характеристиками;
– цифровому оптичному капіляроскопі для неінвазивного контролю мікроцирку-
ляторної ланки кровообігу людини;
– гемодинамічній лабораторії «МікроМакроПоток» для контролю системи крово-
обігу на макро- і мікрорівнях
та показали значне підвищення оперативності і ефективності систем технічного зору.
Висновки
Забезпечення можливості управління параметрами зчитування інформації з відеосен-
сора та використання різних мір інформації для різних задач і режимів, створює умови
інтелектуального сприйняття відеоінформації за рахунок значного підвищення вибірко-
вості та адаптації пристрою під задачі, спрощує обробку та підвищує оперативність і
ефективність систем технічного зору.
Література
1. Боюн В.П. Зоровий аналізатор людини як прототип для побудови сімейства проблемно-орієнтованих
систем технічного зору / В.П. Боюн // Искусственный интеллект. Интеллектуальные системы ИИ-2010 :
материалы Международной научно-технической конференции, (пос. Кацивели, АР Крым, Украина, 20 –
24 сентября 2010 г.). – Донецк : ИПИИ «Наука і освіта». – 2010. – Т. 1. – С. 21-26.
2. Шелепин Ю.Е. Конструкция фовеолы и модель пирамидальной организации зрительной системы /
Ю.Е. Шелепин, В.М. Бондарко, М.В. Данилова // Сенсорные системы. – 1995. – № 1. – С. 87-97.
3. Tagare H.D. A Maximum-Likelihood Strategy for Directing Attention during Visual Search / H.D. Tagare,
K. Toyama, J.G. Wang // IEEE Transactions on pattern analysis and machine intelligence. – 2001, May. –
Vol. 23, № 23. – P. 490-500.
4. Глушков В.М. О кибернетике как науке / Глушков В.М. // Кибернетика, мышление, жизнь. – М. : Мысль,
1964. – С. 53-62.
5. Боюн В.П. Динамическая теория информации. Основы и приложения / Боюн В.П. – К. : Издание ИК
НАНУ, 2001. – 326 с.
6. Боюн В.П. Интеллектуальные видеокомпьютерные системы и устройства / В.П. Боюн // Інноваційні
технології. – 2003. – № 2-3. – С. 124-131.
7. Burt P.J. Smart Sensing within a Pyramid Vision Machine / P.J. Burt // IEEE. – 1998. – Vol. 76, № 8. – P. 175-185.
Боюн В.П.
«Искусственный интеллект» 3’2011 24
1Б
Literatura
1. Boyun V.P. Zorovyi analizator ludini jak prototip dlja pobudovi simeistva problemno-orientovanih
sistem tehnichnogo zoru. Muterialy Mezhdunarodnoy nauchno-technicheckoy konferencyi: “Iskustvennyi
intellect. Intellektualnye sistemy. II-2010”. 2010. T.1. S. 21-26.
2. Shelepin U.E., Bondarko V.M., Danilova M.V. Konstrukcija foveoly i model piramidalnoy organizacii
zritelnoy sistemy. Zh. Sensornye sistemy. №1, 1995. -S.87-97.
3. Tagare H.D., Toyama K., Wang J.G. A Maximum-Likelihood Strategy for Directing Attention during
Visual Search, IEEE Transactions on pattern analysis and machine intelligence, Vol.23, No.5,May 2001,
pp. 490-500.
4. Glushkov V.M. O kibernetike kak nauke //Kibernetika, myshlenie, zhizn. –М.: Mysl, 1964.–S.53-62.
5. Boyun V.P. Dinamicheskaja teorija informacii. Osnovy i prilozhenija. Izdanie IK NANU, g. Kiev. 2001,-
326s.
6. Boyun V.P. Intellektualnye videokomputernye sistemy i ustrojstva // Innovaciyni tehnologii. \2003. № 2-
3. S.124-131.
7. Burt P. J. Smart Sensing within a Pyramid Vision Machine, IEEE, V.76, №8, 1988, pp. 175-185.
В.П. Боюн
Интеллектуальное избирательное восприятие визуальной информации. Информационные аспекты
Рассмотрены основные элементы интеллектуального зрительного восприятия человека и значение
избирательности для этого. Проведен анализ методов интеллектуального восприятия на базе фовеальных
сенсоров с радиальной и иерархической организацией рецепторного поля. Предлагается подход к
интеллектуальному избирательному восприятию, который базируется на грубо-точном методе поиска
и обеспечивает возможность управлять параметрами считывания информации с видеосенсора. Рассмотрены
информационные аспекты избирательности и примеры ее использования.
V.P. Boyun
Intelligent Selective Perception of Visual Information. Informational aspects
The basic elements of human intellectual visual perception and importance of selectivity for this purpose are
considered. The analysis of methods of intellectual perception on the base of fovea sensors with radial and
hierarchical structures of receptor field is carried out. The new approach to intelligent selective perception is
offered. It is based on a coarse-to-fine method of searching and provides facilities to operate parameters of
reading information from videosensors. The information aspects of selectivity and examples of their
applications are considered.
Стаття надійшла до редакції 22.06.2011.
|