Метод машинного навчання для ідентифікації парафрази

У роботі описаний новий ефективний алгоритм ідентифікації парафрази, розроблений з використанням машинного навчання. Архітектура системи має форму багатошарового класифікатора, де класифікатори нижнього рівня приймають рішення про факт наявності або відсутності парафрази в парах речень, відповідно д...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2016
Автори:	Марченко, О.О., Никоненко, А.О., Россада, Т.В., Мельников, Є.А.
Формат:	Стаття
Мова:	Ukrainian
Опубліковано:	Інститут проблем штучного інтелекту МОН України та НАН України 2016
Назва видання:	Штучний інтелект
Теми:	Прикладні інтелектуальні технології та системи
Онлайн доступ:	http://dspace.nbuv.gov.ua/handle/123456789/132077
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:	Метод машинного навчання для ідентифікації парафрази / О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников // Штучний інтелект. — 2016. — № 3. — С. 128-136. — Бібліогр.: 20 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	irk-123456789-132077
record_format	dspace
spelling	irk-123456789-1320772018-04-11T03:02:54Z Метод машинного навчання для ідентифікації парафрази Марченко, О.О. Никоненко, А.О. Россада, Т.В. Мельников, Є.А. Прикладні інтелектуальні технології та системи У роботі описаний новий ефективний алгоритм ідентифікації парафрази, розроблений з використанням машинного навчання. Архітектура системи має форму багатошарового класифікатора, де класифікатори нижнього рівня приймають рішення про факт наявності або відсутності парафрази в парах речень, відповідно до їхніх індивідуальних стратегій, а супер-класифікатор верхнього рівня приймає остаточне рішення. Експерименти показали оцінки точності визначення парафрази, співставні з кращими існуючими в світі системами. A new effective algorithm for paraphrase identification has been developed with using machine learning approach. Architecture of the system has a form of multilayer classifier where sub-classifiers of the lower level make decisions about presence or absence of paraphrase in sentences according to their strategies and super-classifier of upper level finds the final solution. Experiments demonstrated precision of paraphrase detection comparable with the best ones state-of-the-art systems. 2016 Article Метод машинного навчання для ідентифікації парафрази / О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников // Штучний інтелект. — 2016. — № 3. — С. 128-136. — Бібліогр.: 20 назв. — укр. 1561-5359 http://dspace.nbuv.gov.ua/handle/123456789/132077 68Т50 uk Штучний інтелект Інститут проблем штучного інтелекту МОН України та НАН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Ukrainian
topic	Прикладні інтелектуальні технології та системи Прикладні інтелектуальні технології та системи
spellingShingle	Прикладні інтелектуальні технології та системи Прикладні інтелектуальні технології та системи Марченко, О.О. Никоненко, А.О. Россада, Т.В. Мельников, Є.А. Метод машинного навчання для ідентифікації парафрази Штучний інтелект
description	У роботі описаний новий ефективний алгоритм ідентифікації парафрази, розроблений з використанням машинного навчання. Архітектура системи має форму багатошарового класифікатора, де класифікатори нижнього рівня приймають рішення про факт наявності або відсутності парафрази в парах речень, відповідно до їхніх індивідуальних стратегій, а супер-класифікатор верхнього рівня приймає остаточне рішення. Експерименти показали оцінки точності визначення парафрази, співставні з кращими існуючими в світі системами.
format	Article
author	Марченко, О.О. Никоненко, А.О. Россада, Т.В. Мельников, Є.А.
author_facet	Марченко, О.О. Никоненко, А.О. Россада, Т.В. Мельников, Є.А.
author_sort	Марченко, О.О.
title	Метод машинного навчання для ідентифікації парафрази
title_short	Метод машинного навчання для ідентифікації парафрази
title_full	Метод машинного навчання для ідентифікації парафрази
title_fullStr	Метод машинного навчання для ідентифікації парафрази
title_full_unstemmed	Метод машинного навчання для ідентифікації парафрази
title_sort	метод машинного навчання для ідентифікації парафрази
publisher	Інститут проблем штучного інтелекту МОН України та НАН України
publishDate	2016
topic_facet	Прикладні інтелектуальні технології та системи
url	http://dspace.nbuv.gov.ua/handle/123456789/132077
citation_txt	Метод машинного навчання для ідентифікації парафрази / О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников // Штучний інтелект. — 2016. — № 3. — С. 128-136. — Бібліогр.: 20 назв. — укр.
series	Штучний інтелект
work_keys_str_mv	AT marčenkooo metodmašinnogonavčannâdlâídentifíkacííparafrazi AT nikonenkoao metodmašinnogonavčannâdlâídentifíkacííparafrazi AT rossadatv metodmašinnogonavčannâdlâídentifíkacííparafrazi AT melʹnikovêa metodmašinnogonavčannâdlâídentifíkacííparafrazi
first_indexed	2025-07-09T16:40:33Z
last_indexed	2025-07-09T16:40:33Z
_version_	1837189055740116992
fulltext	ISSN 1561-5359. Штучний інтелект, 2016, № 3 128 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников УДК 68Т50 О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников Київський національний університет імені Тараса Шевченка, Україна вул. Володимирська, 64/13, м. Київ, 01601 МЕТОД МАШИННОГО НАВЧАННЯ ДЛЯ ІДЕНТИФІКАЦІЇ ПАРАФРАЗИ O.O. Marchenko, A.O. Nykonenko, T.V. Rossada, E.A. Melnikov Taras Shevchenko National University of Kyiv, Ukraine Volodymyrska St., 64/13, Kyiv, 01601 ABOUT ONE MACHINE LEARNING METHOD FOR PARAPHRASE IDENTIFICATION У роботі описаний новий ефективний алгоритм ідентифікації парафрази, розроблений з використанням машинного навчання. Архітектура системи має форму багатошарового класифікатора, де класифікатори нижнього рівня приймають рішення про факт наявності або відсутності парафрази в парах речень, відповідно до їхніх індивідуальних стратегій, а супер-класифікатор верхнього рівня приймає остаточне рішення. Експерименти показали оцінки точності визначення парафрази, співставні з кращими існуючими в світі системами. Ключові слова: машинне навчання, аналіз природномовних текстів, визначення парафрази. A new effective algorithm for paraphrase identification has been developed with using machine learning approach. Architecture of the system has a form of multilayer classifier where sub-classifiers of the lower level make decisions about presence or absence of paraphrase in sentences according to their strategies and super- classifier of upper level finds the final solution. Experiments demonstrated precision of paraphrase detection comparable with the best ones state-of-the-art systems. Keywords: machine learning, natural language text processing, paraphrase identification. Вступ Ідентифікація парафрази стала однією з найбільш актуальних задач у комп’ютер- ній лінгвістиці. Можливо тому, що пошук речень, які за лексичним складом є різними, але мають однакове смислове значення, є дуже подібним до класичної задачі визна- чення семантики текстів природною мовою. На сьогодні досягнуто значних успіхів у розробці алгоритмів ідентифікації парафрази. Основні дослідження велися і ведуться в рамках напрямку машинного нав- чання. Системи, які продемонстрували найкращі показники точності визначення на стандартних корпусах парафраз, використовували такі потужні і ресурсомісткі техно- логії, як Recursive Neural Networks, Convolutional Neural Networks і невід’ємну матрич- ну факторизацію. Крім всієї нетривіальності та певної невизначеності, які неминуче виникають при використанні нейронних мереж, слід зазначити також і алгоритмічну складність невід’ємної факторизації матриць, що робить ці методи проблемними рішеннями для застосування в промислових системах, які працюють у реальному часі. Перед авторами даної статті стояла задача розробки повномасштабної системи визначення наявності парафрази, яка працювала б онлайн у реальному часі з великими потоками текстової інформації, і це накладало відповідні обмеження на швидкість алгоритму. Тому, як базовий підхід, був обраний стандартний метод опорних векторів (SVM) з розробкою оригінальної багаторівневої структури системи класифікаторів. Основною ідеєю запропонованого підходу є розробка набору класифікаторів нижнього рівня і побудова супер-класифікатора, який на основі набору рішень, отриманих від ISSN 1561-5359. Штучний інтелект, 2016, № 3 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников 129 класифікаторів нижнього рівня, вчиться приймати остаточне рішення про наявність чи відсутність парафрази. На першому етапі кожен з класифікаторів нижнього рівня навчається якісно розпізнавати деякі типи випадків парафрази/непарафрази за навчальною вибіркою. Для цього навчальна вибірка модифікується під кожний окремий класифікатор нижнього рівня видаленням зайвих навчальних пар речень, які представляють певний «шум» для нього, так як вони, наприклад, не входять у цільову вибірку типів парафрази для даного підкласифікатора, при цьому будучи парафразою, тобто повинні увійти до вибірки іншого відповідного підкласифікатора. Після навчання класифікаторів нижнього рівня йде етап навчання суперкласифікатора. Навчені класифікатори нижнього рівня відпрацьовують весь навчальний корпус. Їх оцінки на всій навчальній множині пар речень є навчальною вибіркою для суперкласифікатора. Система, що була розроблена та протестована на стандартних корпусах Microsoft Research Paraphrase Corpus (MSRP) [1] і Plagiarism Detection Corpus (PAN) [2], продемонструвала точність визначення парафрази, співставну з кращими відомими системами state-of-the-art. Системи аналізу парафрази Більшість попередніх робіт, присвячених визначенню парафрази з використанням методів машинного навчання, зосереджувалися на побудові оптимального набору ознак, тобто на побудові ефективного ознакового простору. Були винайдені декілька типів ознак, у тому числі: (1) ознаки на основі рядків, включаючи перетини n-грам як слів, так і символів [3] та ознаки, основані на метриках оцінки якості машинного перекладу [4]; (2) ознаки, основані на знаннях, що використовують зовнішні лексичні ресурси, такі як WordNet [5]; (3) ознаки на основі синтаксису, які обчислюють міри відмінності синтаксичних залежностей у двох реченнях [6]; (4) міри, що обчислюються на корпусах на основі моделей розподілу, подібно до латентного семантичного аналізу [7, 8]. У новітніх роботах дослідники відійшли від «ручного підбору» ознак до моделювання представлень розподілу та нейромережевих рішень. Hua He, Kevin Gimpel та Jimmy Lin [9] використали згорткову нейронну мережу для обчислення мульти- перспективної подібності речень і їх система продемонструвала оцінки точності на рівні state-of-the-art. Cheng та Kartsaklis [10] застосували розподіли разом із рекурсивною нейронною мережею при розробці синтаксичної прив’язки багатозначних слів для глибокої композиційної моделі значень, та перевершили попередній результат. На сьогодні найкращий результат належить дослідникам Ji та Eisenstein [11], які застосовують для оптимізації ознакового простору невід’ємну матричну факторизацію та відстань Кульбака  Лейблера. Nitin Madnani, Joel Tetreault та Martin Chodorow [12] розробили алгоритм, який складається із восьми метрик якості машинного перекладу, які обчислюють близькість речень, та класифікатора верхнього рівня, що знаходить кінцевий розв’язок на основі значень оцінок метрик нижнього рівня. Незважаючи на відсутність потужних та ресурсоємних обчислень, цей алгоритм демонструє результати рівня state-of-the-art, набагато переважаючі вищезгадані методи по швидкості та по простоті реалізації. Запропонований у даній статті алгоритм, у деякому сенсі, можна віднести саме до цього класу методів визначення парафрази. ISSN 1561-5359. Штучний інтелект, 2016, № 3 130 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников Опис методу Для визначення наявності парафрази побудовано класифікатор, який має дворівневу структуру. На нижньому рівні вхідні дані, що представляють собою пари речень, які потрібно перевірити, чи не є вони парафразом один до одного, аналізується набором простих класифікаторів, кожен з яких навчений розпізнавати парафрази певного набору типів. Ці класифікатори визначають для кожної вхідної пари наявність або відсутність парафрази. На верхньому рівні отримані результати оцінюються головним класифікатором, який і приймає остаточне рішення. Для навчання системи необхідна розмічена вибірка пар речень (1 − парафраза/0 − непарафраза) (див. табл.1). Таблиця 1. Приклад елементів навчальної вибірки Мітка Перше речення Друге речення 1 Amrozi accused his brother, whom he called "the witness", of deliberately distorting his evidence. Referring to him as only "the witness", Amrozi accused his brother of deliberately distorting his evidence. 0 Yucaipa owned Dominick's before selling the chain to Safeway in 1998 for $2.5 billion. Yucaipa bought Dominick's in 1995 for $693 million and sold it to Safeway for $1.8 billion in 1998. Для навчання системи застосовуються ознаки: 1. Sentence Length Difference – порівняння кількості лексем у реченнях: r cr crencengthDifferSentenceLe  ),( , cr d crencengthDifferSentenceLe   1 ),(* 2. N-Grams Comparing – порівняння уніграм, біграм та триграм: rN cNrN N NGrams NGramsNGrams craringNGramsComp , ,, ),(   , де xNNGrams , – множина послідовностей слів довжиною N у реченні x. 4. Dependencies Similarity – подібність синтаксичних залежностей ),( \|)\|\|,(\|),(max ),( \| \| crr DTd ri dd cj DTDTBPDT crBPjisimilarity crysSimilaritDependecie r ddep ddep          , де DTx – множина усіх наявних синтаксичних залежностей у реченні х; ddepx  – усі лексеми речення x, що зв’язані відношенням d; similarity(x,y) – числовий показник подібності двох лексем x та y, обчислений на основі бази WordNet;        y x e xy yxBP 1 ,1 ),( – Brevity Penalty 5. Dependencies Comparing – порівняння синтаксичних залежностей )( )()( ),( resdependenci cesdependenciresdependenci crgesComparinDependenci   },,\|),,{()( ddepx xjxiDTddjixesdependenci  6. Syntactic N-Grams Comparing − порівняння синтаксичних уніграм, біграм та триграм. Обчислення відбувається так само, як і для звичайних N-грам, але під ISSN 1561-5359. Штучний інтелект, 2016, № 3 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников 131 синтаксичними N-грамами розуміється послідовність лексем, які є зв’язним підграфом синтаксичного дерева підпорядкування речення. Також реалізовано міри семантичної близькості, що були розроблені у моделях машинного перекладу. 7. BLEU [13] 8. BLEU, в якому за N-грам беруться послідовності значущих слів, тобто таких, що: LdocsxIDF ),( , де IDF – Inversed Document Frequency:          docsxdocs docs docsxIDF log),( ; corpus – корпус документів, на якому обчислюється IDF; L – деяке граничне значення, що залежить від особливостей корпусу документів. 9. BLEU, у якому за N-грам беруться послідовності синтаксичних N-грам 10. NIST [14] 11. Meteor [15] 12. Badger [16] Кожна міра M(x,y) має два варіанти реалізації: ),(: yxMprecision , ),(: xyMrecall . В усіх мірах, де використовується порівняння лексем, реалізовано по два варіанти: повне співпадіння лем та співпадіння за синонімами. Частину ознак було отримано із застосуванням принципів семантичної схожості − зв’язності, описаних у [17]. Для навчання класифікаторів нижнього рівня необхідно сформувати навчальні вибірки для кожного з них. Кожен класифікатор має спеціалізуватися на розпізнаванні парафраз певного набору типів. Причому кожен тип парафраз має входити у навчальну вибірку одразу для декількох класифікаторів. Саме цим гарантується надійне покриття всіх типів парафрази та взаємна підстраховка класифікаторів при розв’язанні задачі. Постає питання про те, що таке тип парафрази, як його можна промоделювати та визначити тип парафрази для кожної конкретної пари речень. За робочу гіпотезу було прийняте припущення, що дві пари речень входять до множини парафраз одного типу, якщо існує певна значна підмножина ознак, що мають подібні значення при обчисленні на цих двох парах речень. На першому етапі навчання алгоритму обчислюється матриця train значень ознак fi для кожної пари речень з навчального корпусу Microsoft Research Paraphrase Corpus (MSRP). На другому етапі матриця train, з використанням алгоритмів кластеризації розбивається на множину матриць:  1train ,  2train ,…,  ntrain та  1train ,  2train ,…,  mtrain таких, що:  n i itraintrain 1   ,  m i itraintrain 1   , traintraintrain   , де train та train – множини усіх векторів значень ознак для пар речень, помічених як парафрази та непарафрази відповідно. Для того, щоб класифікатори, навчені на вибірках, сформованих на основі цих матриць, могли «підстраховувати» один одного при прийнятті рішення по кожному окремому випадку, кожна вибірка має складатися із пар різного типу парафрази/непарафрази, тобто щоб вибірки інтенсивно перетиналися. Для цього, для train та train має виконуватись наступна умова (для },{ s ): ISSN 1561-5359. Штучний інтелект, 2016, № 3 132 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников  s j s i traintrainji : Третій етап. На основі отриманих на другому етапі матриць формуються навчальні вибірки шляхом формування k NCn ' комбінаторних сполучень по множині матриць{  itrain } та доповнення кожної комбінації повним набором із train . Усі відповідні пари речень, чиї вектори значень ознак увійшли до деякої комбінації, формують навчальну вибірку для деякого класифікатора першого рівня  iclf . Таким чином, отримаємо навчальні вибірки для k NCn ' класифікаторів  iclf . Аналогічно формуються навчальні вибірки для k MCm ' класифікаторів  iclf . Четвертий етап. На основі отриманих вибірок відбувається навчання множини класифікаторів 1clf , 2clf , …, mnclf  . Після навчання класифікатори разом обробляють весь навчальний корпус train. Матриця розв’язків класифікаторів 1clf , 2clf , …, mnclf  для всіх пар речень корпусу train разом з розміткою пар служить навчальною вибіркою для суперкласифікатора верхнього рівня. На п’ятому етапі відбувається навчання класифікатора верхнього рівня. Для побудови класифікаторів верхнього та нижнього рівня використовується метод опорних векторів. Алгоритм побудови системи класифікаторів Крок 1. Автоматичне розбиття train на класи за типами парафрази Пари-парафрази одного типу мають корелювати за значеннями ознак, що обчислюються на них. Тобто, значення повинні бути близькими. Деякі ознаки можуть бути неактуальними для парафраз даного типу, тому необхідно визначити множину С таких типових підмножин парафраз {с}, всередині яких будь-які два елементи мають схожі набори значень для деякого встановленого набору ознак. Формально, мають виконуватися наступні умови.     trainc Cc     Cc c l yxcyxCc   :, , де С − множина отриманих типових підмножин; F − множина реалізованих ознак;   )()(:&: yfxfXflXFXCx i l для заданих l і  . Для вирішення поставленної задачі на множині train векторів значень ознак пар речень, помічених як парафрази, обчислюються N центроїдів:  NCCC ,...,, 21 − найбільш віддалених один від одного елементів з train . Для центроїдів мають виконуватися наступні умови:   trainCCC N,...,, 21 ,    jiNji ji CCdist &.1, max),( , де dist − евклідова відстань між двома елементами. Після вибору центроїдів кожен елемент з вибірки train додається до одного або декількох кластерів, що визначаються центроїдами  NCCC ,...,, 21 : елемент х потрапляє в кластер  ic , який визначається центроїдом  iC , якщо виконується умова:  i l Cx . Таким чином будуються N кластерів:  Nccc ,...,, 21 . Для елементів, що не потрапили в жодний клас, рекурсивно виконується Крок 1, але зі зміненими параметрами N, l и  . У результаті будується 'N кластерів, кожен з ISSN 1561-5359. Штучний інтелект, 2016, № 3 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников 133 яких складається з набору пар речень-парафраз з навчальної вибірки, які в об'єднанні дають вибірку train , а також мають не порожній перетин. Інтенсивність перетинів визначається початковими параметрами N, l і  . Крок 2. З  '21 ,...,, Nccc формуються k NCn ' усіх можливих комбінацій об’єднань k кластерів, до кожної з яких додається також весь набір train . У результаті відбору відповідних пар речень з корпусу train отримано навчальні набори  1T ,  2T , …,  nT . Крок 3. З використанням стандартних методів з бібліотеки sklearn.feature_selection [18] під кожну навчальну вибірку  1T ,  2T , …,  nT для методу SVM формується свій власний оптимальний набір ознак },..,,{ 21 kfff з початкової множини реалізованих ознак F. Крок 4. Класифікатори нижнього рівня  1clf ,  2clf ,…,  nclf навчаються на  1T ,  2T , …,  nT , використовуючи відповідні оптимальні набори ознак. Крок 5. Аналогічним чином генеруються класифікатори  1clf ,  2clf ,…,  mclf . Разом з  1clf ,  2clf ,…,  nclf вони являють собою класифікатори нижнього рівня: 1clf , 2clf , …, mnclf  . Крок 6. Після навчання класифікатори разом обробляють весь навчальний корпус train. Матриця розв’язків класифікаторів 1clf , 2clf …, mnclf  для всіх пар речень корпусу train разом з розміткою пар служить навчальною вибіркою для суперкласифікатора верхнього рівня. Виконується навчання класифікатора верхнього рівня. Крок 7. Разом вся навчена система обробляє тестовий корпус пар речень. Результати експериментів Навчання і тестування проводилося на вибірці Microsoft Research Paraphrase Corpus [19]. Корпус складається з 5800 пар речень із різних джерел із зазначенням, чи є пара парафразом, і розділений на навчальну вибірку, що складається з 4076 пар речень (2753 позитивних: 67,5%) і тестову, що складається з 1725 пар речень (1147 позитивних: 66,5%). На сьогодні кращі результати на даній вибірці показали методи [20] з таблиці 2. Таблиця 2. Paraphrase Identification. State of the art Algorithm Reference Description Supervision Accuracy F MTMETRICS Madnani et al. (2012) combination of eight machine translation metrics supervised 77.4% 84.1% Multi- Perspective CNN He et al. (2015) Multi-perspective Convolutional NNs and structured similarity layer supervised 78.6% 84.7% SAMS-RecNN Cheng and Kartsaklis (2015) Recursive NNs using syntax-aware multi- sense word embeddings supervised 78.6% 85.3% TF-KLD Ji and Eisenstein (2013) Matrix factorization with supervised reweighting supervised 80.4% 85.9% ISSN 1561-5359. Штучний інтелект, 2016, № 3 134 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников Для оцінки якості класифікації використані стандартні метрики: recallprecission recallprecision F    2 1 , fnfptntp tntp accuracy    , fptp tp precission   , fntp tp recall   , де tp – кількість коректно визначених парафразів; tn – кількість коректно визначених непарафразів; fp – кількість неправильно визначених парафраз; fn – кількість неправильно визначених непарафраз. Для експериментів використовуються бібліотеки scikit-learn (http://scikit-learn.org/stable/). Таблиця 3. Результати експерименту № експерименту Класифікатор P re ci si o n R ec a ll F 1 К -с т ь ц е н т р о ід ів Ч и сл о о зн а к Е п с іл о н Ч и сл о k з л и т и х к л а ст ер ів 1 5 7 1.3e-3 3 0.7502 0.9503 0.8384 2 5 8 1.3e-3 2 0.7676 0.9564 0.8516 Як видно з таблиці 3, запропонований метод показав результати, співставні з найкращими існуючими на сьогодні алгоритмами, не використовуючи при цьому таких складних та потужних підходів, як нейронні мережі, латентний семантичний аналіз та невід’ємну факторизацію матриць. Якщо вважати розроблений метод певним продовженням та розвитком алгоритму [12], то по оцінках точності даний метод помітно переважає попередника. Подяка Автори статті дуже вдячні компанії P1K, і зокрема команді проекту Unplug, за підтримку в дослідженнях та допомогу в розробці даного методу визначення парафрази, в його тестуванні та впровадженні в продукти компанії. Висновки У роботі описано новий ефективний алгоритм ідентифікації парафрази, розроблений з використанням машинного навчання. Експерименти показали оцінки точності визначення парафразу, співставні з кращими існуючими в світі системами. Література 1. Dolan B., Quirk C., Brockett C. Unsupervised construction of large paraphrase corpora: exploiting massively parallel news sources. In Proceedingsofthe20thInternationalConferenceon Computational Linguistics, 2004. 2. Potthast M., Stein B., Barron-Cedeno A., Rosso P. An Evaluation Framework for Plagiarism Detection. In Proceedings of COLING, pp. 997–1005, 2010. 3. Wan S., Dras M., Dale R., Paris C. Using Dependency-based Features to Take the ”Para-farce” out of Paraphrase. In Australasian Language Technology Workshop, pp. 131–138, 2006. 4. Madnani N., Tetreault J., Chodorow M. Re-examining machine translation metrics for paraphrase identification. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 182–190, 2012. 5. Fellbaum C. WordNet: An Electronic Lexical Database. MIT Press, 1998. http://scikit-learn.org/stable/ ISSN 1561-5359. Штучний інтелект, 2016, № 3 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников 135 6. Das D., Smith N.A. Paraphrase identification as probabilistic quasi-synchronous recognition. In Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguisticsand the 4th International Joint Conference on Natural Language Processing of the AFNLP, pp. 468–476, 2009. 7. Hassan S. Measuring Semantic Relatedness Using Salient Encyclopedic Concepts. Ph.D. thesis, University of North Texas, Denton, Texas, USA, 2011. 8. Guo W., Diab M. Modeling sentences in the latent space. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp. 864–872, 2012. 9. He, Hua, Gimpel K., Lin J. Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks, Proceedings of EMNLP 2015, Lisbon, Portugal, pp. 1576-1586. 10. Cheng J., Kartsaklis D. Syntax-Aware Multi-Sense Word Embeddings for Deep Compositional Models of Meaning, Proceedings of EMNLP 2015, Lisbon, Portugal, pp. 1531-1542. 11. Ji Y., Eisenstein J. Discriminative Improvements to Distributional Sentence Similarity, Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2013), Seattle, Washington, USA, pp. 891—896. 12. Madnani N., Tetreault J., Chodorow M. Re-examining Machine Translation Metrics for Paraphrase Identification, Proceedings of 2012 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2012), pp. 182-190. 13. Papineni K., Roukos S., Ward T., Zhu W.J. BLEU: A Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL, 2002. 14. Doddington G. Automatic Evaluation of Machine Translation Quality using N-gram Co-occurrence Statistics. In Proceedings of HLT, pp. 138–145, 2002. 15. Denkowski M., Lavie M. Extending the METEOR Machine Translation Metric to the Phrase Level. In Proceedings of NAACL, 2010. 16. Parker S. BADGER: A New Machine Translation Metric. In Proceedings of the Workshop on Metrics for Machine Translation at AMTA, 2008. 17. Никоненко А.О. Дослідження статистичної схожості-зв’язності // Вісник КНУ імені Тараса Шевченка, серія фізико-математичні науки. — 2016. — № 1 — C. 131—136. 18. [Електронний ресурс]. – Режим доступу: http://scikit-learn.org/stable/modules/feature_selection.html 19. [Електронний ресурс]. – Режим доступу: https://www.microsoft.com/en-us/download/details.aspx?id=52398 20. [Електронний ресурс]. – Режим доступу: https://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_(State_of_the_art)) Literatura 1. Dolan B., Quirk C., Brockett C. Unsupervised construction of large paraphrase corpora: exploiting massively parallel news sources. In Proceedingsofthe20thInternationalConferenceon Computational Linguistics, 2004. 2. Potthast M., Stein B., Barron-Cedeno A., Rosso P. An Evaluation Framework for Plagiarism Detection. In Proceedings of COLING, pp. 997–1005, 2010. 3. Wan S., Dras M., Dale R., Paris C. Using Dependency-based Features to Take the ”Para-farce” out of Paraphrase. In Australasian Language Technology Workshop, pp. 131–138, 2006. 4. Madnani N., Tetreault J., Chodorow M. Re-examining machine translation metrics for paraphrase identification. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 182–190, 2012. 5. Fellbaum C. WordNet: An Electronic Lexical Database. MIT Press, 1998. 6. Das D., Smith N.A. Paraphrase identification as probabilistic quasi-synchronous recognition. In Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguisticsand the 4th International Joint Conference on Natural Language Processing of the AFNLP, pp. 468–476, 2009. 7. Hassan S. Measuring Semantic Relatedness Using Salient Encyclopedic Concepts. Ph.D. thesis, University of North Texas, Denton, Texas, USA, 2011. 8. Guo W., Diab M. Modeling sentences in the latent space. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp. 864–872, 2012. 9. He, Hua, Gimpel K., Lin J. Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks, Proceedings of EMNLP 2015, Lisbon, Portugal, pp. 1576-1586. 10. Cheng J., Kartsaklis D. Syntax-Aware Multi-Sense Word Embeddings for Deep Compositional Models of Meaning, Proceedings of EMNLP 2015, Lisbon, Portugal, pp. 1531-1542. 11. Ji Y., Eisenstein J. Discriminative Improvements to Distributional Sentence Similarity, Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2013), Seattle, Washington, USA, pp. 891—896. 12. Madnani N., Tetreault J., Chodorow M. Re-examining Machine Translation Metrics for Paraphrase Identification, Proceedings of 2012 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2012), pp. 182-190. http://scikit-learn.org/stable/modules/feature_selection.html https://www.microsoft.com/en-us/download/details.aspx?id=52398 https://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_(State_of_the_art)) ISSN 1561-5359. Штучний інтелект, 2016, № 3 136 © О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников 13. Papineni K., Roukos S., Ward T., Zhu W.J. BLEU: A Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL, 2002. 14. Doddington G. Automatic Evaluation of Machine Translation Quality using N-gram Co-occurrence Statistics. In Proceedings of HLT, pp. 138–145, 2002. 15. Denkowski M., Lavie M. Extending the METEOR Machine Translation Metric to the Phrase Level. In Proceedings of NAACL, 2010. 16. Parker S. BADGER: A New Machine Translation Metric. In Proceedings of the Workshop on Metrics for Machine Translation at AMTA, 2008. 17. Nykonenko A.O. Doslidzhennya statystychnoyi skhozhosti-zv"yaznosti // Visnyk KNU imeni Tarasa Shevchenka, seriya fizyko-matematychni nauky. — 2016. — # 1 — C. 131—136. 18. [Elektronnyy resurs]. – Rezhym dostupu: http://scikit-learn.org/stable/modules/feature_selection.html 19. [Elektronnyy resurs]. – Rezhym dostupu: https://www.microsoft.com/en-us/download/details.aspx?id=52398 20. [Elektronnyy resurs]. – Rezhym dostupu: https://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_(State_of_the_art)) RESUME O.O. Marchenko, A.O. Nikonenko, T.V. Rossada, E.A. Melnikov About one machine learning method for paraphrase identification A new effective algorithm for paraphrase identification has been developed with using machine-learning approach. Architecture of the system has a form of multilayer classifier where sub-classifiers of the lower level make decisions about presence or absence of paraphrase in sentences according to their strategies and super-classifier of upper level finds the final solution. In the first phase each lower level classifier is trained to detect certain types of paraphrase / non-paraphrase cases on the special prepared training set. For this purpose the training set is modified for each individual lower level classifier by removing unnecessary training pairs of sentences that represent a "noise" for this classifier, because these pairs, for example, are not included in the target types of paraphrase for this sub-classifier, while being a paraphrase, so these pairs must be included to other sub-classifier training set. After lower- level classifiers learning, the phase of super-classifier training follows. The trained lower- level classifiers process the whole training set. The lower-level classifiers assesses of the whole training set sentences pairs have been used by super classifier as a training set. The system has been developed and tested on standard Microsoft Research Paraphrase Corpus (MSRP). Experiments demonstrated precision of paraphrase detection comparable with the best state-of-the-art systems. Надійшла до редакції 14.09.2016 http://scikit-learn.org/stable/modules/feature_selection.html https://www.microsoft.com/en-us/download/details.aspx?id=52398 https://www.aclweb.org/aclwiki/index.php?title=Paraphrase_Identification_(State_of_the_art))

Метод машинного навчання для ідентифікації парафрази

Репозитарії

Схожі ресурси