АВТОМАТИЗОВАНИЙ ТЕКСТОЛОГІЧНИЙ АНАЛІЗ: ВИКОРИСТАННЯ ДЕТЕКТОРІВ ІНТЕРНЕТ-ПЛАГІАТУ В АКАДЕМІЧНОМУ СЕКТОРІ - Дослідження з питань впровадження ДО - Каталог статей

Автоматизований текстологічний аналіз: використання детекторів Інтернет-плагіату в академічному секторі

Воронкін О. С.

Луганська державна академія культури і мистецтв

Воронкін О. С. Автоматизований текстологічний аналіз: використання детекторів Інтернет-плагіату в академічному секторі / О. С. Воронкін // FOSS Lviv 2013 : збірник наукових праць третьої міжнародної науково-практичної конференції (18-21 квітня 2013 р., м. Львів). – Львів, 2013. – С. 38-40.

Плагіат, згідно Закону України „Про авторське право і суміжні права”, визначається як оприлюднення (опублікування), повністю або частково, чужого твору під іменем особи, яка не є автором цього твору [1]. Мова йде про привласнення авторства на чужий мистецький, науковий або інший твір чи роботу (на чуже відкриття, винахід чи раціоналізаторську пропозицію) або використання у своїх працях чужого твору без посилання на джерело запозичення та автора. За умови зазначення імені автора й джерела, допускається використання цитат (коротких уривків) з опублікованих творів в обсязі, виправданому поставленою метою. Зазначимо, що збіг думок та ідей також не може вважатися плагіатом.

Останнім часом запозичення текстових частин одержало широке поширення в академічному секторі. Цю тенденцію деякі вчені вже назвали „складовою частиною” сучасної науки [2, 3]. Окремі дослідники пропонують класифікувати плагіат на випадковий і добре продуманий – плагіат у замаскованому вигляді (наприклад, цілеспрямована заміна слів синонімами, заміна букв у слові англомовними (подібними за написанням), переформулювання речень – зміна порядку слів в них тощо).

До основних форм запозичення матеріалів відносять [4]: 1) повне або часткове копіювання тексту з одного джерела (при мінімальному редагуванні); 2) копіювання та компонування тексту з декількох джерел; 3) компонування власного та запозиченого матеріалу без належного цитування джерел; 4) переклад іншомовних матеріалів без посилань на першоджерела.

Більш розгорнуту класифікацію пропонують автори одного з найбільших англомовних ресурсів для виявлення плагіату TurnItIn [5]: 1) видання виконаної іншим автором роботи за свою без внесення в неї жодних змін (зустрічається у двох формах: використання матеріалу із опублікованого видання та використання послуг різноманітних фірм, які на замовлення пишуть роботи за будь-якими темами); 2) копіювання великої частини чужої роботи в свою без внесення в запозичене жодних змін; 3) копіювання інформації з кількох різних джерел без внесення в неї правок, але із самостійним написанням перехідних речень між скопійованими частинами; 4) внесення незначних правок у скопійований матеріал; 5) повне запозичення текстів з інших джерел, але цілковите їх перефразування; 6) видання власної опублікованої раніше роботи за нову.

У зв’язку з цим набуло актуальності питання використання систем автоматизованого текстологічного аналізу – детекторів плагіату. При цьому можна умовно виділити 2 підходи:

1) статистичний – використовується для виявлення співпадаючих фрагментів електронних текстів. Підхід не дозволяє автоматично з’ясувати чи є запозичений текст плагіатом (тобто використанням тексту якого-небудь джерела, не оформленим належним чином). Перефразування чужої роботи, використання синонімів та порушення правил цитування також виявити цим методом досить складно.

2) семантичний – використовується для аналізу змісту та синтаксичної інформації тексту. Цей підхід є найбільш точним, однак разом з тим він найбільш складний та трудомісткий з точки зору практичної реалізації (потребує аналізу омонімії).

Для текстологічного аналізу користувач передає на перевірку документ або вводить досліджуваний текст у спеціальне віконце програми (web-інтерфейсу). Текстові дані перетворюються системою та аналізуються за закладеним алгоритмом. Наприкінці користувач отримує звіт про проведену перевірку із наведенням джерел „запозичення”. Треба розуміти, що автоматизована перевірка дозволяє знайти джерело у своїй базі (або в Інтернет-мережі), але не визначає, чи є воно першоджерелом.

На сьогодні успішно використовується декілька версій програмного забезпечення для перевірки текстів на унікальність. Серед найбільш відомих web-сервісів можна назвати: „Антиплагиат”, „Istio”, „Text”, „SafeAssign”, „Turnitin” та ін. Серед програм: „Advego Plagiatus”, „Praide unique content analyzer”, „Плагиата.НЕТ”, „Еtxt Антиплагиат”, „Double Content Finder” та ін.

„Антиплагиат” (http://www.antiplagiat.ru). Сервіс здійснює on-line пошук по значній кількості колекцій рефератів, контрольних робіт, підтримує доступ до бази даних дисертацій ВАК РФ. Тим не менш сервіс має деякі недоліки [6]. По-перше, система не здійснює пошук по всіх документах, доступних в Інтернет-мережі, це стосується зокрема тематичних сайтів і порталів новин. По-друге, це стосується обмеження обсягу тексту 3000 або 5000 символів (доступно після реєстрації).

„Іstio” (www.istio.com). Сервіс здійснює on-line пошук за допомогою Яндекс.xml і Yahoo.com. За результатами перевірки видається звіт про унікальність тексту разом із списком посилань на запозичений матеріал. Не підтримує власної бази. Сервіс надає додаткові засоби для аналізу текстів.

„Advego Plagiatus” (http://advego.ru/plagiatus). Програма здійснює перевірку із використанням пошукових систем Google, Яндекс, Bing, Yahoo, Nigma. Максимальний обсяг тексту – 200000 символів. За результатами пошуку вказує унікальність тексту, кількість джерел і відсоток запозичених текстових частин із відповідними посиланнями. Є режим глибокої перевірки [6]. Не підтримує власної бази. Web-сервіс Advego Plagiatus (http://advego.ru/text/seo) надає додаткові можливості для аналізу текстів.

„Praide unique content analyzer” (http://www.nado.su/downloads.html). Програма використовує пошукові системи Google, Mail, Яндекс. Є можливість вибору та підключення інших пошукових систем. Перевірка здійснюється пасажами та шинглами, довжину яких можна змінювати. Підтримує ведення локальної бази оригінальних робіт.

„Плагиата.НЕТ” (http://www.mywebs.ru/plagiatanet.html). Здійснює перевірку унікальності тексту й контенту сайтів. Підтримує перевірку декількох сторінок або сайтів одночасно, працює з rtf-, doc-, docx-файлами. Дозволяє користувачу вести базу з оригінальними працями, не опублікованими в Інтернет-мережі.

„Еtxt Антиплагиат” (http://www.etxt.ru/antiplagiat). Програма здійснює перевірку унікальності тексту й контенту сайтів. Підтримує пакетну перевірку файлів.

Незважаючи на велику кількість існуючих програмних рішень, жодне з них не може стати універсальним засобом перевірки на плагіат. При текстологічному аналізі у кожному програмному засобі існують певні обмеження, які обумовлені як кількістю порівнюваних джерел, так і можливостями розпізнавання текстів. У якості додаткового або альтернативного засобу виявлення запозичених фрагментів в Інтернет-мережі можна використовувати безпосередньо пошукові системи. Для пошуку точної фрази слід застосувати мову запитів, для цього досліджувану фразу слід помістити в лапки. Обмеженням при цьому є обсяг цитати, яку зможе опрацювати пошукова система (зокрема, для Google це фраза в 32 слова).

Література

Закон України „Про авторське право і суміжні права” від 23.12.93 р. // ВВР України. – 1994. – № 13. – Редакція станом на 19.11.2012 р.

2. Йосип Б. Плагіат як явище наукового буття / Б. Йосип // Юридичний вісник України. – 2008. – № 26. – С. 12.

3. Вахонєва Т. М. Плагіат як різновид порушення авторських прав за законодавством України [Електронний ресурс] / Т. М. Вахонєва. – Режим доступу : http://www.law-property.in.ua/articles/article-3-of-the-conference/102-vahonyeva-tn-plagiarism-as-a-form-copyright-infringement-by-law-ukraine.html.

Шарапов Р. В. Исследование плагиата в работах студентов [Электронный ресурс] / Р. В. Шарапов, Е. В. Шарапова // Диалог : материалы 18-ой Международной конференции (30 мая – 3 июня 2012 г.). – Режим доступа : http://www.dialog-21.ru/digests/dialog2012/materials/pdf/72.pdf.
Плагіат : вільна енциклопедія Вікіпедія. – Режим доступа : http://uk.wikipedia.org/wiki/Плагіат.
Шарапов Р. В. Анализ подходов к обнаружению заимствованных текстов / Р. В. Шарапов // Успехи современного естествознания. – 2011. – №3. – C. 47–49.