Автоматизований текстологічний аналіз: використання детекторів Інтернет-плагіату в академічному секторі
Воронкін
О. С.
Луганська
державна
академія культури
і мистецтв
Воронкін О. С.
Автоматизований текстологічний аналіз: використання детекторів
Інтернет-плагіату в академічному секторі / О. С. Воронкін // FOSS Lviv
2013 : збірник наукових праць третьої міжнародної
науково-практичної конференції (18-21 квітня 2013 р., м. Львів). –
Львів, 2013. – С. 38-40.
Плагіат,
згідно Закону України „Про авторське
право і суміжні права”, визначається
як оприлюднення (опублікування), повністю
або частково, чужого твору під іменем
особи, яка не є автором цього твору [1].
Мова йде про привласнення авторства на
чужий мистецький, науковий або інший
твір чи роботу (на чуже відкриття, винахід
чи раціоналізаторську пропозицію) або
використання у своїх працях чужого
твору без посилання на джерело запозичення
та автора. За умови
зазначення імені автора й джерела,
допускається використання цитат
(коротких уривків) з опублікованих
творів в обсязі, виправданому поставленою
метою. Зазначимо, що збіг думок та ідей
також не може вважатися плагіатом.
Останнім
часом запозичення текстових частин
одержало широке поширення в академічному
секторі. Цю тенденцію деякі вчені вже
назвали „складовою
частиною”
сучасної
науки [2, 3].
Окремі дослідники пропонують класифікувати
плагіат на випадковий і добре продуманий
– плагіат у замаскованому вигляді
(наприклад, цілеспрямована заміна слів
синонімами, заміна букв у слові
англомовними (подібними за написанням),
переформулювання речень – зміна порядку
слів в них тощо).
До
основних форм запозичення матеріалів
відносять [4]: 1) повне або часткове
копіювання тексту з одного джерела (при
мінімальному редагуванні); 2) копіювання
та компонування тексту з декількох
джерел; 3) компонування власного
та запозиченого матеріалу без належного
цитування джерел; 4) переклад
іншомовних матеріалів без посилань на
першоджерела.
Більш
розгорнуту класифікацію пропонують
автори одного з найбільших англомовних
ресурсів для виявлення плагіату TurnItIn
[5]: 1) видання виконаної іншим
автором роботи за свою без внесення в
неї жодних змін (зустрічається у двох
формах: використання матеріалу із
опублікованого видання та використання
послуг різноманітних фірм, які на
замовлення пишуть роботи за будь-якими
темами); 2) копіювання великої частини
чужої роботи в свою без внесення в
запозичене жодних змін; 3) копіювання
інформації з кількох різних джерел без
внесення в неї правок, але із самостійним
написанням перехідних речень між
скопійованими частинами; 4) внесення
незначних правок у скопійований матеріал;
5) повне запозичення текстів з інших
джерел, але цілковите їх перефразування;
6) видання власної опублікованої раніше
роботи за нову.
У
зв’язку з цим набуло актуальності
питання використання систем автоматизованого
текстологічного аналізу – детекторів
плагіату. При цьому можна умовно виділити
2 підходи:
1)
статистичний
– використовується для виявлення
співпадаючих фрагментів електронних
текстів. Підхід не дозволяє автоматично
з’ясувати чи є запозичений текст
плагіатом (тобто використанням тексту
якого-небудь джерела, не оформленим
належним чином).
Перефразування чужої роботи, використання
синонімів та порушення правил цитування
також виявити цим методом досить складно.
2)
семантичний – використовується для
аналізу змісту та синтаксичної інформації
тексту. Цей підхід є найбільш точним,
однак разом з тим він найбільш складний
та трудомісткий з точки зору практичної
реалізації (потребує аналізу омонімії).
Для
текстологічного аналізу
користувач
передає на перевірку документ або
вводить досліджуваний текст у спеціальне
віконце програми (web-інтерфейсу). Текстові
дані перетворюються системою та
аналізуються за закладеним алгоритмом.
Наприкінці користувач отримує звіт про
проведену перевірку із наведенням
джерел „запозичення”. Треба розуміти,
що автоматизована перевірка дозволяє
знайти джерело у своїй базі (або в
Інтернет-мережі), але не визначає, чи є
воно першоджерелом.
На
сьогодні успішно використовується
декілька версій програмного забезпечення
для перевірки текстів на унікальність.
Серед найбільш відомих web-сервісів
можна назвати: „Антиплагиат”,
„Istio”,
„Text”,
„SafeAssign”,
„Turnitin”
та
ін. Серед програм: „Advego
Plagiatus”,
„Praide
unique
content
analyzer”,
„Плагиата.НЕТ”,
„Еtxt
Антиплагиат”, „Double
Content Finder”
та
ін.
„Антиплагиат”
(http://www.antiplagiat.ru).
Сервіс здійснює on-line пошук по значній
кількості колекцій рефератів, контрольних
робіт, підтримує доступ до бази даних
дисертацій ВАК РФ. Тим не менш сервіс
має деякі недоліки [6].
По-перше, система не здійснює пошук по
всіх документах, доступних в Інтернет-мережі,
це стосується зокрема тематичних сайтів
і порталів новин. По-друге, це стосується
обмеження обсягу тексту 3000 або 5000
символів (доступно після реєстрації).
„Іstio”
(www.istio.com). Сервіс
здійснює on-line
пошук за допомогою
Яндекс.xml і
Yahoo.com. За результатами перевірки видається
звіт про унікальність тексту разом із
списком посилань на запозичений матеріал.
Не підтримує власної бази. Сервіс надає
додаткові засоби для аналізу текстів.
„Advego
Plagiatus”
(http://advego.ru/plagiatus).
Програма здійснює
перевірку із використанням пошукових
систем Google, Яндекс, Bing, Yahoo, Nigma. Максимальний
обсяг тексту – 200000 символів.
За
результатами пошуку вказує унікальність
тексту, кількість джерел і відсоток
запозичених текстових частин із
відповідними посиланнями. Є режим
глибокої перевірки [6].
Не підтримує власної бази. Web-сервіс
Advego
Plagiatus
(http://advego.ru/text/seo)
надає додаткові можливості для аналізу
текстів.
„Praide
unique content analyzer”
(http://www.nado.su/downloads.html).
Програма використовує
пошукові системи Google, Mail, Яндекс. Є
можливість вибору та підключення інших
пошукових систем. Перевірка здійснюється
пасажами та шинглами, довжину яких можна
змінювати. Підтримує ведення локальної
бази оригінальних робіт.
„Плагиата.НЕТ”
(http://www.mywebs.ru/plagiatanet.html). Здійснює перевірку
унікальності тексту й контенту сайтів.
Підтримує перевірку декількох сторінок
або сайтів одночасно, працює з rtf-,
doc-, docx-файлами.
Дозволяє користувачу вести базу з
оригінальними працями, не опублікованими
в Інтернет-мережі.
„Еtxt
Антиплагиат” (http://www.etxt.ru/antiplagiat).
Програма здійснює перевірку унікальності
тексту й контенту сайтів. Підтримує
пакетну перевірку файлів.
Незважаючи
на велику кількість існуючих програмних
рішень, жодне з них не може стати
універсальним засобом перевірки на
плагіат. При текстологічному аналізі
у кожному програмному засобі існують
певні обмеження, які обумовлені як
кількістю порівнюваних джерел, так і
можливостями розпізнавання текстів. У
якості додаткового або альтернативного
засобу виявлення запозичених фрагментів
в Інтернет-мережі можна використовувати
безпосередньо пошукові системи. Для
пошуку точної фрази слід застосувати
мову запитів, для цього досліджувану
фразу слід помістити в лапки. Обмеженням
при цьому є обсяг цитати, яку зможе
опрацювати пошукова система (зокрема,
для Google це фраза в 32 слова).
Література
Закон
України „Про авторське право і суміжні
права” від 23.12.93 р. // ВВР України. –
1994. –
№ 13. –
Редакція станом на 19.11.2012 р.
2.
Йосип Б. Плагіат як явище наукового
буття / Б. Йосип // Юридичний вісник
України. – 2008. – № 26. – С. 12.
3.
Вахонєва Т. М. Плагіат як різновид
порушення авторських прав за законодавством
України [Електронний
ресурс]
/
Т. М. Вахонєва. – Режим доступу :
http://www.law-property.in.ua/articles/article-3-of-the-conference/102-vahonyeva-tn-plagiarism-as-a-form-copyright-infringement-by-law-ukraine.html.
Шарапов
Р. В. Исследование плагиата в работах
студентов [Электронный ресурс] / Р. В.
Шарапов, Е. В. Шарапова // Диалог : материалы
18-ой Международной конференции (30 мая
– 3 июня 2012 г.). – Режим доступа :
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/72.pdf.
Плагіат : вільна
енциклопедія Вікіпедія. – Режим доступа
: http://uk.wikipedia.org/wiki/Плагіат.
Шарапов
Р. В. Анализ подходов к обнаружению
заимствованных текстов / Р. В. Шарапов
// Успехи современного естествознания.
– 2011.
–
№3. – C. 47–49.