ДИПЛОМНА РОБОТА


Скачати 1.15 Mb.
Назва ДИПЛОМНА РОБОТА
Сторінка 3/12
Дата 14.03.2013
Розмір 1.15 Mb.
Тип Диплом
bibl.com.ua > Література > Диплом
1   2   3   4   5   6   7   8   9   ...   12

1.4. Існуючі системи машинного перекладу

Подальше заглиблення в проблематику машинного перекладу неможливе без огляду існуючих систем МП. Не зробивши такого огляду, ми залишимось на рiвнi “чистої” теорії, не пiдкрiпленої фактами. Цей огляд не претендує на вичерпну повноту, тому що кiлькiсть діючих систем є досить великою. Поставимо перед собою інше завдання: з’ясувати основні ідеї, що лежать в основі існуючих систем.
1.4.1. Системи автоматизованого перекладу

Почнемо огляд із систем автоматизованого перекладу, або, як їх ще називають, автоматизованих робочих місць (далі - АРМ) перекладача.

Початок опрацюванню АРМ перекладача покладено системами ALPS i Weidner [14, 46-48]. Розробники цих систем вважають, що машина в принципі не може забезпечити переклад високої якості, тому ЕОМ має допомагати перекладачеві, а не замінювати його.

Сімейство Automatic Language Processing Systems

Розробники сiмейства ALPS (США, Канада) вважають, що істотним недоліком бiльшостi систем машинного перекладу є те, що вони розраховані на заміну перекладача машиною. В зв’язку з тим, що машинний продукт, одержаний засобом “роботи в нічну зміну”, всеодно потребує стилістичного редагування, фiрма ALPS запропонувала у вигляді альтернативи системам МП автоматизоване робоче місце перекладача, що дозволяє підвищити продуктивність праці в чотири рази. До переваг таких систем, у першу чергу, відносяться якiснi показники перекладу та простота лiнгвiстичного забезпечення, яка спрощує, зокрема, тиражування системи. Робота в режимі діалогу з ЕОМ для перекладача потребує менше зусиль й більш цікава, ніж постредагування машинної “заготовки”.

Сімейство ALPS надає різним установам можливість придбати одну з систем з апаратурним, лiнгвiстичним i програмним забезпеченням різного рівня складності чи замовити переклад. Фірма тиражує системи трьох рiвней:

Selective Dictionary Lookup - система, що по слову, зазначеному користувачем, забезпечує миттєвий доступ до словникової iнформацiї.

Automatic Dictionary Lookup (ADL) - система, що послівно надає перекладачеві перекладні еквіваленти з автоматичного словника i має блок морфологічного аналізу для ототожнення рiзноманiтних словоформ одного слова. Так, при появі у вхідному тексті словоформ write, wrote, written система ADL запропонує перекладачеві словникову iнформацiю по слову write. Перекладні еквіваленти, що пропонуються системою, автоматично вводяться в текст. Проте синтаксичне i морфологічне оформлення кожного речення i всього тексту на вихiднiй мові в цілому залишається за перекладачем. Система ADL передбачає переклад з англійської, французької, німецької, іспанської та iталiйської мов на ці та iншi мови латинського алфавіту.

Computer Translation System (CTS) - система, що перекладає текст по реченнях, використовуючи як словникову iнформацiю, так i правила узгодження, порядку слів тощо. Перекладач у діалоговому режимi редагує текст, одержаний від системи, уточнюючи вибір перекладних еквiвалентiв, а також стиль вихідного речення; CTS розпізнає в тексті складні конструкції та багатозначні слова й надає людині рiзноманiтнi можливості їх перекладу, а саме:

а) при перекладі багатозначних слів на екрані висвітлюється контекст цього слова; в словнику допускаються коментарі, що полегшує вибір перекладеного еквівалента. Якщо перекладача не задовольняє жоден із варiантiв, наданих йому машиною, він може тут же внести зміну в словник чи дати інший переклад слова, без корегування словникової статті;

б) при перекладі складних чи неоднозначних синтаксичних конструкцій система виявляє неоднозначний вислів i звертається за допомогою до перекладача, який набирає на клавiатурi правильний переклад i вводить його в машину. Після цього машина продовжує роботу над текстом до наступного “складного місця”. Беззаперечною перевагою CTS є формування системою поточного словника, в якому запам’ятовуються тi переклади термiнiв, котрим перекладач віддає перевагу в даному сеансі, i виправлені помилки; система керується цією iнформацiєю до закінчення перекладу даного документу.

Системи сімейства Weidner

Системи Weidner були одними з перших АРМ перекладачів на світовому ринку. Ці системи [14, 49] також орiєнтованi на переклад «машина-людина» різного ступеня автоматизації, який бiльш продуктивний, ніж ручний, i, з точки зору розробників систем, на вiдмiну вiд машинного, забезпечує більш високу якість вихідного продукту.

Розроблені й функціонують в промисловому режимі три конфiгурацiї систем Weidner.

Перша, найбільш проста, складається з текстового процесора i модему для телефонного зв’язку з головною ЕОМ. У цій конфiгурацiї використовуються персональні комп’ютери фірми IBM i програмне забезпечення теледоступу. Вхідний документ вводиться з клавіатури i передається в центральний процесор для перекладу. Залежно від вимог користувача, перекладацька фірма, в якій установлений центральний процесор, надає або грубий (машинний), або частково опрацьований людиною, або закінчений переклад вхідного тексту. Дана конфiгурацiя є найбільш рентабельною для органiзацiй, в яких обсяг текстів, що перекладаються, складає до 250 тис. слів на рік. Її використання доцільно також для попереднього іспиту можливостей системи, що дозволить прийняти обґрунтоване рішення про використання в цій органiзацiї більш складних її конфiгурацiй.

Друга конфiгурацiя системи Weidner представляє собою самостійну систему автоматизованого перекладу, яка працює на персональному комп’ютері IBM. Текст вводиться або з диску, або вручну з клавіатури. “Грубий” машинний переклад з’являється на екрані поряд із вхідним текстом. Перекладач використовує запропонований переклад як заготовку, з якої він формує остаточний варіант, користуючись системними засобами додання, вилучення, перестановки та заміни слів i виразів.

Система поставляється з автоматичним словником, що покриває 95% загальновживаної лексики. Користувач може доповнити словник спеціальною термiнологiєю. Обсяг словника складає понад 40 тис. слів i словосполучень.

Третя, найбільш потужна конфiгурацiя системи Weidner працює на мiнi-ЕОМ VAX серiї Digital PDP/11, пов’язаних з будь-якою кiлькiстю персональних комп’ютерів IBM, якi виконують функції інтелектуальних термiналiв. Процес перекладу аналогічний роботі другої конфiгурацiї, але при цьому швидкість зростає в три рази. Передбачено підключення рiзноманiтних периферійних приладів - фотонабору, введення тощо. Персональні комп’ютери можуть самостійно використовуватися для процедур редагування, звільняючи на цей час центральний процесор. Переклад на базі мiнi-ЕОМ розрахований на обробку великого обсягу iнформацiї, до десятків мiльйонiв слів на рік. Ця конфiгурація є особливо ефективною при роботі у великих перекладацьких установах.

Серед мов, з яких i на якi можливий переклад, розробники зазначають англійську, французьку, іспанську, німецьку, португальську, арабську та ін.

Розробники систем Weidner бачать три напрямки розвитку своїх систем:
- постійне вдосконалення програмного i лiнгвiстичного забезпечення, поширення словників, ускладнення апарату синтаксичного аналізу;

- збільшення кiлькостi мовних пар;

- підключення системи перекладу до банків даних i автоматизованих систем управління.

Як бачимо, утворення перших АРМ, що стали уже класичними, було для їх розробників не тільки самоціллю, але й основою побудови систем з більшою автоматизацією перекладу, ніж тільки пошук слів у словнику.

У той же час, на світовому ринку пропонуються й такі АРМ, що не мають блоку автоматичної обробки речення, що перекладається. Однією з таких систем є реалізована на персональних комп’ютерах IBM РС система Termex [53, 37]. Система розроблена фірмою Linguatech International (США) i орієнтована на основні європейські мови, крім слов’янських. На вiдмiну від систем МП, система типу “АРМ перекладач” тільки допомагає людині, що виконує переклад i звертається до машини за перекладом окремих слів i словосполучень.

Система Termex працює в одновіконному режимі i дозволяє перекладачеві друкувати текст перекладу, одержуючи його відображення на екрані. Якщо користувач хоче знайти в машинному словнику переклад якогось словосполучення, то він натискає клавiшi Alt-L. У нижній частині екрану з’являється вікно, в яке перекладач надруковує незнайоме словосполучення чи перші літери. У вiдповiдь система виводить на екран, у те ж вікно, всю словникову iнформацiю про дане словосполучення: його переклади; контексти, в яких воно може зустрічатися; синоніми. Вибравши найбільш прийнятний переклад, користувач друкує його номер, i перекладене словосполучення автоматично вставляється у вихідний текст. Словникова стаття у словниках Termex містить поле фіксованої довжини (50 символів) для вхідного слова або словосполучення, а також поле перекладу змінної довжини. Довжина словникової статті - до 900 символів. Швидкість пошуку слова (словосполучення) - 1-3 секунди.

Для системи Termex пропонується широкий набір електронних словників по таких тематичних областях, як економіка, аеронавтика, механіка, електротехніка, обробка даних, міжнародна торгівля, юриспруденція, а також словників загальновживаних слів. Мови словників: англійська, французька, німецька, голландська, іспанська, iталiйська. Пропонуються 2-, 3- i 4-мовнi словники. [68]

Iншi АРМ перекладачі Фірми Trados Gmbh, Штутгарт, Німеччина, пропонують комплекс Translator’s Workbench [44], який складається з трьох модулів:

- 14-мовної термiнологiчної бази даних Multiterm;

- програми аналізу текстів, яка дозволяє знайти в тексті i перекласти всі слова, що є в базі даних;

- АРМ перекладача TED, який забезпечує користувачеві роботу в одно- або двовiконному режимах. Крім того, TED може працювати резидентно з текстовими редакторами.

Англійська фірма Microtac Software поставила на ринок АРМ French Assistant для перекладу з англійської мови на французьку [81; 54].

Працюючи в умонтованому текстовому редакторі цієї системи, користувач може надрукувати в створюваному їм французькому тексті англійське слово, французький переклад якого йому невідомий, одержати переклад i автоматично вставити його в текст замість вхідного англійського. Аналогічно можна перекладати з французької мови на англійську.

Особливістю French Assistant є наявність підказок про граматичні форми французьких дiєслiв, що дозволяє користувачеві не тільки знаходити французькі переклади англійських слів, але й будувати складні тексти, вибираючи правильні форми цих дiєслiв.

АРМ перекладача Lingvo 3.0 [60] представлений на ринку СНД фірмою “БИТ” (Москва). Система електронних словників Lingvo містить сотні тисяч лексичних одиниць у багатьох англiйсько - росiйських i росiйсько - англійських словниках, дозволяє користувачеві перекладати тексти з екрану i клавіатури, не припиняючи основної роботи комп’ютера, створювати свої словники, вставляти переклад у текст, що редагується. Забезпечується пошук слів на частковий збіг. Можна сказати, що ця система є прикладом програмного підходу до побудови лiнгвiстичних систем.

АРМ перекладача RDT (Resident Dictionary Tool) фірми “Медiком” дозволяє працювати зі зворотними словниками, орієнтованими на такі мовні пари, в яких одна мова - західноєвропейська, а друга - російська або українська. RDT підтримує велику кiлькiсть оборотних 2-мовних словників загальновживаної та термiнологiчної лексики англійської, німецької, іспанської, російської, української мов, у тому числі англiйсько-українськi словники. RDT працює у двох режимах - автономному та резидентному. У першому користувач може переглянути i поповнити словник, у другому - працювати з будь-яким текстовим редактором, що пiдтримуює текстові файли в ASCII форматі, проводити пошук i вставляти переклад безпосередньо в текст. Система забезпечує 8 видів пошуку слів i словосполучень, у тому числі на повний i частковий збіг, входження слова в словосполучення, сумісне входження двох слів у словосполучення тощо. У RDT передбачені поля граматичної iнформацiї та транскрипції.

Отже, з вище наведеної інформації можна зробити логічний висновок про те, що системи автоматизованого перекладу можуть стати альтернативою СМП у тому випадку, якщо система МП генерує переклад такої низької якості, що його не можливо зрозуміти користувачеві.
1.4.2. Системи автоматичного перекладу

У галузі автоматичного перекладу обнадiйливi результати одержано при опрацюванні систем прямого перекладу, тобто систем, основаних на використанні великих словників i порівняно простих алгоритмів морфологiчно-синтаксичного аналізу тексту-оригіналу i синтезу текста-перекладу.

Але прямий переклад не є єдиним засобом комерційного МП, тобто перекладу, до якого звертається велика кількість людей. Іншою концепцією є ідея трансферу - впровадження в систему блоку перетворення структури вхідного тексту у вiдповiдностi з правилами мови. Таким чином, схема прямого перекладу “Аналiз-Синтез” ускладнюється i перетворюється в схему “Аналiз-Трансфер-Синтез”. Ця схема реалізована, зокрема, в одній з найвiдомих систем - METAL (США, Німеччина) [51, 43].

Важливо визначити, що деякі системи широко використовують не тільки граматичну, але й семантичну iнформацiю.

Наприклад, система ATLAS-1 [49, 22], що призначена для перекладу технічної документації - звiтiв про НДР i ДКР, супровідну документацію.

В деяких випадках для аналізу синтаксичної структури i усунення лексичної багатозначності використовуються семантичні ознаки.

Нарешті, подальший розвиток систем машинного перекладу привів дослiдникiв до побудови систем з мовою-посередником, головна ідея яких - аналіз змісту тексту та його подання на спецiальнiй мовi, яка не залежить від будь-якої природної мови. Фірма “Траду” [46, 20] розробила систему Ultra. Автор розробки - група під керівництвом Йорика Уiлкса. Система складається з модулів англійської, іспанської, німецької, японської та китайської мов. Словник кожного з цих модулів містить 10 тис. значень з простого ділового листування. Iдеологiя систем МП з мовою-посередником знайшла широке застосування в Японії.

Більш докладно зупинимося на системах, здатних перекладати тексти з англійської на українську мову. На сьогоднішній день найбільш відомі 2 такі СМП: Google Translate Beta компанії Google і СМП Pragma 5.x компанії Trident Software. У зв'язку з тим, що онлайн перекладачі не тільки доступні, але також використовують найсучасніші словники і технології перекладів, ми будемо використовувати для дослідження онлайн версії даних СМП, що знаходяться відповідно на сайтах http://translate.google.com і http://www.trident.com.ua/ukr/online.php.

Trident Software - невелика компанія розробників програмного забезпечення з великими амбіціями й інтересами, зосередженими в наукоємній галузі машинного перекладу. Компанія була заснована в 1998 році і за цей час розробила декілька видів продуктів, серед яких - Pragma.

Компанія досягла якнайкращих результатів в перекладі для української і латиської мов, а також достатньо хорошої якості для інших напрямів перекладу. У даний час продукт Pragma 5.x включає шість мов - англійську, німецьку, латиську, російську, українську і польську.

Користувачами програмного забезпечення компанії Trident Software є Верховна Рада України, Секретаріат Президента України, Кабінет Міністрів, Національний банк і більшість інших урядових установ в Україні, великі індустріальні та фінансові компанії, всі загальноосвітні школи України, а також малий бізнес та приватні особи як в Україні, так і по всьому світу.

Ядро перекладу Pragma базується на СМП SYSTRAN 5, яка збудована на принципі трансфер-підходу. Вона була розроблена на замовлення військово-повітряних сил США. Протягом 1974-1975 років вона була використана аерокосмічною асоціацією NASA для перекладу документів у міжнародному проекті стиковки космічних кораблів Аполлон-Союз. Було розгорнуто ряд військових програм створення інтерфейсів «людина-машина» природною мовою. У 1983 році міністерство оборони США започаткувало “стратегічну комп'ютерну ініціативу” – десятилітню програму створення нового покоління "інтелектуальних" військових систем [1, 37].

Всі комбінації напрямів перекладу взаємозамінні, окрім англо-російської пари. Ця пара - головний міст між романо-германською і слов'янською групами. Так, україно-англійський переклад виконується частково безпосередньо, але в більшій мірі по російсько-англійському напряму.

Головна проблема перекладу - багатозначність слів - вирішена двома способами. Перш за все - спеціальне маркування слів по тематичній спрямованості (близько сотні тематик). По-друге - об'єднання слів у фрази, які мають вищий пріоритет під час перекладу [86].

Google Translate — це сервіс компанії Google, що дозволяє автоматично перекладати слова, фрази та web-сторінки з однієї мови на іншу. Google використовує власне програмне забезпечення для перекладу. Використовується підхід статистичного машинного перекладу, у якому максимальна довжина контексту є 5 слів, а фрази - 6.

У більшості сучасних комерційних систем машинного перекладу використовується підхід на основі правил. У цьому випадку від лінгвістів потрібні великі зусилля по створенню словників та визначення використовуваних правил граматики. Система Google працює трохи інакше. Вона аналізує великі обсяги тексту (мільярди слів) на різних мовах, а також оригінали та переклади, зроблені професійними лінгвістами. Потім за допомогою спеціальних методик формується модель для перекладу тексту з однієї мови на іншу.

З вересня 2008 року підтримується й переклад на українську мову. Для покращення якості перекладу необхідні корпуси паралельних текстів чи колекції пам'яті перекладів [85].

Щодо ефективністі систем МП, то І. В. Корунець у своїй роботі стверджує, що досі не існує таких машинних перекладачів, результат перекладу яких не потребував би в постредагування людиною [23, 26-27].

Не дивлячись на поширену думку вирішальної ролі граматики у створенні кращої СМП [5, 12-17; 32, 6-8], а також на те, що більшість існуючих систем базуються саме на підході використання граматичних правил, багато хто стверджують, що СМП може ґрунтуватися на інших принципах. Наприклад, автори роботи «Автоматичний переклад на інформаційній мові» доводить, що відсутність граматики у пропонованій ними системі «викликає лише п'яту частину інформаційного шуму», і відкидання синтагматичних відносин «цілком узгоджується з характером інформаційно-пошукової мови, яка є спрощенням природної мови »[33, 18, 26], а творці СМП Google Translate стверджують, що статистичний підхід багатообіцяючий, ніж інші, і, судячи за відгуками [63; 55; 59] , надає цілком конкурентоспроможну якість перекладу своїй СМП на доказ цього.

Зроблений огляд висвітлив, що необхiдно виявити, наскільки основні існуючі СМП дієві у створенні адекватного перекладу текстів, який підхід на даний момент більш ефективний, і в якого підходу більш широкі можливості до майбутнього розвитку. Для цього необхідно розглянути, які рівні мови і наскільки комп'ютер здатний розуміти.
1   2   3   4   5   6   7   8   9   ...   12

Схожі:

ДИПЛОМНА РОБОТА ТЕМА: ХУЛІГАНСТВО
Вступ
ДИПЛОМНА РОБОТА На тему: «День вчителя,вечеря на 40 осіб»
Характеристика бенкету
ДИПЛОМНА РОБОТА СПЕЦІАЛІСТА на тему: СПЕЦИФІКА МІЖНАРОДНОГО МАРКЕТИНГУ...

Дипломна робота
РОЗДІЛ ЗАРОДЖЕННЯ І СТАНОВЛЕННЯ СОЦІАЛЬНОГО СЛУЖІННЯ ЯК ОСОБЛИВОЇ ФОРМИ СУСПІЛЬНОЇ ДІЯЛЬНОСТІ
ДО ЗАХИСТУ
Дипломна робота містить сторінки, 27 таблиць, 18 рисунків, список використаних джерел із найменувань, додатків
ДИПЛОМНА РОБОТА
Професійна підготовка учнів старших класів засобами інноваційних технологій на уроках трудового навчання 1
ДИПЛОМНА РОБОТА
Органи прокуратури їх значення і роль у здійсненні контрольно-наглядових функцій державних органів влади в Україні
Дипломна робота з психології
Поняття адаптації, дезадаптації. Проблема соціальної адаптації молодших школярів
Дипломна робота на здобуття освітньо-кваліфікаційного рівня “спеціаліст”
Техніко – криміналістичне дослідження підроблених документів на право водіння, володіння і користування автотранспортом”
ДИПЛОМНА РОБОТА НА ТЕМУ: “ АНАЛІЗ КРИМІНОГЕННОЇ СИТУАЦІЇ В УКРАЇНІ
Фактори, що визначали стан, структуру та динаміку злочинності в 2001 р виглядають наступним чином
Додайте кнопку на своєму сайті:
Портал навчання


При копіюванні матеріалу обов'язкове зазначення активного посилання © 2013
звернутися до адміністрації
bibl.com.ua
Головна сторінка