МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
КРЕМЕНЧУЦЬКИЙ ДЕРЖАВНИЙ ПОЛІТЕХНІЧНИЙ УНІВЕРСИТЕТ
ІМЕНІ МИХАЙЛА ОСТРОГРАДСЬКОГО
Кафедра перекладу
ДИПЛОМНА РОБОТА
З ТЕМИ:
„Проблеми адекватності машинного перекладу”
За напрямом 0305 «Філологія»
Виконавець роботи:
Студент V курсу
Групи МП – 08 – 1(1) сп.
Факультету управління
Лук’янов Іван Олегович
Науковий керівник:
доц. каф. перекладу
к.ф.н. Абрамова Ю.В.
Кременчук 2009
ЗМІСТ
Стор.
ВСТУП 4
1. РОЛЬ МАШИННОГО ПЕРЕКЛАДУ В СУЧАСНОМУ СВІТІ 8
1.1. Причини та історія виникнення машинного перекладу 8
1.2. Принципи класифiкацiї систем машинного перекладу 12
1.3. Підходи до реалізації перекладу СМП 14
1.4. Існуючі системи машинного перекладу 24
1.4.1. Системи автоматизованого перекладу 24
1.4.2. Системи автоматичного перекладу 30
2. ФУНКЦІОНАЛЬНО-ПРАГМАТИЧНА АДЕКВАТНІСТЬ МАШИННОГО ПЕРЕКЛАДУ 35
2.1. Проблема еквівалентності та адекватності перекладу 35
2.2. Типологія помилок 39
2.3. Помилки перекладу на рівнях мови 44
2.4. Рівень “розумiння” тексту 54
2.5. Перспективи розвитку машинного перекладу 61
ВИСНОВКИ 66
РЕЗЮМЕ 70
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 73
ДОДАТКИ 80
ВСТУП
Характерними тенденціями розвитку сучасного суспільства є посилення процесів глобалізації та інформатизації, що призводять до збільшення й спрощення інтернаціональних зв’язків і контактів. Розширення глобальної мережі Інтернет надає всі умови для інтернаціонального спілкування – від традиційного листування до голосової та відеокомунікації. Єдиною перешкодою на цьому шляху залишається мовний бар’єр, подолання якого за допомогою традиційного перекладу не розв’язує проблеми повністю, оскільки обсяг перекладів у світі постійно зростає, і навіть збільшення кількості перекладачів не в змозі повністю задовольнити потреби в перекладах. Тотальна комп’ютеризація всього світу та гонитва за новими потужностями серед розробників, удосконалення й вихід нових версій програмних продуктів, спроби зробити програмне забезпечення максимально сумісним із низкою інших приладів та програм, інші ноу-хау індустрії та технічного прогресу майже щодня виводять на ринок нові вироби, які мають бути описані й перекладені якомога більшою кількістю мов для донесення до кінцевого користувача і збільшення обсягів продажу.
Однією з можливостей подолання мовного бар’єру у спілкуванні є застосування систем машинного перекладу (СМП) як засобу підвищення продуктивності перекладацької праці. Але машинні перекладачі можуть бути лише підмогою в роботі фахівців різних профілів, і не можуть замінити людей-перекладачів. У першу чергу це пов'язано з тим, що в більшості випадків машинний перекладач не може зробити повністю адекватний переклад з однієї мови на іншу, й машинний переклад тексту дуже сильно поступається перекладу людиною, потребуючи подальшої доробки. Дана робота має на меті вивчення зазначених проблем, а також аналіз деяких лінгвістичних програмних продуктів, спрямованих на автоматизацію процесу перекладу.
Наше дослідження спирається на праці з машинного перекладу (Анисимов В., Блехман М.С., Войнов В.К., Марчук Ю.Н., Шаляпина З.М.) та роботи з теорії перекладу (Комиссаров В.Н., Корунец И.В., Швейцер А.Д.).
Тема нашего дослідження є «Проблеми адекватності машинного перекладу». Дану тему можна вважати актуальною, оскільки у теперішній час машинні перекладачі стають все більш доступні широким верствам населення багатьох країн, у зв'язку з чим людям все частіше доводиться стикатися з проблемою якості машинного перекладу. Особливої актуальності ця тема набуває, якщо врахувати той факт, що саме в цей час Україна все більше інтегрується в міжнародне співтовариство і, поряд з економічними та політичними бар'єрами, цьому перешкоджають мовні бар'єри. Разом з тим, професійних перекладачів, які здатні й бажають здійснювати подібний процес комунікації спільнот у всіх сферах науки і культури, не так багато, наслідком чого є той факт, що їх послуги не з дешевих. Тому саме зараз особливо актуальним є пошук шляхів надання максимальної допомоги перекладачам. І, якщо не повністю підмінити людину-перекладача програмами-перекладачами, то хоча б максимально автоматизувати процес перекладу, що здійснюється людиною, щоб, з одного боку, максимально полегшити нелегку працю людини-перекладача, а з іншого - зробити цю працю максимально ефективною. Здійснити подібне можна, лише максимально інтегруючи зусилля спеціалістів в галузі кібернетики, програмування, психології та лінгвістики, і відшукавши причину проблеми адекватності перекладу програмами-перекладачами. Це наблизить вирішення даної проблеми і, можливо, дозволить створити таку систему машинного перекладу, яка б дозволила отримувати адекватний переклад тексту без втручання людей-перекладачів.
Об’єктом дослідження є переклади, виконані за допомогою систем машинного перекладу „Pragma 5” та „Google Translate”, що вивчаються, досліджуються й оцінюються, з урахуванням інформації щодо алгоритмів роботи систем машинного перекладу, їх граматик, словників та внутрішньої побудови.
Предметом дослідження є рівень адекватністі машинного перекладу та можливості її досягнення программами-перекладачами.
Мета даного дослідження полягає у вивчені ступіню адекватністі машинного перекладу та у розгляді механізмів, за допомогою яких системи машинного перекладу здійснюють переклад, а також в узагальненні проблем, з якими стикаються системи машинного перекладу для досягнення функціонально-прагматичної адекватністі.
Мета дослідження передбачає необхідність вирішення конкретних завдань:
розглянути причини виникнення, сучасний розвиток систем машинного перекладу (СМП) та узагальнити їх типологію у відповідності до певних критеріїв;
виявити підходи до реалізації перекладу у СМП;
з’ясувати проблеми досягнення адекватністі машинного перкладу;
виявити та описати особливості перекладу текстів програмами-перекладачами на основі аналізу зроблених ними перекладів тексту.
Матеріалом дослідження стали зразки текстів різної тематики та жанру, при цьому для практичного аналізу було обрано газетну статтю загальним обсягом 17087 знаків та варіанти її перекладу на українську мову, зроблені професіональним перекладачем та системами машинного перекладу Google Translate та Pragma 5.
Методи аналізу обумовлені завданнями, що поставлені в роботі. Аналітично-описовий метод дав змогу вивчити об’єкт дослідження, виявити його структурно-семантичні особливості. За допомогою кількісних підрахунків встановлено співвідношення ступенів адекватністі та зроблених помилок перекладу на різних рівнях мови. Для аналізу перекладів залучався комплексний порівняльно-перекладознавчий метод, елементи трансформаційного і контекстуального методів.
Наукова новизна дослідження визначається поставленими в ній цілями та задачами та полягає в комплексному вивченні та описі механізмів машинного перекладу, причому вперше особлива увага звертається на рівень розуміння тексту комп’ютером. Також дається альтернативна класифікація інформаційних систем згідно рівня іх розуміння тексту, та визначається рівень розуміння сучасних систем машинного перекладу.
Теоретичне значення результатів дослідження полягає в тому, що вони є внеском у формування та вдосконалення понятійного апарату теорії машинного перекладу. Визначено поняття «розуміння» тексту інформаційними системами, а також дана класифікація інформаційних систем згідно рівня іх розуміння тексту. Також виявлено ступень залежності адекватністі перекладу від рівня «розуміння» тексту інформаційною сістемою.
Практична цінність одержаних результатів полягає у тому, що вони можуть використовуватися для покращення якості машинного перекладу з англійської мови українською мовою; у виявленні „слабких місць” СМП, що протестовані в цій роботі, та визначенні шляхів їх усунення й удосконалення СМП розробниками. Результати роботи можуть бути корисними для викладання курсів зі вступу до перекладознавства, теорії та практики перекладу, спеціальних курсів із машинного перекладу, інформаційних технологій у перекладацькій діяльності та для підготовки відповідних підручників і посібників, а також для потенційних користувачів систем машинного перекладу, які планують їх придбати й на основі цього дослідження можуть зробити висновки щодо приблизних очікуваних результатів.
1. РОЛЬ МАШИННОГО ПЕРЕКЛАДУ В СУЧАСНОМУ СВІТІ
1.1. Причини та історія виникнення машинного перекладу
Переклад наукової, технічної, ділової, правової документації з однієї мови на іншу є невід’ємною частиною науково-технічного прогресу. Рiчнi обсяги перекладів, що виконуються у промислово розвинених країнах, досягають астрономічних цифр i продовжують постійно зростати. Наприклад, сучасне розширення Євросоюзу зумовить зростання кількості офіційних мов союзу до 23. У Європейській комісії підрахували, що обсяги перекладів тільки в її структурах у 2008 році склала 2 млн. 150 тисяч, а відповідні витрати - 305 млн. євро лише для комісії, а для всього ЄС – 697 млн. Нині в штаті Генерального директорату Єврокомісії з перекладу - найбільшій на планеті перекладацької структури - 1750 мовників і 600 допоміжних працівників, плюс перекладачі, що працюють за наймом. Згідно з розрахунками спеціалістів, к 2012 року ці цифри збільшаться приблизно на 50% [66].
Більш того, в епоху міжнародних контактів, що поширюються, завданням особливої важливості стає переклад рiзноманiтної технічної та комерційної документації на мови країн-iмпортерiв продукції. Це завдання ускладнюється як специфікою перекладу на iноземнi мови, так i жорсткими вимогами до якості такого перекладу, що має в цих випадках міжнародне значення.
Дж. Слокум, керівник проекту по обробці природно-мовної iнформацiї в рамках програми штучного інтелекту, що виконувалась в корпорації з мiкроелектронiки та обчислювальної техніки (США) [52], стверджує, що науковий робітник того часу фізично був неспроможний переглядати величезну кiлькiсть наукових i технічних документів, чимала частина яких надходила до нього на іноземних мовах. При цьому уважний аналіз усіх іншомовних документів виявляється малоефективним, тому що далеко не кожний такий документ має реальний інтерес для вченого, інженера. Дж. Слокум підкреслює, що англійська мова поступово втрачає своє значення мови міжнародного спілкування: все частіше для опису наукових i технічних досягнень використовуються iншi мови. Таким чином, володіння англійською фахiвцевi уже недостатньо для читання необхідного обсягу документації за спецiальністю.
Щодо розповсюдження iнформацiї, то, як вважає Дж.Слокум, експортер продукції зобов’язаний, як правило, додавати до неї технічну документацію на мові країни, в яку здійснюється постачання. При цьому переклад великого обсягу документації має бути виконаний на дуже високому рiвнi - термiнологiчному i стилістичному.
Будучи фактично двомовною країною, що в якійсь мiрi зближає її з такими державами, як Канада, Люксембург, Швейцарiя, Україна мусить вирішити як мiнiмум 2 комплекси проблем у галузі перекладу iнформацiї: переклад з мов міжнародного спілкування на українську та російську мови, а також з української та російської - на мови міжнародного спілкування; росiйсько - український i українсько - російський переклад.
Актуальність i складність цих проблем важко переоцінити. Так, одним із завдань державної важливості є переклад державного патентного фонду України, що складає мільйони документів, на українську мову, для чого, в першу чергу, потрібно створити українські термiнологiчнi стандарти та 2-мовнi словники, а також істотно прискорити процес перекладу, інакше українська мова не зможе виконувати функцiї державної на свiтовому iнформацiйному ринку, а це, в свою чергу, ізолює країну від світового співтовариства.
Щодо другої групи проблем, варто назвати хоча б одну ціль перекладу з російської мови на українську величезного масиву навчальної та методичної літератури, враховуючи недостачу такої на українському ринку.
Як бачимо, в iнформацiйнiй практиці сформувалася очевидна проблема перекладу науково-технічної, комерційної, ділової iнформацiї.
Вiдповiддю на соціальний запит подолання мовного бар’єру стало утворення в промислово розвинених країнах iндустрiї машинного перекладу (далі - МП) - галузі комп’ютерної лiнгвiстики, що формувалася з початку 70-х років (хоча перші кроки в цьому напрямі були зроблені в середині 50-х років у США i СРСР).
Машинний переклад (Machine Translation, MT) – це технологія перекладу текстів комп’ютерною програмою з однієї мови на іншу [62].
Iндустрiя МП характеризується такими ознаками:
- постійно зростаючою кількістю користувачів i виробників систем МП (далі - СМП), широким залученням МП до реальних iнформацiйних процесів;
- рiзноманiтнiстю пiдходiв до побудови СМП i, вiдповiдно, опрацюванням великого числа оригінальних пакетів прикладних програм для МП;
- використанням для реалiзацiї СМП передової обчислювальної техніки, в тому числі персональних комп’ютерів.
Оцінюючи актуальність автоматизації перекладу, Дж. Слокум пише, що фахівця, який бажає бути в курсі подій у науковій, технiчнiй області, цілком задовольняє недорога СМП, яка здійснює швидкий, хоча й недосконалий переклад великих обсягів iнформацiї. В найгіршому випадку, тобто при одержанні від машини перекладу недостатньо високої якості, фахівець може вирішити, чи потрібний йому більш точний інтелектуальний переклад. Що ж стосується перекладу iнформацiї на iноземнi мови, то Дж. Слокум вважає, що вигiднiше користуватися системами машинного перекладу, якi допускають інтелектуальне постредагування, ніж робити повністю “ручний” переклад.
Вперше про розширення звичних можливостей перекладу задумався англійський винахідник Чарльз Беббідж, що запропонував наприкінці 1830-х рр. проект першого в історії комп'ютера. Суть роботи машини полягала у використанні потенціалу машинної пам'яті для зберігання словників. Однак втілити у життя свою ідею Беббіджу так і не вдалося.
Через сто років, у 1947 р., директор відділення природничих наук Рокфеллеровского фонду Уоррен Уівер розробив меморандум, в якому визначив завдання текстового перекладу з одних мов на інші як ще одну область застосування техніки дешифрування. Слідом за цим пішло обговорення ідеї автоматизованого перекладу і теоретична розробка перших технологій. Висловлювалися припущення про повну заміну людини - перекладача електронними системами, і багато професійних перекладачів побоювалися у найближчому майбутньому залишитися без роботи.
У 1954 р. відбувся «Джорджтаунський експеримент»: публіці був представлений перший електронний перекладач – російсько - англійска система IBM Mark II, яка містила словник з 250 одиниць і 6 граматичних правил.
Протягом наступних 10 років технології машинного перекладу (далі - МП) продовжували стрімко розвиватися, але незабаром стало ясно, що машина не зможе перекладати тексти так само бездоганно, як і людина. У 1967 р. члени Комісії Національної академії наук США виступили з доповіддю, в якій йшлося про нерентабельність машинної праці, виходячи з реальної ситуації в США і показників вартості різних способів перекладу. За підсумками виступу було прийнято рішення припинити подальше фінансування досліджень в області автоматизованого перекладу, щоб загальмувати розвиток МП на довгі роки. Тим не менше, незважаючи на офіційну відмову від розробки перекладацьких технологій, перші системи перекладу продовжували користуватися популярністю у військових та наукових установах СРСР і США.
Новий етап розвитку технологій машинного перекладу пов'язаний з появою обчислювальної техніки в кінці 70-х - початку 80-х рр.. ХХ ст. Програмісти відмовилися від ідеї створення «ідеальної» машини-перекладача: нові системи розроблялися з метою багаторазового збільшення швидкості перекладу інформації, але з обов'язковою участю людини для досягнення ідеальної якості. Черговий виток досліджень в 90-х роках минулого століття пов'язаний з колосальним прогресом сучасних персональних комп'ютерів і появою Інтернету. Можливість перекладу в режимі онлайн дозволів би подолати мовний бар'єр і здійснювати навігацію по іноземним сайтам, але процес подолання мовного бар'єру за допомогою онлайн перекладачів продовжується і зараз. З допомогою систем з технологією Machine Translation можна миттєво отримати чорновий варіант перекладу, коли необхідно швидко вловити загальний зміст тексту. [56]
В теперішній час вже розроблено дуже багато СМП, яки класифікуються за різними принципами. Для того, щоб розглядати системи МП з точки зору здатністі адекватно перекладати, треба спочатку розділити їх за принципами їх побудови, виділити ті, що показали найкращі результати, та відокремити системи, що мають ціллю досягнення адекватністі від тих, що розроблені без розрахування на те, щоб система перекладала адекватно. Для цього розглянемо принципи класифікації СМП.
1.2. Принципи класифiкацiї систем машинного перекладу
В основі iнженерно-лiнгвiстичного підходу до проблематики машинного перекладу має лежати лiнгвiстична класифiкацiя систем МП. Перш ніж запропонувати типологію систем, визначимо можливі рiзноманiтнi підвалини такої класифiкацiї. Це пояснюється багатоаспектнiстю самої проблематики.
Із літератури нам вiдомi такі принципи класифiкацiї.
а) Щодо участі ЕОМ у процесі перекладу, обсягу роботи, яку вона “бере на себе”, системи МП поділяються на автоматизовані та автоматичні. Першим в англiйськiй мові вiдповiдає термін MAT (machine-aided translation), тобто переклад, який виконується за допомогою машини, а другим - MT (machine translation), тобто машинний переклад.
В автоматизованих системах МП людина є обов’язковим учасником процесу перекладу. На частку машини в них приходиться виконання тільки рутинних операцій - пошук слів i словосполучень в автоматичному словнику та виведення їхнього перекладу на екран з можливою наступною вставкою у вихідний текст [47, 294].
Навпаки, в автоматичних системах машина здійснює аналіз вхідного тексту та синтез вихідного, і переклад, хоча й має неминучі лексичні, граматичні, стилiстичнi помилки, в цілому є зрозумілим користувачеві й може бути використаний у вигляді iнформацiйного документу, котрий в деякій мiрi може замінити оригінал. У той же час, такі системи, як правило, мають засоби редагування машинного продукту, що особливо важливо при перекладі текстів, котрі мають статут документів у прямому значенні цього слова, наприклад, технічної документації, котра поставляється за кордон разом з устаткуванням, що експортується [25].
б) Ще однією характеристикою системи МП є кiлькiсть мов, що їх “розуміє” система. Вiдповiдно до даного критерію будемо розрізняти двомовні та багатомовні системи. Перші здійснюють переклад для однієї мовної пари. Якщо ж система охоплює більше однієї мовної пари, вона є багатомовною.
У розвиток цього пункту доцільно ввести також такий пiдроздiл систем МП, як оборотність (англійський термін - “two-way systems”) i необоротність (“1-way systems”). Системи першого типу перекладають текст тільки “в один бік”, а системи другого типу - “в обидві сторони” [62].
в) Важливою характеристикою систем МП є також тип документів, на переклад яких орієнтована система. Зокрема, існують системи, якi працюють тільки з заголовками документів (наприклад, патентів); iншi - здебільшого з технічними специфiкацiями, тощо. Існують також унiверсальнi системи, якi можуть на однаковому рiвнi ефективності перекладати тексти рiзноманiтних типів (try-anything systems - термін Вероніки Лоусон) [50].
Промислові системи МП розрізняються в залежності від тематичних галузей. Визначимо при цьому, що в сучасних системах МП програмне забезпечення залежить тільки від структури лiнгвiстичного забезпечення, але не вiд конкретного наповнення автоматичного словника, i треба розрізняти саме словники систем, а також практичну можливість їхнього поширення.
г) У залежності від підходу, на основі якого виконується машинний переклад, СМП поділяються на: статистичні (statistic) та традиційні - системи, які ґрунтуються на використанні лінгвістичних правил (rule-based).
д) Суто лiнгвiстичний принцип класифiкацiї [51, 50-51], згідно з яким СМП базуються на використанні лінгвістичних правил, і поділяються на:
- системи, що реалiзують прямий переклад (direct translation);
- системи, якi базуються на трансферi (transfer approach);
- системи з мовою-посередником (interlingua approach).
Оскільки два останніх критерії класифiкацiї представляють особливий інтерес для нас у даній роботі, розглянемо їх детальніше.
|