2.4. Рівень “розумiння” тексту
Останні десятиріччя розвитку мовознавства в чималій мiрi характеризуються становленням інженерно - лiнгвiстичної методології дослідження й опису мови. Це пов’язано як із прагненням мовознавців будувати моделі, котрі відтворюють реальні мовні факти, так i з об’єктивною необхiднiстю опрацювання i впровадження у промисловiсть i доведення до кiнцевих користувачiв ефективних систем автоматичної обробки текстової iнформацiї (далі - IС, iнформацiйнi системи) [28, 17].
За М.С.Блехманом рівень “розуміння” (РР) тексту iнформацiйною системою - це така переробка цього тексту, яка забезпечує певну міру користі для користувача, що прагне задовольнити свою iнформацiйну потребу або iнформацiйну потребу іншої людини - кінцевого користувача. Точніше, РР тим вищий, чим більший відсоток існуючої в тексті iнформацiї користувач може одержати від iнформацiйної системи [8, 19].
Практично максимальним був би такий рівень “розуміння “ тексту системою, який вiдповiдав би рівню розуміння його людиною-фахiвцем у даній області знань. При цьому фахiвець-користувач міг би одержати від “фахівця” - IС практично всю iнформацiю, закладену в текст автором, незалежно від ступеня експлiцидностi її вислову. Проте, між рівнем розуміння тексту людиною-фахiвцем i IС будь-якої мислимої мiри потужності існує істотна різниця, котра проявляється в тому, що практично будь-який текст містить, зокрема, таку iнформацiю, яка в принципі не може бути виявлена жодною iнформацiйною системою. Причиною цього нерозуміння є те, що людина розуміє i план вислову, i план змісту тексту, тоді як IС “розуміє” (з тією чи іншою мірою глибини) тільки план вислову, i ніяке лiнгвiстичне забезпечення, яким би потужним воно не було, не може допомогти системі зрозуміти до кінця зміст тексту. В зв’язку з цим М.С.Блехман розцінює як метафоричні вислови типу “розпізнавання змісту тексту iнформацiйною системою”, оскільки зміст як такий в усіх випадках залишається невловимим для ЕОМ, а це, в свою чергу, означає неможливість справжнього розуміння тексту машиною.
Дійсно, для того, щоб машина могла зрозуміти зміст, ми повинні заздалегідь пояснити їй, що це таке, i описати зміст мовних одиниць i механiзмiв. Проте будь-яке завдання змісту при цьому виявляється описовим. З часів Ф. де Сосюра лiнгвiсти, слідом за засновником структуралізму, намагаються описати зміст мовних одиниць через їх місце в системі мови i/або структури тексту, вважаючи, що зміст одиниці - це сума її оточень, деяка комбiнацiя або iєрархiя елементарних семантичних ознак i т.iн. При цьому зміст оточуючих i складових одиниць не задається, так що опис не носить змістовного характеру. Можна, наприклад, сказати, що семантичний множник “каузувати” входить у значення слів “убрати”, “знищити”, “примусити”, але пояснити системі, що таке “каузувати” навряд чи можливо.
Іншими словами, чим глибший (“глибинний”) опис семантики ми задаємо, тим більш очевидним стає хибне коло, до якого зводиться цей процес: для опису змісту одиниці А необхідно аксіоматично задати зміст Б, а при необхiдностi описати зміст Б - аксіоматично задається зміст А. Так, наприклад, значення слова “пори” можна пояснити за допомогою слів “дірочки”, “отвори“ i т.iн., але для пояснення змісту цих останніх, у свою чергу, необхідно залучення змісту слова “пори”. При такому опису змісту навряд чи можна очікувати розуміння машиною змісту виразів “безпористий матеріал”, “усадка деталі” тощо. Зрозуміло, ще складнiшi проблеми потрібно вирішити, описуючи зміст синтаксичних i, тим більше, гiперсинтаксичних відносин. Дійсно, як описати зміст причинно-наслідкових відносин між подіями? Можливо, так: “Якщо наступила подія А, то з iмовiрнiстю, рiвнiй одиниці, настане i подія Б”? Проте таке твердження є по суті аналогічним твердженню, що понеділок є причиною вівторка. У вiдомiй монографії Р.Шенка [70] пропонується вважати, що IС розуміє текст, якщо вона може (а) перефразувати його i (б) “обчислити” всі його пресупозицiї. З нашої точки зору, ці критерії “не працюють” на реальних текстах. Справа в тому, що для обчислення пресупозицiй одного знання мови виявляється зовсім недостатньо, адже людина при обчисленні пресупозицiй використовує такі поняття, що погано формалізуються, як, скажімо, здоровий глузд. Наприклад, для висловлювання “Від Іванова пішла кохана жінка” ми не будуємо пресупозицiї “Жінка Іванова не була розбита паралічем, тобто могла ходити”, “Іванов не тримав жінку в зачиненому примiщеннi” тощо. З іншого боку, ми легко вiдповiмо на питання “Чи добре тепер Іванову?” Взагалі, розуміння тексту людиною передбачає таке тлумачення цього тексту, яке співпадає із задумом автора, інакше адресат “не так зрозуміє текст”, тобто взагалі не зрозуміє його. Ось приклад:
Пообідавши в кав’ярні, я хочу з’ясувати, чи маю віднести посуд до віконця збору брудного посуду, чи можу залишити його на столі. Звертаюсь до господині: ”Пані Надіє, я залишив посуд на столі”. Вона миттєво вiдповiдає: “Не мала жодного сумніву, бо ви ж порядна людина”.
Вони попросту не порозумілися.
Отже, ми приходимо до важливого припущення: надзвичайно складним, якщо взагалі можливим, є створення IС, для функціонування яких машині необхідно виявити реальне розуміння тексту, тобто проникнення в план його змісту. IС такого типу утворюють гіпотетичний клас систем, якi можна назвати класом систем вищого рівня, а розуміння ними тексту - вищим рівнем розуміння. Наведемо приклади таких гіпотетичних систем:
- IС, якi самонавчаються шляхом читання наукових текстів i обчислення того, що є новим у них;
- IС, що перевіряють логіку викладу в наукових текстах;
- IС, котрі вiдповiдають на такі запитання по науковому тексту, котрi вимагають “обчислення” пресупозицiй.
Неможливість побудови реальних систем вищого класу пояснюється, без сумніву, в першу чергу, тим, що таке розуміння тексту не припускає природного для сучасних систем відриву форми від змісту. Іншими словами, користуючись метафорою Льюiса Керролла, можна сказати, що форма без змісту - це посмішка без кота. За вiдсутностi ж цього “кота” будь-яка вдала вiдповiдь системи на питання людини буде по суті випадковою, тобто не обумовленою дійсним розумінням фрагменту дiйсностi, що описується текстом. Розгянемо, для прикладу, речення з “Аліси у Задзеркаллі”: ’It was brillig’. На питання How was it? система вiдповiсть: Brillig, демонструючи таке ж “розуміння” тексту, як відома IС “Еліза” Дж. Вейценбаума [12, 147]. Зрозуміло, що, чим складнішими (в мовному i смисловому планах) будуть питання, котрі контролюють розуміння системою змісту тексту, тим більш явним буде її повна неспроможність зрозуміти текст. Замислимося, наприклад, чи можна вимагати від IС аналізу правильності логіки авторів у нижченаведеному мiркуваннi, якщо не пояснити їй змістовно значення причинно-наслідкового відношення між висловами: „Дослідження показали, що між особливостями синтаксичної структури елементів тексту та інформацією, включеною в них, є певний зв'язок. Тоді для виявлення суттєвих елементів інформації можна використовувати синтаксичну структуру речення.„ [19, 25]. Головною причиною такого “вiдторження” (“отторжение” - термін Р.Г.Пiотровського) мови машиною є, на наш погляд, антропоморфізм мови, її повна зорiєнтованiсть на людину i, як наслідок, незрозумiлiсть автомату, позбавленого “людського чинника”. Дійсно, будь-яка граматична чи функцiонально-граматична категорія, будь-яке синтаксичне відношення, будь-яке семантичне узагальнення “пiдiгнанi” під людину, під її світосприйняття, є зручними для людини, i тільки для людини. Наприклад, ми розрізняємо виділений i невиділений з класу об’єкти, але не розрізняємо “158-й i не 158-й з кінця”. Ми користуємося поняттями суб’єкта, предиката i т.iн., тому що нам так звично i зручно.
Саме звичкою i вигодою, викликаними “структурою” нашого світу й особливостями життя людини в ньому, пояснюються ці та незліченні iншi особливості людської мови. Людина постійно зустрічається з причинно-наслідковими відносинами в навколишньому житті, тому вони знаходять відтворення в мові.
Якби окрема людина не знала, що значить “тому”, вона б не зрозуміла вислів “Я мислю, отже, я існую”. Якби ця людина не знала, що значить “дуже”, вона б не зрозуміла, що значить “Я дуже люблю Баха”.
Щоб зрозуміти, що значить “лавка”, треба володіти людською потребою i можливістю узагальнювати. Справді, чому в один клас об’єктів об’єднуються саме лавки, а не лавки та коні, адже й у тих, i у других є ноги, на них можна сидіти, i т.iн. ?
У кожному мовному знаку, в кожній синтаксичній структурі, вислові, тексті яскраво проявляються такі суто людські, “невловимі” поняття, як “корисність”, “вигода”, “здоровий глузд” тощо. Кажучи “У нього голова, як м’яч”, ми маємо на увазі не наявність шраму (схожого на шнурівку м’яча), а скоріше тільки форму голови. Кажучи “Він пішов до лікаря”, ми скоріше маємо на увазі, що він захворів, а не, скажімо, відправився звести рахунки з приятелем своєї жінки. Приклади ці можна було б продовжувати до нескiнченностi.
Як бачимо, засіб органiзацiї мовних одиниць i відносин у систему диктується “суттю” людини i навколишнього світу. Проте глибина цих понять є недосяжною до кінця навіть самій людині, не кажучи вже про ЕОМ, для якої людини просто не існує, отже не існує й потреби розуміти те, що розуміє людина. Вiдсутнiсть же такої потреби призводить до принципової неможливості зрозуміти текст.
Таким чином, ми стверджуємо неможливість побудови систем вищого класу, обмежуючи можливості ЕОМ “згори”. У той же час, наявність діючих iнформацiйних систем свідчить про те, що машина якимось чином “розуміє” текст.
З iншого боку, i людина часто опрацьовує текст, фактично не розуміючи його. Так, М.С.Блехман стверджує, що можна непогано перекласти текст з однієї мови на іншу, не маючи жодного уявлення про суть явища, що описується в цьому тексті, тобто про план змісту даного тексту [8, 67]. Отже, машина “розуміє” текст, не розуміючи його.
Якi ж рiвнi цього “розуміння”?
Рiвнi “розуміння”
IС - це така система, в якій текст деяким чином опрацьовується з метою задоволення iнформацiйних потреб користувача. Залежно від цих потреб ЕОМ тим чи іншим чином “розуміє” текст, не досягаючи, як ми бачили, максимального рівня розуміння. При цьому, так як IС опрацьовує текст з метою задоволення iнформацiйних потреб користувача, при наведенні будь-якої класифікації слід відштовхуватися від того, яку нову інформацію та в якій її кількості користувач отримує в результаті опрацювання тексту інформаційною системою.
Тобто, по суті, вищий рівень розуміння в даному випадку буде мати ІВ, яка розуміє текст не гірше людини. Прикладом ІС вищого рівня може служити людський мозок.
При цьому, різні ІС можуть потребувати різних рівнів розуміння для досягнення поставленої задачі, ІС може потребувати в різній кількості різного роду інформацію. Тому класифікація, на нашу думку, не повинна прив'язуватись до певних систем, і спиратися на засоби розуміння - дані та алгоритми, за допомогою яких система обробляє текст. Саме засоби розуміння і визначають здатність системи витягати інформацію з тексту.
Отже, нульовий рівень розуміння (РР0) - це, відповідно, рівень, при якому ІС, працюючи з текстом, не може витягти з тексту ніякої іншої інформації, окрім тієї, яка міститься в тексті у вигляді послідовності символів. Для цього рівня не використовується інформація про мову тексту. Прикладом такої системи може бути найпростіша пошукова система, яка сканує текст на наявність певного запитаного користувачем ряду розташованих один за одним символів.
Більш високий рівень розуміння - РР1 - при якому ІС не просто сканує текст, але в змозі розпізнати елементи тексту - абзаци, речення, фрази, слова, морфеми. Засоби розуміння даної системи обмежуються інформацією про структуру тексту. Вилучена інформаційною системою інформація використовується системами для різних цілей. До таких систем відносяться системи автоматичного звукового відтворення тесту, т.зв. „Читалка”, наприклад, програма під назвою „розмовляюча миша”. Для правильної інтонації і розстановки наголосів система не тільки здатна членувати слова на морфеми і склади, але навіть визначати типи пропозицій [61].
Більш високим рівнем розуміння - РР2 - можуть бути ІВ, які здатні вже в деякій мірі розуміти не тільки структуру тексту, але й орієнтуватися в змісті. Звичайно, таким системам потрібна не тільки інформація про структуру мови, а також деякі алгоритми та правила, які визначають розуміння змісту тексту. Подібні системи можуть використовувати отриману інформацію для того, щоб, наприклад, відповісти на прямо поставлені питання по тексту, не відхиливши ні на дюйм від його змісту. Прикладом такої системи є IС „Елiза” Дж. Вейценбаума.
Ідучи ще далі, говорячи про РР3, можна відзначити, що ІС з таким РР повинно вміти розуміти більше, ніж ІС з РР2, а саме, в деякій мірі розуміти суть всього тексту. Засоби даної системи повинні дозволити вийти за рамки розуміння речень тексту, і визначити, про що йде мова в тексті, використовуючи вже більш складні алгоритми та використовуючи інформацію, що міститься в базі даних системи, так, що система може отримати таку інформацію з тексту, яка в тексті не присутня у відкритому вигляді. При цьому ІС може зробити короткий висновок про зміст тексту. Прикладом такої ІС може служити система Google Add Sense, яка сканує сторінки веб-сайту і робить висновок про тематику змісту, після чого система розміщує відповідне рекламне оголошення у відведеному для цього місці.
Якщо уявити ще більш високий рівень розуміння - РР4 - але який не досягає вищого рівня розуміння - то це має бути такий рівень, при якому ІС витягує більше інформації, ніж ІС РР3, але менше, ніж людина. Гіпотетично, це система, яка, на основі отриманої інформації, яка могла б перефразувати текст і будувати до нього пресупозиції. Інформація про існування таких систем поки відсутня.
Відповідно, вищий рівень розуміння - РР5. Системою з РР5 є людський мозок, здатний не тільки перефразувати текст або будувати пресупозиції на основі отриманої інформації, а також отримувати інформацію, глибокого змісту, що міститься в тексті, і враховувати «людський фактор». Наприклад, розуміти, що хотів висловити автор, розуміти сенс метафор, бачити ставлення автора до того чи іншого питання, тощо.
При вищому рівні розуміння система машинного перекладу перекладала б тексти подібно людині, яка могла б адекватно перекладати тексти художнього стилю.
Таким чином, виходячи з цієї класифікації ІС по РР, а також з результатів аналізу, можна зробити висновок про РР СМП Google Translate і Pragma 5.
Так, ми бачили, що Google Translate має засоби розуміння, що дозволяють в деякій мірі розуміти фразовий рівень мови, тоді як Pragma 5 - синтаксичний. У той же час, виходячи з результатів аналізу, більш-менш добре обидві СМП здатні розуміти тільки морфологічний рівень. Таким чином, можна зробити висновок про те, що РР даних СМП дорівнює одиниці.
2.5. Перспективи розвитку машинного перекладу
Незважаючи на те, що з часів створення перших СМП пройшло вже більше півстоліття, при дійсній потребі людства в перекладі величезних обсягів інформації на різні мови, досі не створена СМП, яка могла б адекватно перекладати тексти будь-якої складності. Чи можливо взагалі створення такої СМП? Чи правильно було прийняте рішення в 1967 р. у США відмовитися від розробок в галузі МП через нерентабельність, як їм здавалось тоді?
На думку Дмитра Гензеля [55], співробітника компанії Google, який брав участь у створенні СМП Google Translate, у зв'язку з надзвичайною складністю створення досконалої СМП, якість перекладу СМП прогресивно розвивалася приблизно тільки перші десять-двадцять років після створення першої СМП за рахунок покращення алгоритмів і моделей СМП. Приблизно так само, як програми для гри в шахи, алгоритми для яких були придумані дуже давно, і з тих пір вони мало змінюються, таким чином ці програми ставали сильнішими не за рахунок покращення алгоритмів, а за рахунок збільшення потужності комп'ютерів. Так, у 1997 році Гаррі Каспаров, будучи чемпіоном світу з шахів, програв комп'ютеру Deep Blue, розробленому IBM [64]. Так і якість перекладу поліпшувалася останні 30-40 років в основному за рахунок збільшення швидкості обробки інформації та збільшення обсягів пам'яті, як оперативної, так і для зберігання даних, що дало можливість створювати більш об'ємні словники і швидше виконувати розроблені алгоритми.
Створення нових СМП, що базуються на нових, більш досконалих підходах в даний час ускладнене, а прогрес у цій галузі сповільнений. Це відбувається з багатьох причин, в основному, через надзвичайну складність опису механізмів, які приймають участь у процесі перекладу, а, відповідно, й побудови математичних моделей, необхідних для створення алгоритмів, без яких функціонування програми не можливе. Наприклад, на думку А. Д. Швейцера, розгляд перекладу як цілеспрямованої діяльності навряд чи можливий без проникнення в плани, структуру і реалізацію цієї діяльності, або, іншими словами, в психологію перекладу. Без урахування психологічного компонента неможливе розкриття ролі людського фактора в перекладі, що являється необхідним хоча б тому, що в будь-якому акті перекладу присутній творчий підхід і проявляється в незапрограмованих і непередбачуваних рішеннях. Навряд чи можна було б описати у вигляді вичерпної лінгвістичної формули „алгоритм”, якому підпорядковане будь-яке справді творче рішення перекладача. [42, 44] Крім того, він стверджує, що переклад - це не проста зміна мовного коду, але й адаптація тексту для його сприйняття крізь призму іншої культури [42, 55].
Для того, щоб зрозуміти сутність перекладу, а це необхідно, щоб описати його, потрібно пізнати психологічну основу перекладу. Так, наприклад, С.Н. Сироваткін, вважає, що в самій потаємній глибині переклад - це психологічний процес. Психологічну природу мають три його стадії (розуміння оригінального тексту, „осмислення” від форм вихідної мови та вибір форм мови перекладу) [37, 18].
Адже, як ми визначили, сучасні перекладачі самих останніх версій мають лише РР1. Це робить їх якість перекладу залежним лише від обсягу підключених словників. Але, як Івін А.А. стверджує [16, 183], що ніякий словник не здатний вичерпати всього багатства значень окремих слів і всіх відтінків цих значень. Слово пізнається та засвоюється не на основі сухих і приблизних словникових роз'яснень. Вживання слів у живій та повнокровній мові, в різноманітних зв'язках з іншими словами - ось джерело повноцінного знання як окремих слів, так і мови в цілому.
Вищесказане дає право стверджувати, що багато лінгвістів взагалі сумніваються в можливості створення ідеальної СМП. Хоча, математики, які не стикаються з усією складністю процесу перекладу, як, наприклад, Дмитро Гензель, сповнені оптимізму, і продовжують намагатися створювати все більш складні моделі, що дозволяють створити нові або покращити існуючі СМП. Але чи дійсно рентабельно вкладати кошти й працю в розробку МП?
На сьогоднішній день існує багато компаній по всьому світу, що займаються розробкою СМП, що здійснюють переклад на різні мови світу. В їх число входять: Google, TriadaSoftware, SYSTRAN (США)-www.systransoft.com, Langenscheidt (Німеччина) - www.langenscheidt.de, Transparent Language (США) - www.transparent.com, LANGUAGE ENGINEERING CORPORATION (США) - www.lec.com, Translation Experts (США) - www.tranexp.com, Linguatec (Німеччина) - www.linguatec.net, SDL (Великобританія) - www.sdl.com/en/products/products-index/sdl-trados/, STAR (Швейцарія) - www.star-group.net/star-www/home/all/star-group/eng/star.html, ATRIL (США) - www.atril.com, Alis Technologies (Канада) - www.alis.com. Це лише найвідоміші компанії, але ж існують і багато інших. Прагнення людей, особливо підприємців, створювати нові, більш досконалі, конкурентоспроможні СМП можуть свідчити про те, що витрати виправдовують кошти, і, крім того, є попит на даний товар, а саме - на машинний переклад. Насправді, відгуки про машинні перекладачі [59; 62; 82; 58] свідчать про те, що СМП задовольняють якусь частину потреби користувачів в перекладі іноземних текстів, і це створює потребу в них. Сьогодні адекватність перекладу СМП - це те, чого хотілося б досягти, але також і те, що не є обов'язковим для того, щоб СМП представляла дійсну матеріальну цінність для суспільства.
Якщо це все-таки рентабельно, і на розробку систем МП виділяється чимало коштів, то в якому напрямку має сенс працювати, судячи за станом справ у даний час?
Виходячи з результатів аналізу перекладів програмами-перекладачами Google Translate і Pragma 5, можна стверджувати, що сучасні СМП не в змозі досягти семантико-синтаксичної адекватності і перекладачу для редагування перекладу в обов’язковому порядку треба звертатися до оригінального тексту. Первісна проблема досягнення семантико-синтаксичної адекватності машинного перекладу полягає в нездатності людства на даному етапі розвитку створити ІС з вищим рівнем розуміння. В першу чергу це обумовлено тим, що ще ніхто не зміг пояснити механізмів обробки та структуру зберігання інформації в людському мозку. Адже РР ІС залежить, як ми визначили, саме від даних і алгоритмів, які використовуються системою. Думають лише те, що мозок здатний зберігати таку кількість інформації, яка не може вмістити ні один пристрій зберігання інформації, створений людиною.
Хоча, все ще є можливість поліпшення якості перекладу. На наш погляд, воно полягає в підвищенні рівня розуміння СМП. Наприклад, при РР2, СМП могла б використати отриману інформацію для покращення якості перекладу за рахунок застосування отриманої з усього тексту інформації, що має знизити кількість помилок на рівнях від лексико-семантичного до синтаксичного. Наприклад, це допомогло б правильно перекладати займенники. При підвищенні РР до 3, СМП могла б автоматично вибирати потрібні для перекладу словники, що забезпечило б правильність перекладу спеціальних термінів у більшості випадків.
РР4, коли ІС розуміє ще більше, можливо, дозволило б не тільки адекватно перекладати більшість правильно розпізнаних системою речень, але й навіть виправляти деякі помилки, що містяться в тексті.
У наш час машинний переклад залишається засобом, що допомагає розуміти користувачеві лише деяку частину інформації, що міститься в оригіналі тексту. Також ефективно СМП використовуються в якості помічника перекладачеві. Наприклад, доктор філологічних наук А. В. Ачкасов, завідувач лабораторією письмового перекладу вважає, що «автоматичні перекладачі - серйозна допомога в роботі професійних перекладачів і незамінний інструмент для тих, хто, не знаючи мови, хоче швидко отримати загальне уявлення про зміст тексту (документа, листи, описи приладу)» [15]. СМП, здатна перекладати тексти подібно професійному перекладачеві - це поки що ще не втілена в реальність ідея. |