ВСТУП. ПОСТАНОВКА ЗАДАЧІ


Скачати 326.55 Kb.
НазваВСТУП. ПОСТАНОВКА ЗАДАЧІ
Дата05.04.2013
Розмір326.55 Kb.
ТипДокументи
bibl.com.ua > Інформатика > Документи




УДК 681.391

О.О. Архипова, В.М. Журавльов, В.М. Кумейко

Артикуляційні таблиці слів української мови

В статті розглянуті задачі галузі дослідження якості каналів мовної комунікації. Складено десять артикуляційних таблиць слів української мови.

ВСТУП. ПОСТАНОВКА ЗАДАЧІ


Оцінка акустичних властивостей приміщення, каналів зв’язку та телекомунікаційних апаратів, а також захищеності мовної інформації, пов’язана з проблемою вимірювання і розрахунку розбірливості мови.

Усі відомі на цей час методи оцінки розбірливості мови можуть бути розділені на дві великі групи: суб'єктивні експертні методи і об'єктивні методи [1]. До суб’єктивних відносять такі методи, в яких складовою частиною вимірювальної системи є мовленевий та слуховий апарати людини, а до об’єктивних – методи, в яких весь процес вимірювання здійснюється приладами без участі органів чуття людини.

У наш час налічується кілька десятків об'єктивних методів розрахунку й вимірювання розбірливості мови. Ці методи можна поділити на формантні, теоретико-інформаційні, модуляційні та емпіричні [2]. Впроваджено в практику цілий ряд нових комп’ютерних методів та сучасних апаратно-програмних вимірювальних комплексів. Об'єктивні методи вимірювання розбірливості мови досить перспективні в силу можливості значного прискорення й здешевлення процедури вимірювання. Проте рівень розвитку інструментальних методів поки ще недостатній – досить проблематичним, наприклад, залишаються комплексне врахування факторів, що впливають на розбірливість (шуми, реверберації, луна, нелінійні спотворення тощо), оцінювання розбірливості мови у вокодерних цифрових каналах зв'язку та при наявності мовоподібних завад.

Артикуляційні випробування є суб’єктивним методом оцінки розбірливості – це найбільш прямий й очевидний, а іноді й єдиний, спосіб дослідження якості каналу мовного зв'язку. Суть таких випробувань полягає у тому, що диктори зачитують (відтворюють) спеціально складену таблицю елементів мови (звуків, складів, слів або фраз), аудитори прослуховують її і роблять запис у відповідному аркуші, після чого підраховується число помилок, зроблених останніми. Мірою розбірливості є відношення числа правильно прийнятих по випробовуваному каналу елементів мови до загального числа переданих елементів, виражене у відсотках. Головними перевагами методу артикуляційних випробувань є його універсальність, тобто можливість кількісної оцінки розбірливості для будь-якого типу каналу передачі мовних сигналів. Однак процедура організації суб'єктивних експертиз по оцінці розбірливості мови – справа громіздка, тривала й досить дорога.

На сьогодні в Україні відсутні національні стандарти, що враховують особливості звучання української мови. Замість них використовуються тимчасові документи типу Переліку [3], який дозволяє використовувати стандарти СРСР ГОСТ 16600-72 та ГОСТ 7153-85. Згідно ГОСТ 16600-72 [4] розбірливість мови необхідно вимірювати з використанням російських артикуляційних таблиць звукосполучень та слів. Тип тестових таблиць істотно впливає на результати вимірювань. У зв’язку з відмінністю фонетичного складу мовних одиниць української мови від російської, ми вважаємо недоцільним використання вищевказаних (російських) артикуляційних таблиць для артикуляційних випробувань національних каналів передачі мовної інформації.

Створення національних артикуляційних таблиць та стандартів є серйозною й самостійною науково-дослідною задачею для адекватного використання методу артикуляційних випробувань.

ОСНОВНА ЧАСТИНА


Артикуляційні таблиці складаються за певними правилами [5]. Ці правила враховують лінгвістичні (мовні) вимоги до таблиць. Лінгвістичні вимоги полягають у тому, щоб таблиці достатньою мірою відображали фонетичну структуру мови, співвідношення кількості звуків і букв, дотримували законів сполучення сусідніх звуків. Для забезпечення лінгвістичних вимог до артикуляційних таблиць для української мови необхідним є буквений та, у подальшому, фонемний частотні аналізи.

Частотний аналіз використання букв проведений для ряду європейських мов: французької, німецької, англійської, іспанської, італійської та російської [6]. Нами було проведено аналіз повторюваності букв української мови за допомогою програми написаної на мові програмування C++ та пакету Excel [7]. У ході частотного аналізу оброблено біля 580 тисяч знаків (приблизно 100 тисяч слів) українських текстів технічного, художнього та публіцистичного спрямування. Отримано середні частоти появи букв українського алфавіту, які зображені на рисунку 1 у вигляді порівняльної гістограми з російською мовою.



Рисунок 1
Для української мови ототожнено літери Г і Ґ, у зв’язку з тим, що у багатьох текстах вони не розрізняються, для російської мови ототожнено букви E з Ё та Ь з Ъ.

Статистичний аналіз частот використання букв російської та української мов, вказує на суттєве відхилення у розподілі букв, що свідчить про недоцільність використання результатів артикуляційних випробувань на основі російських артикуляційних таблиць для випадків української мови і обґрунтовує актуальність поставленої задачі.

Враховуючи дані про частотний розподіл букв української мови (Рис.1) складено десять артикуляційних таблиць по 50 слів у кожній (таб.1 – таб.10).
Таблиця 1

літо

п’ятсот

мова

квітка

човник

дідусь

чорниця

зовнішній

відновлення

село

сало

позиція

скарга

пухнастий

пошта

невже

теоретичний

виправляти

змія

травичка

марганцевий

паління

прохолода

ідеї

гарбуз

сумки

усюди

мідь

щур

мазок

обожнює

буфет

дзига

сокира

витвір

гуси

ведмідь

намисто

льон

політика

економ

коноплі

обрії

знать

хащею

весна

жахає

реве

тулуб

пісня


Таблиця 2

загроза

мінус

гілля

вагові

яма

морозиво

обробка

пізніше

прип'ятий

саджанець

тонкоброву

м'ясо

нащадок

витяг

двері

засвоїти

контроль

налаштувати

осика

подужати

прослухаю

системно

узбіччя

оксамит

відхід

документи

снідаю

лагодив

невірно

перев'язь

понівечений

ревнощі

солов'ї

фільтр

белькотіти

вперше

єдиною

ієрархія

тлумачник

тубус

перстень

постійний

вантами

судно

цикл

важливо

анімація

глечик

задній

келих


Таблиця 3

мотузок

об'ява

післямова

прискіпливий

самітнику

торгаш

фундук

вхід

дешевіє

дволикий

зате

дещо

дівочий

корелятор

позаземне

постріл

симетрична

українець

сезонний

відбутися

доля

зібрати

ланцюга

недбальство

дохід

сором

сувої

по-осінньому

бензин

вражаюче

болісний

на

маховик

ніхто

пиріжок

заєць

новатор

суперечливість

чагарник

віщун

вгадував

гніт

Закарпаття

кип'ятильник

муркіт

огорожі

плем'я

вишня

самолюб

антена


Таблиця 4

гусеня

канат

затишно

коров'ячий

ямб

буча

позбутися

проти

сім'ї

меліса

візок

ослінчик

злидні

ледве

юніор

мовний

попекти

цибулина

спадкоємець

почуватись

закон

траса

зусилля

берегтися

всемогутній

жеврію

інтер'єр

циган

нововведення

північ

щось

розм'яклий

схвальний

шуміти

щедро

вакансії

вдова

голодую

ультрафіолет

кіннота

м'ята

однина

плодоніжки

прихід

самотньо

зуб

похмуріти

ховрашка

відверто

держава


Таблиця 5

захоплення

вогонь

напоїти

очманілий

позолотить

прохід

скандал

універсам

особову

якщо

красномовний

воли

листя

всуміш

перекіс

гудок

дія

виспівую

фотокамера

беркут

зацікавленість

жебраку

іржа

меншість

норов

підіб'єш

почути

розплескав

таємниця

через

змарнувала

велич

горище

засвітити

клімат

набутий

одежина

ясенів

домовини

санчата

трьохвимірний

юнаки

ягоди

відгуляв

дехто

збагнути

доцільної

нап'ясти

юдей

покірно


Таблиця 6

псевдонім

скеля

оцет

туман

соболь

німотою

зморшки

лікарі

нейтраль

елегія

пополудні

риф

б'єш

хащі

бідувати

вітаю

жіночка

їжачок

механізм

дуріть

підвестись

солому

розпусно

тверезо

чотириріччя

абетка

мушля

гравець

заляканий

книгарня

нагайка

оздоблює

поверхово

програти

урівноваженість

вовна

від'їздити

дивосвіт

ноти

мамо

насіння

панцир

полагодив

пундик

склянка

свист

туди

якнайвище

безволосий

слухати


Таблиця 7

скрегіт

традиції

одурманює

необачливо

студія

порваний

різьблений

спорий

химеру

хімія

ємність

жовтень

казна-що

мимоволі

дарований

піджак

претензія

гуща

телевізор

чутно

абиякий

вибух

наступник

заміна

колесо

надлом

медицині

олово

продовольчі

святковість

тютюн

ясночолі

знервованість

відлига

доця

слухання

кривобоко

вужі

парадокс

полегкість

пшенична

багатії

успадковувати

безглуздя

вимикаю

фашист

золото

лунати

неперервна

миша


Таблиця 8

переплутаний

щавель

стандартно

хлопчик

буряк

в'юни

журналіст

кам'яних

мікроби

обездолені

завбачливість

привілеї

корозія

терміново

чемно

абрикос

вигадка

грюкнути

замахи

солодкий

надокучливо

опівдні

поводитися

заметіль

секундант

вбогість

шурхіт

волосся

аргументує

дієта

пасажирові

кутові

людоїд

нафта

звичайно

полум'яно

равлик

сліпучий

щеня

бездоганно

експеримент

в'яжуть

шовінізм

переніс

порція

завшир

стежина

совість

гайдамацтво

моціон


Таблиця 9

цибуля

вона

кардіолог

мілітарист

об'їзний

сичі

приватно

розчин

техніка

шийка

автомобіль

виноград

гурт

заплямований

комплекс

наївні

оптимально

вощений

пролягти

середні

угіддя

афішую

балакаю

відпочинок

довголіття

хтось

кулька

напух

маєтки

помістити

роздавати

смерть

борщ

радіорозвідка

воєвода

електрод

зумисне

вовняну

нерішуче

передчуваю

посилення

сіяти

стовбець

звукозахисні

авжеж

несу

заміс

картопля

ціннісний

обмежив


Таблиця 10

підсмажити

прикрощі

ртуть

типовий

бандероль

акустику

високої

давнина

заректися

консерва

найперше

орієнтовний

утюжок

епідемічний

сивина

удаватись

худоба

шкура

дозвілля

згодом

купівля

небажане

цвіт

понаднормове

нестямною

снігуронька

волхв

безриб'я

відстані

щічка

з'ясувати

малятко

віче

переходити

поснідаючи

розігрівши

обоє

цегла

аналізатор

геофізик

загальної

цвях

молот

мусульманство

підтоплення

вівса

рум'яний

тісто

чохол

килим


Представлені в таблицях українські слова не обмежені по кількості букв і складів, належать до різних частин мови та надані у довільних відмінках. Ми вважаємо, що така форма відповідає реальній мові і не дозволяє передбачити закінчення слів, спотворюючи та завищуючи при цьому оцінку розбірливості.

Відносне відхилення від частоти використання букв українського алфавіту для всіх таблиць в середньому складає 4,8 %, що суттєво не впливає на результат артикуляційних випробувань. На даному етапі роботи, застосування цих таблиць дозволяє суттєво підвищити точність оцінювання параметра якості каналів мовного зв’язку.

Для прикладу надамо значення частот появи букв та їх відхилення для другої і шостої таблиць слів (таб.11):
Таблиця 11




Частоти появи букв

середнє

значення

Таблиця 2

відхилення

відхилення /

середнє значення,

%

Таблиця 6

відхилення

відхилення /

середнє значення,

%

а

0,0807

0,0774

0,00330

4,0892

0,0809

-0,00026

0,3255

б

0,0177

0,0172

0,00048

2,7240

0,0173

0,00033

1,8806

в

0,0535

0,0544

-0,00093

1,7368

0,0549

-0,00140

2,6189

г

0,0155

0,0172

-0,00168

10,8130

0,0173

-0,00183

11,7738

д

0,0338

0,0344

-0,00056

1,6449

0,0347

-0,00085

2,5262

е

0,0495

0,0516

-0,00208

4,2127

0,0462

0,00325

6,5633

є

0,0061

0,0057

0,00040

6,5170

0,0058

0,00035

5,7065

ж

0,0093

0,0086

0,00075

8,0321

0,0087

0,00068

7,2347

з

0,0232

0,0229

0,00030

1,3049

0,0231

0,00010

0,4491

и

0,0626

0,0630

-0,00041

0,6491

0,0607

0,00194

3,0929

і

0,0575

0,0602

-0,00267

4,6379

0,0549

0,00259

4,5067

ї

0,0065

0,0057

0,00074

11,4214

0,0058

0,00069

10,6534

й

0,0138

0,0143

-0,00050

3,6477

0,0145

-0,00063

4,5464

к

0,0354

0,0344

0,00100

2,8328

0,0376

-0,00219

6,1772

л

0,0369

0,0401

-0,00323

8,7524

0,0405

-0,00358

9,6953

м

0,0303

0,0287

0,00161

5,3231

0,0289

0,00136

4,5022

н

0,0681

0,0659

0,00220

3,2254

0,0665

0,00163

2,3863

о

0,0942

0,0917

0,00251

2,6682

0,0925

0,00172

1,8243

п

0,0290

0,0287

0,00039

1,3269

0,0289

0,00014

0,4713

р

0,0448

0,0458

-0,00107

2,4007

0,0462

-0,00147

3,2885

с

0,0424

0,0430

-0,00061

1,4324

0,0434

-0,00098

2,3119

т

0,0535

0,0544

-0,00096

1,7879

0,0549

-0,00143

2,6704

у

0,0336

0,0315

0,00204

6,0799

0,0318

0,00177

5,2656

ф

0,0028

0,0029

-0,00003

1,1114

0,0029

-0,00006

1,9881

х

0,0119

0,0115

0,00046

3,8751

0,0116

0,00036

3,0416

ц

0,0083

0,0086

-0,00032

3,8675

0,0087

-0,00039

4,7681

ч

0,0141

0,0143

-0,00018

1,2584

0,0145

-0,00030

2,1364

ш

0,0076

0,0086

-0,00100

13,1745

0,0087

-0,00108

14,1557

щ

0,0056

0,0057

-0,00016

2,8423

0,0058

-0,00021

3,7340

ь

0,0177

0,0172

0,00047

2,6667

0,0173

0,00032

1,8228

ю

0,0093

0,0086

0,00072

7,7541

0,0087

0,00065

6,9543

я

0,0248

0,0258

-0,00100

4,0161

0,0260

-0,00122

4,9180

ВИСНОВКИ


  1. Сформульована актуальна науково-дослідна задача створення артикуляційних таблиць української мови.

  2. Складено десять артикуляційних таблиць слів української мови з дотриманням частотного розподілу букв.

  3. Планується доведення кількості артикуляційних таблиць до повного об’єму [1] та, за необхідності, складення таблиць із різним характером наборів слів (в залежності від тематичного спрямування артикуляційних випробувань).


ПЕРЕЛІК ПОСИЛАНЬ

  1. Покровский Н. Б. Расчет и измерение разборчивости речи [Текст] / Н. Б. Покровский. – М.: Связьиздат, 1962. – 392 с.

  2. Дидковский В.С. Акустическая экспертиза каналов речевой коммуникации [Текст] / В.С. Дидковский, М.В. Дидковская, А.Н. Продеус. – К., 2008. – 420 с.

  3. [Електронний ресурс]. – Режим доступу: http://www.mintrans.gov.ua/mintrans/control/

uk/publish/article?art_id=76171&cat_id=39278.

  1. ГОСТ 16600-72. Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений [Текст]. – М.: ИПК Издательство стандартов, 1973. – 90с.

  2. Вінницький В.П. Термінальне устаткування та передавання інформації в телекомунікаційних системах [Текст] / В.П. Вінницький, В.Г. Поліщук – К.: Політехніка, 2004. – 436 с.

  3. Яглом А. М. Вероятость и информация [Текст] / А. М. Яглом, И. М. Яглом – М.: Наука, 1973. – 306 с.

  4. Архипова О.О. Частотний аналіз використання букв української мови [Текст] / О.О.Архипова, В.М. Журавльов // Радіоелектроніка, інформатика, управління (прийнято до друку).

Схожі:

На уроках інформатики розв’язують різні задачі: на обчислення, на побудову, з програмування
Постановка задачі, де аналізуються вихідні умови (те, що дано в умові задачі), уточнюється, що саме необхідно отримати в результаті...
Основні етапи розв’язування прикладної задачі з використанням комп’ютера....
Формулювання задачі в термінах певної предметної галузі знань (математика, фізика, економіка тощо)-постановка задачі
2. Дробово-лінійне програмування Постановка задачі дробово-лінійного...
Дослідження операцій”, “Економетрія”, “Моделювання економіки”, “Економічна кібернетика” а також дисциплін циклу загальноекономічної...
ВСТУП. ПОСТАНОВКА ЗАДАЧІ
Проведено частотний аналіз використання букв української мови для текстів загальним обсягом біля 580 тисяч знаків художнього, публіцистичного...
План статті: Вступ постановка проблеми в загальному вигляді та її...
Вступ – постановка проблеми в загальному вигляді та її зв’язок з важливими практичними завданнями (5–10 рядків)
Формування основ культури мислення у дошкільників Постановка проблеми
Останнє варто розглядати не лише в контексті навчання дітей уміння розв’язувати так звані предметні навчальні задачі, а й стосовно...
Дипломної педагогіческої освіти. Математична логіка
Матеріал розбито на теми. Важливими темами є: «Подільність чисел», «Комбінаторні задачі», «Задачі – забави», «Задачі – казки», «Принцип...
МЕТОДИКА СТВОРЕННЯ ІНФОРМАЦІЙНОГО ОСВІТНЬОГО СЕРЕДОВИЩА НАЧАЛЬНОГО ЗАКЛАДУ Постановка проблеми
Постановка проблеми. У ХХІ сторіччя людство ввійшло у стадію розвитку, яке одержало назву постіндустріального або інформаційного...
Урок-подорож з математики
Вправи та задачі на додавання круглих десятків. Задачі на знаходження третього доданка
Урок математики
Тема. Вправи і задачі на засвоєння таблиць множенняі ділення. Задачі з буквеними даними
Додайте кнопку на своєму сайті:
Портал навчання


При копіюванні матеріалу обов'язкове зазначення активного посилання © 2013
звернутися до адміністрації
bibl.com.ua
Головна сторінка