Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі


Скачати 2.37 Mb.
Назва Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі
Сторінка 5/20
Дата 19.04.2013
Розмір 2.37 Mb.
Тип Документи
bibl.com.ua > Інформатика > Документи
1   2   3   4   5   6   7   8   9   ...   20

Алгебра отношений обеспечивает набор действий для манипулирова­ния отношениями. Она поддерживает понятие обращения (запроса), поз­воляющее осуществлять выборку информации из базы данных по принци­пам теории множеств. Таким образом, на исчислении отношений может быть построен формальный язык запросов. Вместо того чтобы записы­вать последовательность операций алгебры отношений, мы просто фор­мулируем единственное декларативное выражение, описывающее резуль­таты, которые мы хотим получить. Выразительная сила языка вполне от­вечает возможностям аппарата алгебры отношений. Многие современные коммерческие языки основаны на исчислении отношений; наиболее извест­ный из них — язык структурированных запросов (ЯСЗ) — Structured Query Language (SQL).
Язык структурированных запросов

Язык структурированных запросов (ЯСЗ) объединяет набор команд, обеспечивающих доступ к базе данных. ЯСЗ — средство организации и вы­борки информации, хранимой в базе данных. ЯСЗ не является процедурным языком. Это означает, что при использовании ЯСЗ мы должны обозначать конечный результат, а не описывать алгоритм его получения. Это язык вы­сокого уровня, позволяющий манипулировать информацией из базы данных (извлекать, изменять и т. п.) с помощью обычных английских слов и фраз, например: «выбрать» (select), «создать» (create), «пропустить» (drop), «об­новить» (update), «вставить» (insert) и т. д.
Существуют различные типы команд:

  1. Язык определения данных (ЯОД): команды создания, удаления и видо­изменения объектов базы данных типа таблиц, представлений и пред­метных указателей.

  2. Язык манипулирования данными (ЯМД): команды вставки, удаления и изменения данных.

  3. Язык структурированных запросов (ЯСЗ): операторы выбора, которые применяются для осуществления выборки данных и могут быть про­верены с помощью команд ЯМД.

  4. Язык управления перепиской (ЯУП): эти команды используют для со­хранения целостности данных при их изменении (переписке).

  5. Язык управления данными (ЯУД): команды создания и обслужива­ния баз данных, разбиения данных на сегменты, а также назначения прав доступа пользователей к таблицам и другим объектам базы дан­ных.

  6. Язык выборки данных (ЯВД): команды, предназначенные для осуще­ствления выборки данных из одной или нескольких таблиц.



Информационная проходка и обнаружение знаний

Биологические базы данных продолжают расти невероятными темпа­ми. К настоящему времени накоплен колоссальный объем данных для из­влечения информации высокого уровня, прокладывающей путь к развитию новых концепций и открытию концептуальных взаимосвязей и интересных информационных схем, сокрытых в базах данных.

Информационной проходкой называют технологию применения спе­циальных средств для обнаружения и извлечения новых информационных схем. Обнаружение знаний охватывает теоретические и практические во­просы извлечения информации высокого уровня (знаний) из залежей дан­ных низкого уровня. Оно сочетает в себе методы, заимствованные из СУБД, статистики и технологии искусственного интеллекта. Обнаружение зна­ний включает в себя несколько шагов предварительной обработки данных, информационную проходку и шаги интерпретации знаний. К целям об­наружения знаний относятся сверка, прогнозирование и описание (объяс­нение).
Методики пошуку інформації у БД

Усі існуючі бази даних надають можливісь роботи з ними через Іnternet та практично усі вони використовують стандартні методики пошуку, наприклад, можливість роботи з пошуковими системами:

Entrez (пошук по назві, номеру, організму, автору і т. ін.). Забезпечує доступ до амінокислотних і нуклеотидних послідовностей, їх тривимірних структур, а також до повних секвенованих геномів, надає графічне відображення генів. Практично для кожної послідовності можна підібрати подібні послідовності та вже розраховані і визначені дво- та тривимірні структури, що відносяться до даної послідовності.

BLAST (basic local alignment search tool, пошук за подібністю) – порівнює надану інформацію з послідовностями, що вже є в базі для пошуку подібних послідовностей. Є різні модифікації програми BLAST: BLASTp (вирівнювання амінокислотних послідовностей), BLASTn (вирівнювання нуклеотидних послідовностей), BLASTx (вирівнювання всіх можливих транслятів нашої нуклеотидної послідовності проти банка амінокислотних послідовностей), TBLASTx (вирівнювання всіх можливих транслятів нашої нуклеотидної послідовності проти всіх транслятів банка нуклеотидних послідовностей).

Якщо при пошуку за допомогою BLAST було віднайдено декілька подібних до вихідної послідовностей (для кожної з яких побудовано тільки парне вирівнювання з досліджуваною послідовністю), то виникає задача написати всі ці послідовності одна під одною, щоб визначити, в якій мірі вони співпадають, що в них консервативно (стійко) повторюється, а що ні. Ця задача називається множинним вирівнюванням.

Offline-інтерфейс – спочатку з мережі Інтернет на локальний комп’ютер скачується частина бази даних, потім з цією частиною проводиться подальша робота.

Режим клієнт-сервер – на локальному комп’ютері встановлюється програма математичної обробки нуклеотидних послідовностей або послідовностей амінокислот, далі дана програма з’єднується з сервером бази даних і обробляє інформацію без скачування останньої на локальний комп’ютер. В той же час інтенсивно розвиваються системи обробки інформації та пошукові системи, що збирають і обробляють інформацію відповідно до запитів користувачів.

Програмне забезпечення баз даних повинно задовільняти наступним функціональним вимогам: – Об’єм баз даних повинний бути практично не обмеженим (тобто

обмежений лише параметрами апаратних засобів). – БД повинна бути достатньо гнучкою для забезпечення проходження процесу перебудови по мірі її заповнення, так як попереднє проектування детальної структури бази даних є неможливим. – БД повинні бути інтегровані з іншими БД та підтримувати не лише стандартні мультимедійні формати, але й ряд спеціальних гіпермедіа-середовищ (просторові структури молекул, хімічні структурні формули та ін.). – Експлуатація та поповнення баз даних через комп’ютерні мережі має бути легко доступним та зрозумілим для користувачів, які не мають комп’ютерної підготовки (біологи, медики).
Базы данных последовательностей нуклеиновых кислот

Базы данных последовательностей нуклеиновых кислот являются со­браниями записей. Каждая запись имеет формат текстового файла. Тексто­вый файл содержит текст, который может читать как человек, так и ком­пьютер. Этот текст представляет данные о единственной непрерывной последовательности и аннотации к ней. Многие записи собраны по дан­ным нескольких статей, в которых были опубликованы перекрывающиеся фрагменты полной последовательности. Каждая запись разделена на поля. Это необходимо для создания предметных указателей реляционных баз дан­ных. Каждое из полей — обязательно таблица, а значения полей — указатели. Записям присвоены уникальные номера доступа.

Первая последовательность нуклеиновых кислот дрожжевой тРНК дли­ной 77 н. была опубликована примерно в 1964 году. Сегодня в мире существует три головных института, которые входят в «Международное объединение баз данных последовательностей нуклеотидов». Это «Нацио­нальный центр биотехнологической информации» («НЦБИ»), «Европейская лаборатория молекулярной биологии» («ЕЛМБ») и «Японский банк ДНК» («ЯБД»). Эти ресурсы обеспечивают ежедневное сохранение данных и вза­имный обмен ими. Одноименные базы данных содержат не только сами последовательности, но также и подробные аннотации.
«ЕЛМБ»

В БД «ЕЛМБ» находятся последовательности, напрямую вносимые ав­торами публикаций и группами, занятыми расшифровкой геномов, а также взятые из научной литературы и патентных заявок. Эта база данных под­держивается при сотрудничестве «ЯБД» и «Генбанка»; группы участников собирают данные о частях полной последовательности, публикуемые по всему миру, после чего обмениваются всеми новыми и обновленными за­писями. Объем базы данных ДНК возрастает по экспоненте, и по последним оценкам время удвоения количества информации составляет около 9-12 ме­сяцев.

Формат записей «ЕЛМБ» совместим с форматом БД «Свисс-прот». Вы­борку информации из «ЕЛМБ» можно проводить с помощью СВП (системы выборки последовательностей); СВП связывает основные базы данных по­следовательностей ДНК и белков с базами данных мотивов, структур, карт и другими специализированными ресурсами, а также содержит ссылки на записи БД «МЕДЛАЙН» (MEDLINE). Поиск в БД «ЕЛМБ» по последовательностям запроса может быть осуществлен путем обращения к програм­мам «БЛАСТ» и «ФАСТА» через сетевые интерфейсы «ЕЛМБ».
«ЯБД»

База данных «ЯБД» создана, расположена и обслуживается в «Нацио­нальном институте генетики»; благодаря сетевому средству внесения дан­ных, в «ЯБД» может быть помещена последовательность, расшифрован­ная в любой научной лаборатории мира. Кроме того, в «ЯБД» предусмот­рен стандартный поиск посредством обращения к программам «ФАСТА» и «БЛАСТ» по сети.
«Генбанк»

База данных «Генбанк» (детище «НЦБИ») содержит последовательно­сти из многих общедоступных источников, причем большей частью полу­ченные от самих исследователей или от руководителей крупномасштабных проектов расшифровки геномов. «Генбанк» является базой данных родо­вых последовательностей. Выборка информации из «Генбанка» может быть произведена с помощью интегральной системы выборки «Энтрез». БД «Ген-банк» предусматривает поиск последовательностей по запросу пользователя (через сетевой интерфейс «НЦБИ» с программным пакетом «БЛАСТ»).

Постоянно растущий объем базы данных, а также большое раз­нообразие доступных источников информации потребовало разделения «Генбанка» на 17 меньших секций, обозначаемых трехбуквенным кодом (см. табл. 5.1).

Запись «Генбанка» состоит из нескольких ключевых слов, подходящих зависимых подклюлевых слов и факультативной таблицы характеристик; ее конец обозначен ограничителем «//». Расположение этих элементов всегда постоянно: ключевые слова начинаются в столбце 1; подключевые слова начинаются в столбце 3; код, определяющий часть таблицы характеристик, начинается в столбце 5. Любая строка, начинающаяся знаком пробела, рас­сматривается как продолжение вышестоящего ключевого или подключевого слова. К ключевым относятся следующие слова: «ЛОКУС», «ОПРЕДЕЛЕ­НИЕ», «НОМЕР ДОСТУПА», «ИСТОЧНИК», «ССЫЛКА», «ХАРАКТЕРИ­СТИКА», «ЧИСЛО ОСНОВАНИЙ» и «НАЧАЛО».

Главная цель базы данных «Генбанк» состоит в том, чтобы предоста­вить научному сообществу доступ к самой современной, всесторонней и ис­черпывающей информации о последовательностях ДНК, а также побуждать всех заинтересованных лиц к выборке и использованию этих данных.
Таблица 5.1. Семнадцать подразделений «Генбанка»



Секция

Категория последовательностей

1.

ВСТ

Бактерии

2.

PLN

Растения, грибы, водоросли

3.

INV

Беспозвоночные

4.

PRI

Приматы

5.

ROD

Грызуны

6.

МАМ

Проч. млекопитающие

7.

VRT

Проч. позвоночные

8.

PHG

Бактериофаги

9.

VRL

Вирусы

10.

RNA

Структурная РНК

11.

SYN

Синтетические

12.

UNA

Неаннотированные

13.

EST

Ярлыки экспрессируемых посл-тей (ЯЭПы)

14.

STS

Меченые участки посл-й (МУПы)

15.

GSS

Характеризующие геном посл-ти (ХГП)

16.

HTG

Посл-ти высокопроизводительной геномики (ВПГ)

17.

PAT

Патентованные


«БДГП»

«База данных геномных последовательностей» («БДГП») — Genome Sequence DataBase (GSDB) создана при «Национальном центре геномных ресурсов» в Санта-Фе, штат Нью-Мексико. «БДГП» предназначена для сбо­ра, обработки и распределения данных о полном наборе последовательно­стей ДНК (а также сопутствующей информации) и удовлетворяет потреб­ности главных лабораторий, занятых секвенированием геномов. Формат за­писей «БДГП» совместим с форматом записей «Генбанка». «База данных геномных последовательностей» доступна или через сеть, или посредством сервисных средств типа клиент-сервер, предусмотренных в реляционных базах данных.

Главные базы данных последовательностей имеют множество фи­лиалов для хранения особых видов информации о последовательностях.

«бдЯЭП» (dbEST) — подразделение «Генбанка», предназначенное для хра­нения ярлыков экспрессируемых последовательностей (ЯЭПов). «бдХГП» (dbGSS) — хранилище однопроходных характеризующих геном последова­тельностей (ХГП); «бдМУП» (dbSTS) создана для хранения меченых участ­ков последовательностей (МУПов); и, наконец, в «ВПГ» (HTG — высокопро­изводительная геномика) помещают необработанные данные о геномных последовательностях (в стадии секвенирования). «ОМИМ» (OMIM — сете­вая БД менделевского наследования у человека) — многоцелевая база дан­ных генов человека и генетических нарушений, обслуживаемая «НЦБИ».
«Ансамбль»

По замыслу база данных «Ансамбль» (Ensembl) (http://www.ensembl.org) должна стать универсальным источником информации о геноме человека. Цели ее организации состоят в том, чтобы собрать и аннотировать всю из­вестную информацию о последовательности ДНК человека и в конечном счете сделать ее доступной для многих ученых, выражающих самые раз­ные интересы и требования к этим данным. Чтобы достичь поставленных целей, помимо обеспечения функций сбора и организации информации, до­вольно серьезные усилия были направлены на развитие вычислительного аппарата базы данных. Программа, разработанная для пополнения этого ресурса, «еМОТИВ» (eMOTIF), основана на принципе построения согла­сованных выражений из консервативных областей выравниваний исходных по следовательно стей.
1   2   3   4   5   6   7   8   9   ...   20

Схожі:

Гриби – це одна з найбільших у природі груп організмів. Їх вивченням...
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
*Кроманьйонець
Наука про минуле, що займається вивченням матеріальних предметів (артефактів) діяльності людини
Тема Гриби Загальна характеристика грибів. Різноманітність грибів
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
1 Значення і теоретичні основи фінансового аналізу
Дана спеціальність передбачає вивчення процесів формування і виконання бюджетів різного рівня, механізму управління державним боргом,...
Оповідь, переказ про відоме, досліджене минуле наука, яка займається...
Рід — доісторична і ранньоісторична суспільно-організаційна спільнота, стадія еволюції Етносу, до якої належали кровно пов'язані...
Цієї презентації – Електродинаміка Медико біологічних систем. Створював...
Я, Лесюк Анастасія Юріївна приймала активну участь у класному і позакласному житті Українського медичного ліцею 11-В класу. Писала...
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ПРОГРАМА З МАТЕМАТИКИ для 10 11 класів загальноосвітніх навчальних...
Програма призначена для організації навчання математики в класах з поглибленим вивченням математики. Вона розроблена на основі Державного...
1 Менеджмент при процесному підході – це
Досягнення високого рівня ефективності організації на основі використання знань та навичок підлеглих
Додайте кнопку на своєму сайті:
Портал навчання


При копіюванні матеріалу обов'язкове зазначення активного посилання © 2013
звернутися до адміністрації
bibl.com.ua
Головна сторінка