|
Скачати 2.37 Mb.
|
Алгебра отношений обеспечивает набор действий для манипулирования отношениями. Она поддерживает понятие обращения (запроса), позволяющее осуществлять выборку информации из базы данных по принципам теории множеств. Таким образом, на исчислении отношений может быть построен формальный язык запросов. Вместо того чтобы записывать последовательность операций алгебры отношений, мы просто формулируем единственное декларативное выражение, описывающее результаты, которые мы хотим получить. Выразительная сила языка вполне отвечает возможностям аппарата алгебры отношений. Многие современные коммерческие языки основаны на исчислении отношений; наиболее известный из них — язык структурированных запросов (ЯСЗ) — Structured Query Language (SQL). Язык структурированных запросов Язык структурированных запросов (ЯСЗ) объединяет набор команд, обеспечивающих доступ к базе данных. ЯСЗ — средство организации и выборки информации, хранимой в базе данных. ЯСЗ не является процедурным языком. Это означает, что при использовании ЯСЗ мы должны обозначать конечный результат, а не описывать алгоритм его получения. Это язык высокого уровня, позволяющий манипулировать информацией из базы данных (извлекать, изменять и т. п.) с помощью обычных английских слов и фраз, например: «выбрать» (select), «создать» (create), «пропустить» (drop), «обновить» (update), «вставить» (insert) и т. д. Существуют различные типы команд:
Информационная проходка и обнаружение знаний Биологические базы данных продолжают расти невероятными темпами. К настоящему времени накоплен колоссальный объем данных для извлечения информации высокого уровня, прокладывающей путь к развитию новых концепций и открытию концептуальных взаимосвязей и интересных информационных схем, сокрытых в базах данных. Информационной проходкой называют технологию применения специальных средств для обнаружения и извлечения новых информационных схем. Обнаружение знаний охватывает теоретические и практические вопросы извлечения информации высокого уровня (знаний) из залежей данных низкого уровня. Оно сочетает в себе методы, заимствованные из СУБД, статистики и технологии искусственного интеллекта. Обнаружение знаний включает в себя несколько шагов предварительной обработки данных, информационную проходку и шаги интерпретации знаний. К целям обнаружения знаний относятся сверка, прогнозирование и описание (объяснение). Методики пошуку інформації у БД Усі існуючі бази даних надають можливісь роботи з ними через Іnternet та практично усі вони використовують стандартні методики пошуку, наприклад, можливість роботи з пошуковими системами: Entrez (пошук по назві, номеру, організму, автору і т. ін.). Забезпечує доступ до амінокислотних і нуклеотидних послідовностей, їх тривимірних структур, а також до повних секвенованих геномів, надає графічне відображення генів. Практично для кожної послідовності можна підібрати подібні послідовності та вже розраховані і визначені дво- та тривимірні структури, що відносяться до даної послідовності. BLAST (basic local alignment search tool, пошук за подібністю) – порівнює надану інформацію з послідовностями, що вже є в базі для пошуку подібних послідовностей. Є різні модифікації програми BLAST: BLASTp (вирівнювання амінокислотних послідовностей), BLASTn (вирівнювання нуклеотидних послідовностей), BLASTx (вирівнювання всіх можливих транслятів нашої нуклеотидної послідовності проти банка амінокислотних послідовностей), TBLASTx (вирівнювання всіх можливих транслятів нашої нуклеотидної послідовності проти всіх транслятів банка нуклеотидних послідовностей). Якщо при пошуку за допомогою BLAST було віднайдено декілька подібних до вихідної послідовностей (для кожної з яких побудовано тільки парне вирівнювання з досліджуваною послідовністю), то виникає задача написати всі ці послідовності одна під одною, щоб визначити, в якій мірі вони співпадають, що в них консервативно (стійко) повторюється, а що ні. Ця задача називається множинним вирівнюванням. Offline-інтерфейс – спочатку з мережі Інтернет на локальний комп’ютер скачується частина бази даних, потім з цією частиною проводиться подальша робота. Режим клієнт-сервер – на локальному комп’ютері встановлюється програма математичної обробки нуклеотидних послідовностей або послідовностей амінокислот, далі дана програма з’єднується з сервером бази даних і обробляє інформацію без скачування останньої на локальний комп’ютер. В той же час інтенсивно розвиваються системи обробки інформації та пошукові системи, що збирають і обробляють інформацію відповідно до запитів користувачів. Програмне забезпечення баз даних повинно задовільняти наступним функціональним вимогам: – Об’єм баз даних повинний бути практично не обмеженим (тобто обмежений лише параметрами апаратних засобів). – БД повинна бути достатньо гнучкою для забезпечення проходження процесу перебудови по мірі її заповнення, так як попереднє проектування детальної структури бази даних є неможливим. – БД повинні бути інтегровані з іншими БД та підтримувати не лише стандартні мультимедійні формати, але й ряд спеціальних гіпермедіа-середовищ (просторові структури молекул, хімічні структурні формули та ін.). – Експлуатація та поповнення баз даних через комп’ютерні мережі має бути легко доступним та зрозумілим для користувачів, які не мають комп’ютерної підготовки (біологи, медики). Базы данных последовательностей нуклеиновых кислот Базы данных последовательностей нуклеиновых кислот являются собраниями записей. Каждая запись имеет формат текстового файла. Текстовый файл содержит текст, который может читать как человек, так и компьютер. Этот текст представляет данные о единственной непрерывной последовательности и аннотации к ней. Многие записи собраны по данным нескольких статей, в которых были опубликованы перекрывающиеся фрагменты полной последовательности. Каждая запись разделена на поля. Это необходимо для создания предметных указателей реляционных баз данных. Каждое из полей — обязательно таблица, а значения полей — указатели. Записям присвоены уникальные номера доступа. Первая последовательность нуклеиновых кислот дрожжевой тРНК длиной 77 н. была опубликована примерно в 1964 году. Сегодня в мире существует три головных института, которые входят в «Международное объединение баз данных последовательностей нуклеотидов». Это «Национальный центр биотехнологической информации» («НЦБИ»), «Европейская лаборатория молекулярной биологии» («ЕЛМБ») и «Японский банк ДНК» («ЯБД»). Эти ресурсы обеспечивают ежедневное сохранение данных и взаимный обмен ими. Одноименные базы данных содержат не только сами последовательности, но также и подробные аннотации. «ЕЛМБ» В БД «ЕЛМБ» находятся последовательности, напрямую вносимые авторами публикаций и группами, занятыми расшифровкой геномов, а также взятые из научной литературы и патентных заявок. Эта база данных поддерживается при сотрудничестве «ЯБД» и «Генбанка»; группы участников собирают данные о частях полной последовательности, публикуемые по всему миру, после чего обмениваются всеми новыми и обновленными записями. Объем базы данных ДНК возрастает по экспоненте, и по последним оценкам время удвоения количества информации составляет около 9-12 месяцев. Формат записей «ЕЛМБ» совместим с форматом БД «Свисс-прот». Выборку информации из «ЕЛМБ» можно проводить с помощью СВП (системы выборки последовательностей); СВП связывает основные базы данных последовательностей ДНК и белков с базами данных мотивов, структур, карт и другими специализированными ресурсами, а также содержит ссылки на записи БД «МЕДЛАЙН» (MEDLINE). Поиск в БД «ЕЛМБ» по последовательностям запроса может быть осуществлен путем обращения к программам «БЛАСТ» и «ФАСТА» через сетевые интерфейсы «ЕЛМБ». «ЯБД» База данных «ЯБД» создана, расположена и обслуживается в «Национальном институте генетики»; благодаря сетевому средству внесения данных, в «ЯБД» может быть помещена последовательность, расшифрованная в любой научной лаборатории мира. Кроме того, в «ЯБД» предусмотрен стандартный поиск посредством обращения к программам «ФАСТА» и «БЛАСТ» по сети. «Генбанк» База данных «Генбанк» (детище «НЦБИ») содержит последовательности из многих общедоступных источников, причем большей частью полученные от самих исследователей или от руководителей крупномасштабных проектов расшифровки геномов. «Генбанк» является базой данных родовых последовательностей. Выборка информации из «Генбанка» может быть произведена с помощью интегральной системы выборки «Энтрез». БД «Ген-банк» предусматривает поиск последовательностей по запросу пользователя (через сетевой интерфейс «НЦБИ» с программным пакетом «БЛАСТ»). Постоянно растущий объем базы данных, а также большое разнообразие доступных источников информации потребовало разделения «Генбанка» на 17 меньших секций, обозначаемых трехбуквенным кодом (см. табл. 5.1). Запись «Генбанка» состоит из нескольких ключевых слов, подходящих зависимых подклюлевых слов и факультативной таблицы характеристик; ее конец обозначен ограничителем «//». Расположение этих элементов всегда постоянно: ключевые слова начинаются в столбце 1; подключевые слова начинаются в столбце 3; код, определяющий часть таблицы характеристик, начинается в столбце 5. Любая строка, начинающаяся знаком пробела, рассматривается как продолжение вышестоящего ключевого или подключевого слова. К ключевым относятся следующие слова: «ЛОКУС», «ОПРЕДЕЛЕНИЕ», «НОМЕР ДОСТУПА», «ИСТОЧНИК», «ССЫЛКА», «ХАРАКТЕРИСТИКА», «ЧИСЛО ОСНОВАНИЙ» и «НАЧАЛО». Главная цель базы данных «Генбанк» состоит в том, чтобы предоставить научному сообществу доступ к самой современной, всесторонней и исчерпывающей информации о последовательностях ДНК, а также побуждать всех заинтересованных лиц к выборке и использованию этих данных. Таблица 5.1. Семнадцать подразделений «Генбанка»
«БДГП» «База данных геномных последовательностей» («БДГП») — Genome Sequence DataBase (GSDB) создана при «Национальном центре геномных ресурсов» в Санта-Фе, штат Нью-Мексико. «БДГП» предназначена для сбора, обработки и распределения данных о полном наборе последовательностей ДНК (а также сопутствующей информации) и удовлетворяет потребности главных лабораторий, занятых секвенированием геномов. Формат записей «БДГП» совместим с форматом записей «Генбанка». «База данных геномных последовательностей» доступна или через сеть, или посредством сервисных средств типа клиент-сервер, предусмотренных в реляционных базах данных. Главные базы данных последовательностей имеют множество филиалов для хранения особых видов информации о последовательностях. «бдЯЭП» (dbEST) — подразделение «Генбанка», предназначенное для хранения ярлыков экспрессируемых последовательностей (ЯЭПов). «бдХГП» (dbGSS) — хранилище однопроходных характеризующих геном последовательностей (ХГП); «бдМУП» (dbSTS) создана для хранения меченых участков последовательностей (МУПов); и, наконец, в «ВПГ» (HTG — высокопроизводительная геномика) помещают необработанные данные о геномных последовательностях (в стадии секвенирования). «ОМИМ» (OMIM — сетевая БД менделевского наследования у человека) — многоцелевая база данных генов человека и генетических нарушений, обслуживаемая «НЦБИ». «Ансамбль» По замыслу база данных «Ансамбль» (Ensembl) (http://www.ensembl.org) должна стать универсальным источником информации о геноме человека. Цели ее организации состоят в том, чтобы собрать и аннотировать всю известную информацию о последовательности ДНК человека и в конечном счете сделать ее доступной для многих ученых, выражающих самые разные интересы и требования к этим данным. Чтобы достичь поставленных целей, помимо обеспечения функций сбора и организации информации, довольно серьезные усилия были направлены на развитие вычислительного аппарата базы данных. Программа, разработанная для пополнения этого ресурса, «еМОТИВ» (eMOTIF), основана на принципе построения согласованных выражений из консервативных областей выравниваний исходных по следовательно стей. |
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням... Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»... |
*Кроманьйонець Наука про минуле, що займається вивченням матеріальних предметів (артефактів) діяльності людини |
Тема Гриби Загальна характеристика грибів. Різноманітність грибів Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»... |
1 Значення і теоретичні основи фінансового аналізу Дана спеціальність передбачає вивчення процесів формування і виконання бюджетів різного рівня, механізму управління державним боргом,... |
Оповідь, переказ про відоме, досліджене минуле наука, яка займається... Рід — доісторична і ранньоісторична суспільно-організаційна спільнота, стадія еволюції Етносу, до якої належали кровно пов'язані... |
Цієї презентації – Електродинаміка Медико біологічних систем. Створював... Я, Лесюк Анастасія Юріївна приймала активну участь у класному і позакласному житті Українського медичного ліцею 11-В класу. Писала... |
ОБҐРУНТУВАННЯ Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах.... |
ОБҐРУНТУВАННЯ Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах.... |
ПРОГРАМА З МАТЕМАТИКИ для 10 11 класів загальноосвітніх навчальних... Програма призначена для організації навчання математики в класах з поглибленим вивченням математики. Вона розроблена на основі Державного... |
1 Менеджмент при процесному підході – це Досягнення високого рівня ефективності організації на основі використання знань та навичок підлеглих |