Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі


Скачати 2.37 Mb.
Назва Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі
Сторінка 4/20
Дата 19.04.2013
Розмір 2.37 Mb.
Тип Документи
bibl.com.ua > Інформатика > Документи
1   2   3   4   5   6   7   8   9   ...   20

РОЗДІЛ II.

БІОІНФОРМАТИЧНІ БАЗИ ДАНИХ ТА ІНСТРУМЕНТИ ЇХ АНАЛІЗУ
Біоінформатика включає в себе:

• бази даних, в яких зберігається біологічна інформація;

• набір інструментів для аналізу тих даних, які містяться в таких базах;

• правильне застосування комп'ютерних методів для правильного вирішення біологічних задач.

Біолог в біоінформатиці зазвичай має справу з базами даних та інструментами їх аналізу. Тепер розберемося, які бази даних бувають залежно від того, що в них поміщають.

Перший тип - архівні бази даних, куди будь-хто може помістити все, що захоче. До таких баз відносяться:

• GeneBank & EMBL - тут зберігаються первинні послідовності;

• PDB - просторові структури білків;

Другий тип - бази даних, за достовірність яких відповідає господар бази даних. Туди інформацію ніхто не надсилає, її з архівних баз даних відбирають експерти, перевіряючи достовірність інформації - що записано в цих послідовностях, які є експериментальні підстави для того, щоб вважати, що ці послідовності виконують ту або іншу функцію.

До баз даних такого типу належать:

• Swiss-Prot - найбільш якісна база даних, яка містить амінокислотні послідовності білків;

• KEGG - інформація про метаболізм;

• FlyBase - інформація про Drosophila;

• COG - інформація про ортологічних генах.

Підтримка бази вимагає роботи кураторів або анотаторів.

Третій тип - похідні бази даних. Такі бази виходять у результаті обробки даних з архівних і підвідомчих баз даних. Сюди входить:

• SCOP - База даних структурної класифікації білків (описується структура білків);

• PFAM - База даних за домами білків;

• GO (Gene Ontology) - Класифікація генів (спроба створення набору термінів, упорядкування термінології, щоб один ген не називався по різному, і щоб різним генам не давали однакові назви);

• ProDom - білкові домени;

• AsMamDB - альтернативний сплайсинг у ссавців
Інтегровані бази даних, в яких вся інформація (кур’юється, не кур’юється) звалена в купу, і ввівши ім'я гена, можна знайти всю пов'язану з ним, інформацію - в яких організмах зустрічається, в якому місці геному локалізована, які функції виконує і т.д.

• NCBI Entrez - доступ до інформації про нуклеотидні та амінокислотні послідовності і структури

• Ecocyc - все про E. coli - гени, білки, метаболізм і пр.
Базы данных, программы и их назначение

Сегодня биологические данные собирают и сохраняют во всех уголках мира. Для того, чтобы интерпретировать эти данные в биологически зна­чимом аспекте, необходимы специальные средства и методы. Базы данных и программы предоставляют доступ к существующей информации и позво­ляют сравнивать эти данные с целью отыскания подобий и различий. Мно­гие «Интернет»-совместимые базы данных молекулярной биологии имеют собственные уникальные средства навигации и форматы хранения данных.

Различные средства выборки данных помогают решать следующие за­дачи. Для некоторой последовательности или некоторого фрагмента этой последовательности требуется найти подобные последовательности в ба­зе данных. В базе данных необходимо найти белковые структуры, подоб­ные структуре заданного белка или какому-либо фрагменту его структуры. Для последовательности белка неизвестной структуры должно найти такие структуры в базе данных, которые принимают подобные пространственные свертки. В базе данных необходимо отыскать последовательности, которые соответствуют заданной структуре.
Значение баз данных

Базой данных называют логически согласованное собрание взаимосвя­занных данных с присущим значением, предназначенное для определен­ной цели. База данных состоит из записей — самостоятельных внутренне связных пакетов информации. Это единое хранилище информации, записи которого обрабатываются специальной программой. Содержанием записей можно легко управлять (например, просматривать, обновлять и т. д.).

Поиск в базах данных можно проводить путем их просмотра с помо­щью перекрестных ссылок — или по сети «Интернет», или посредством навигации в загруженных и установленных версиях для персональных ком­пьютеров или местных сетей ЭВМ (в последнем случае — коллективный доступ). Базы данных представляют собой электронные картотеки и обес­печивают удобный и эффективный метод хранения большого количества информации. Они являются собраниями проанализированной биологиче­ской информации, организованными в виде центральных ресурсов коллек­тивного пользования.

Базы данных необходимы для сбора и сохранения данных, обеспечения удобных для пользователя функций доступа и поиска, а также стандартиза­ции представления данных и организации данных в знания. Главные цели создания баз данных: 1) уменьшение избыточности данных и 2) достижение независимости данных.

Хранимую в этих базах данных информацию можно искать, сравни­вать, извлекать и анализировать. Базы данных дают возможность управлять однотипными данными и развивать сеть, позволяющую получать доступ к ним со всех точек Земного шара. Благодаря развитию «Всемирной пау­тины» ученые имеют доступ к многочисленным ресурсам биологической информации, расположенным во всех уголках мира, но эти данные силь­но рассредоточены, и поэтому необходимо иметь эффективные механизмы выборки данных.

Если мы хотим извлечь максимальную выгоду из огромного объема имеющейся сегодня информации о последовательностях, то мы должны создавать, обслуживать и распространять базы данных с простым в ис­пользовании программным обеспечением доступа к содержащейся в них информации, а также проектировать передовые средства анализа, позволя­ющие визуализировать и интерпретировать скрытые в этих данных ключи к структурам и функциям биомолекул.

Базы данных последовательностей нуклеиновых кислот и белков под­держивают сервисные средства для очень широкого круга операций вы­борки и анализа информации — например, выборки последовательностей из базы данных, сравнения последовательностей, машинной трансляции последовательностей ДНК в последовательности белка, простых видов ана­лиза и предсказания структур, распознавания регулярных комбинаций и гра­фического представления молекул. Некоторые примеры таких баз данных: «Энтрез» (http://www.ncbi.nlm.nih.gov/Entrez/) и «ОМИМ». «Экспази» — си­стема выборки и анализа информации (http://www.expasy.ch).
Типы баз данных

Существует много различных типов баз данных, отличающихся как по характеру содержимого, так и по способу хранения данных. Базы дан­ных широко классифицируют на два типа, а именно на базы данных об-щего и специального назначения. Базы данных ДНК, белков, углеводов и т.п. являются примерами баз данных общего назначения. Специализи­рованными являются базы данных ярлыков экспрессируемых последова­тельностей (ЯЭПов), характеризующих геном последовательностей (ХГП), полиморфизмов отдельных нуклеотидов (ПОНов), меченых участков по­следовательности (МУПов) и т. п. К специализированным относят также базы данных «Кабат» (Kabat) — ресурс данных об иммуногенных белках — и «Лиганд» (Ligand) — хранилище информации о лигандах ферментативных реакций.

Базы данных общего назначения в свою очередь широко классифици­руют на базы данных последовательностей и базы данных структур. Базы данных последовательностей содержат записи отдельных последовательно­стей — нуклеотидов, аминокислот или белков. Базы данных структур содер­жат записи отдельных последовательностей биохимически определенных структур макромолекул (например, БД Protein 3D structure).

По принципу организации базы данных подразделяют на два ти­па: 1) реляционные и 2) объектно-ориентированные. В реляционной базе данных информация упорядочена в виде таблиц, составленных из строк, представляющих собой элементы или единицы хранения данных (записи), и столбцов (полей), несущих характеристики (атрибуты) содержимого этих записей. Объектно-ориентированная база данных представляет собой со­брание объектов, например, генетических карт, генов или белков, и имеет набор встроенных служебных программ анализа, которые помогают уста­навливать связи (отношения) между этими объектами.
Классификация

Более определенно базы данных могут быть классифицированы (по сложности хранимых данных) на следующие три типа: 1) первичная база данных, 2) вторичная база данных и 3) смешанная база данных.

Первичная база данных содержит необработанные (первичные) дан­ные в той форме, в которой они были получены из источника (например: «Генбанк» — БД последовательностей генома — и «Свисс-прот» — БД после­довательностей белка). Такие базы данных известны также под названием архивных банков данных. Вторичная база данных представляет собой базу данных с добавленным значением (оценкой), которая содержит некоторую специальную аннотированную и производную информацию, полученную из первичной базы данных (например: БД «СКОП» (SCOP), «КАТ» (САТН) и «Просайт» (PROSITE)). Это производные банки данных, которые содер­жат информацию, отобранную из архивных банков данных после анализа их содержимого. Смешанная база данных объединяет в себе множество структур разных первичных баз данных.

Избыточной называют такую базу данных, в которой может быть най­дено более одной копии каждой последовательности. Базы данных, постро­енные на подмножествах некоторой первичной базы данных (с целью со­кращения смещения выборки), нередко называют безызбыточными базами данных.

Некоторые базы данных, являющиеся специализированными ресурса­ми, называют раритетными базами данных. Они содержат данные секвени-рования генома какого-либо биологического вида или последовательности, расшифрованные каким-нибудь особым способом (например: база данных генома Сахарных грибов (Saccharomyces) «СГД» (SGD), база данных генома Дрозофилы (Drosophila) и т. п.). В дополнение к приведенным выше ресур­сам, в сети можно найти многие другие библиографические банки данных и банки веб-узлов.
Записи базы данных

Записи базы данных содержат в себе новые экспериментальные ре­зультаты и дополнительные сведения в форме аннотаций. Аннотации дают информацию об источнике данных и методах его анализа, то есть получе­ния этих данных. Они указывают совершивших открытие исследователей и приводят перечень публикаций по данному вопросу. Наконец, они обес­печивают ссылки на соответствующие записи других банков данных. Ад­министраторы баз данных составляют аннотации по результатам анализа последовательностей посредством компьютерных программ.

С целью обеспечения открытого доступа ко всем фундаментальным данным, относящимся к ДНК и РНК, научные журналы в качестве условия публикации статьи требуют предварительного помещения новых последо­вательностей нуклеотидов в базу данных. Подобные условия распростра­няются также на последовательности аминокислот, нуклеиновых кислот и белковых структур.
Форматы представления последовательностей

Многие базы данных и прикладные программы предназначены для ра­боты с данными о составе последовательностей, что предполагает наличие стандартного формата ввода информации о последовательностях нуклеино­вых кислот и белков. Наиболее распространенными являются следующие три формата описания последовательностей: «НФБИ/РИБ» («Национальный фонд биомедицинских исследований» и «Ресурс идентификации бел­ка»), «ФАСТА» и «ГДЕ» (GDE). Каждый из этих форматов имеет не только средства для представления самих последовательностей, но также и функ­ции, позволяющие вставлять уникальный код для обозначения последова­тельности и добавлять комментарии, которые могут описывать, например, имя последовательности, вид организма, от которого она была получена, и номер доступа для «Генбанка» или другой подходящей базы данных.

Строки в формате «НФБИ/РИБ» начинаются с фразы «>Р1;» (белки) или «>N1;» (нуклеиновые кислоты). В начале строк в формате «ФАСТА» стоит только знак «>», а в формате «ГДЕ» — «%». Таблица характеристик (строки FT) представляет собой компонент аннотации записи и сообща­ет о свойствах определенных областей, например, кодирующих последова­тельностей (КП). Таблица характеристик может указать области, которые выполняют (влияют на) ту или иную функцию, или взаимодействуют с дру­гими молекулами, или затрагивают репликацию, или вовлечены в рекомби­нацию, или являются повторными элементами, или имеют вторичную или третичную структуру, или же были уточнены или исправлены.
Запись базы данных

Типичная запись базы данных содержит три раздела.

  1. Заголовок — включает в себя описание последовательности, ее источ­ник (организм), ссылки на литературу и перекрестные ссылки на со­ответствующие последовательности в других базах данных. В поле «Локус» записано уникальное имя (в виде аббревиатуры), описываю­щее функцию последовательности. За ним идет номер доступа в поле «Доступ». Поле «Организм» содержит двойное (на английском и ла­тинском языках) название организма и его полную таксономическую классификацию.

  2. Таблица характеристик — содержит описание характерных свойств со­держимого записи, например: кодирующие последовательности, экзо-ны, повторения, промоторы и т.д. в последовательностях нуклеоти­дов и домены, участки связывания структурных элементов и т.д. — в последовательностях белка. Если таблица характеристик включает кодирующую последовательность ДНК (КП), то в описании данной характеристики обязательно приведены ссылки на транслированную последовательность белка.

  3. Последовательность (per se), которую чаще всего анализируют с помо­щью ЭВМ.

Система управления базами данных

Система управления базами данных (СУБД) представляет собой про­граммное обеспечение, которое позволяет определять и строить базы дан­ных, а также совершать над ними сложные операции. Это набор программ, предназначенный для управления любым числом баз данных. СУБД вклю­чает в себя: 1) пользовательский интерфейс для обращения к БД, 2) поль­зователя, работающего в диалоговом режиме, 3) разработчика прикладных программ, 4) процессор базы данных, выполняющий функции управления хранением физических данных на диске и доступом к ним, и 5) словарь ба­зы данных, в который записывается вся информация о базе данных, схемах, статьях предметного указателя и правах доступа.

СУБД отвечает за 1) организацию доступа к данным, 2) внесение, об­новление и удаление данных, 3) безопасность, 4) целостность, 5) блокирова­ние, 6) регистрацию работы системы, 7) поддержку пакетных и диалоговых программ, 8) работу вспомогательных средств архивного резервирования и восстановления информации, 9) оптимизацию работы, 10) расширение возможностей доступа, 11) поддержание каталога и справочника объектов базы данных, 12) управление буферными пулами и 13) работу в качестве интерфейса для связи с программами других систем.

СУБД обеспечивает независимость и коллективное использование дан­ных, а также их безызбыточность, совместимость, безопасность и целост­ность.
Типы СУБД

Существует три основных типа систем управления базами данных: иерархический, реляционный и сетевой. Иерархическая и сетевая модели СУБД основаны на принципе управления базой данных путем отслежива­ния связей между элементами данных. Данные представлены в виде иерар­хической структуры, а связи описаны и установлены с помощью указате­лей физических адресов, помещенных в теле записей. Такие СУБД обычно применяют в крупных информационных системах, построенных на базе универсальных ЭВМ.
Реляционная система управления базами данных

Реляционная система управления базами данных (РСУБД) стала попу­лярной только благодаря простой модели данных. Данные представлены как совокупность отношений (реляций). Каждое отношение изображено в ви­де таблицы. Строка соответствует записи, а столбец соответствует полю.

Каждая таблица содержит только однотипные записи. Все записи в табли­це имеют одинаковое число полей. Порядок записей в пределах таблицы не имеет никакого значения. Столбцы таблиц являются атрибутами. Все строки таблицы могут быть однозначно опознаны по значениям данных (элементов) из одного или более столбцов. Столбец, который однозначно определяет каждую строку, является первичным ключом.

Среди особенно популярных РСУБД можно назвать программы «Май­крософт Аксес» (Microsoft Access) и «Оракул» (Oracle). «Майкрософт Ак-сесс» имеет удобный графический интерфейс, который позволяет очень легко создавать базы данных и манипулировать ими. «Аксесс» обеспечива­ет возможность независимой работы с различными вариантами табуляции: таблицами, запросами, формами и отчетами. Другое программное обеспе­чение, известное под названием «Постгре» (Postgre), предназначено для управления БД на базе ОС «Линукс». РСУБД построена на системе ма­тематических понятий, то есть операции управления элементами данных основаны на теории множеств.
1   2   3   4   5   6   7   8   9   ...   20

Схожі:

Гриби – це одна з найбільших у природі груп організмів. Їх вивченням...
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
*Кроманьйонець
Наука про минуле, що займається вивченням матеріальних предметів (артефактів) діяльності людини
Тема Гриби Загальна характеристика грибів. Різноманітність грибів
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
1 Значення і теоретичні основи фінансового аналізу
Дана спеціальність передбачає вивчення процесів формування і виконання бюджетів різного рівня, механізму управління державним боргом,...
Оповідь, переказ про відоме, досліджене минуле наука, яка займається...
Рід — доісторична і ранньоісторична суспільно-організаційна спільнота, стадія еволюції Етносу, до якої належали кровно пов'язані...
Цієї презентації – Електродинаміка Медико біологічних систем. Створював...
Я, Лесюк Анастасія Юріївна приймала активну участь у класному і позакласному житті Українського медичного ліцею 11-В класу. Писала...
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ПРОГРАМА З МАТЕМАТИКИ для 10 11 класів загальноосвітніх навчальних...
Програма призначена для організації навчання математики в класах з поглибленим вивченням математики. Вона розроблена на основі Державного...
1 Менеджмент при процесному підході – це
Досягнення високого рівня ефективності організації на основі використання знань та навичок підлеглих
Додайте кнопку на своєму сайті:
Портал навчання


При копіюванні матеріалу обов'язкове зазначення активного посилання © 2013
звернутися до адміністрації
bibl.com.ua
Головна сторінка