|
Скачати 2.37 Mb.
|
РОЗДІЛ II. БІОІНФОРМАТИЧНІ БАЗИ ДАНИХ ТА ІНСТРУМЕНТИ ЇХ АНАЛІЗУ Біоінформатика включає в себе: • бази даних, в яких зберігається біологічна інформація; • набір інструментів для аналізу тих даних, які містяться в таких базах; • правильне застосування комп'ютерних методів для правильного вирішення біологічних задач. Біолог в біоінформатиці зазвичай має справу з базами даних та інструментами їх аналізу. Тепер розберемося, які бази даних бувають залежно від того, що в них поміщають. Перший тип - архівні бази даних, куди будь-хто може помістити все, що захоче. До таких баз відносяться: • GeneBank & EMBL - тут зберігаються первинні послідовності; • PDB - просторові структури білків; Другий тип - бази даних, за достовірність яких відповідає господар бази даних. Туди інформацію ніхто не надсилає, її з архівних баз даних відбирають експерти, перевіряючи достовірність інформації - що записано в цих послідовностях, які є експериментальні підстави для того, щоб вважати, що ці послідовності виконують ту або іншу функцію. До баз даних такого типу належать: • Swiss-Prot - найбільш якісна база даних, яка містить амінокислотні послідовності білків; • KEGG - інформація про метаболізм; • FlyBase - інформація про Drosophila; • COG - інформація про ортологічних генах. Підтримка бази вимагає роботи кураторів або анотаторів. Третій тип - похідні бази даних. Такі бази виходять у результаті обробки даних з архівних і підвідомчих баз даних. Сюди входить: • SCOP - База даних структурної класифікації білків (описується структура білків); • PFAM - База даних за домами білків; • GO (Gene Ontology) - Класифікація генів (спроба створення набору термінів, упорядкування термінології, щоб один ген не називався по різному, і щоб різним генам не давали однакові назви); • ProDom - білкові домени; • AsMamDB - альтернативний сплайсинг у ссавців Інтегровані бази даних, в яких вся інформація (кур’юється, не кур’юється) звалена в купу, і ввівши ім'я гена, можна знайти всю пов'язану з ним, інформацію - в яких організмах зустрічається, в якому місці геному локалізована, які функції виконує і т.д. • NCBI Entrez - доступ до інформації про нуклеотидні та амінокислотні послідовності і структури • Ecocyc - все про E. coli - гени, білки, метаболізм і пр. Базы данных, программы и их назначение Сегодня биологические данные собирают и сохраняют во всех уголках мира. Для того, чтобы интерпретировать эти данные в биологически значимом аспекте, необходимы специальные средства и методы. Базы данных и программы предоставляют доступ к существующей информации и позволяют сравнивать эти данные с целью отыскания подобий и различий. Многие «Интернет»-совместимые базы данных молекулярной биологии имеют собственные уникальные средства навигации и форматы хранения данных. Различные средства выборки данных помогают решать следующие задачи. Для некоторой последовательности или некоторого фрагмента этой последовательности требуется найти подобные последовательности в базе данных. В базе данных необходимо найти белковые структуры, подобные структуре заданного белка или какому-либо фрагменту его структуры. Для последовательности белка неизвестной структуры должно найти такие структуры в базе данных, которые принимают подобные пространственные свертки. В базе данных необходимо отыскать последовательности, которые соответствуют заданной структуре. Значение баз данных Базой данных называют логически согласованное собрание взаимосвязанных данных с присущим значением, предназначенное для определенной цели. База данных состоит из записей — самостоятельных внутренне связных пакетов информации. Это единое хранилище информации, записи которого обрабатываются специальной программой. Содержанием записей можно легко управлять (например, просматривать, обновлять и т. д.). Поиск в базах данных можно проводить путем их просмотра с помощью перекрестных ссылок — или по сети «Интернет», или посредством навигации в загруженных и установленных версиях для персональных компьютеров или местных сетей ЭВМ (в последнем случае — коллективный доступ). Базы данных представляют собой электронные картотеки и обеспечивают удобный и эффективный метод хранения большого количества информации. Они являются собраниями проанализированной биологической информации, организованными в виде центральных ресурсов коллективного пользования. Базы данных необходимы для сбора и сохранения данных, обеспечения удобных для пользователя функций доступа и поиска, а также стандартизации представления данных и организации данных в знания. Главные цели создания баз данных: 1) уменьшение избыточности данных и 2) достижение независимости данных. Хранимую в этих базах данных информацию можно искать, сравнивать, извлекать и анализировать. Базы данных дают возможность управлять однотипными данными и развивать сеть, позволяющую получать доступ к ним со всех точек Земного шара. Благодаря развитию «Всемирной паутины» ученые имеют доступ к многочисленным ресурсам биологической информации, расположенным во всех уголках мира, но эти данные сильно рассредоточены, и поэтому необходимо иметь эффективные механизмы выборки данных. Если мы хотим извлечь максимальную выгоду из огромного объема имеющейся сегодня информации о последовательностях, то мы должны создавать, обслуживать и распространять базы данных с простым в использовании программным обеспечением доступа к содержащейся в них информации, а также проектировать передовые средства анализа, позволяющие визуализировать и интерпретировать скрытые в этих данных ключи к структурам и функциям биомолекул. Базы данных последовательностей нуклеиновых кислот и белков поддерживают сервисные средства для очень широкого круга операций выборки и анализа информации — например, выборки последовательностей из базы данных, сравнения последовательностей, машинной трансляции последовательностей ДНК в последовательности белка, простых видов анализа и предсказания структур, распознавания регулярных комбинаций и графического представления молекул. Некоторые примеры таких баз данных: «Энтрез» (http://www.ncbi.nlm.nih.gov/Entrez/) и «ОМИМ». «Экспази» — система выборки и анализа информации (http://www.expasy.ch). Типы баз данных Существует много различных типов баз данных, отличающихся как по характеру содержимого, так и по способу хранения данных. Базы данных широко классифицируют на два типа, а именно на базы данных об-щего и специального назначения. Базы данных ДНК, белков, углеводов и т.п. являются примерами баз данных общего назначения. Специализированными являются базы данных ярлыков экспрессируемых последовательностей (ЯЭПов), характеризующих геном последовательностей (ХГП), полиморфизмов отдельных нуклеотидов (ПОНов), меченых участков последовательности (МУПов) и т. п. К специализированным относят также базы данных «Кабат» (Kabat) — ресурс данных об иммуногенных белках — и «Лиганд» (Ligand) — хранилище информации о лигандах ферментативных реакций. Базы данных общего назначения в свою очередь широко классифицируют на базы данных последовательностей и базы данных структур. Базы данных последовательностей содержат записи отдельных последовательностей — нуклеотидов, аминокислот или белков. Базы данных структур содержат записи отдельных последовательностей биохимически определенных структур макромолекул (например, БД Protein 3D structure). По принципу организации базы данных подразделяют на два типа: 1) реляционные и 2) объектно-ориентированные. В реляционной базе данных информация упорядочена в виде таблиц, составленных из строк, представляющих собой элементы или единицы хранения данных (записи), и столбцов (полей), несущих характеристики (атрибуты) содержимого этих записей. Объектно-ориентированная база данных представляет собой собрание объектов, например, генетических карт, генов или белков, и имеет набор встроенных служебных программ анализа, которые помогают устанавливать связи (отношения) между этими объектами. Классификация Более определенно базы данных могут быть классифицированы (по сложности хранимых данных) на следующие три типа: 1) первичная база данных, 2) вторичная база данных и 3) смешанная база данных. Первичная база данных содержит необработанные (первичные) данные в той форме, в которой они были получены из источника (например: «Генбанк» — БД последовательностей генома — и «Свисс-прот» — БД последовательностей белка). Такие базы данных известны также под названием архивных банков данных. Вторичная база данных представляет собой базу данных с добавленным значением (оценкой), которая содержит некоторую специальную аннотированную и производную информацию, полученную из первичной базы данных (например: БД «СКОП» (SCOP), «КАТ» (САТН) и «Просайт» (PROSITE)). Это производные банки данных, которые содержат информацию, отобранную из архивных банков данных после анализа их содержимого. Смешанная база данных объединяет в себе множество структур разных первичных баз данных. Избыточной называют такую базу данных, в которой может быть найдено более одной копии каждой последовательности. Базы данных, построенные на подмножествах некоторой первичной базы данных (с целью сокращения смещения выборки), нередко называют безызбыточными базами данных. Некоторые базы данных, являющиеся специализированными ресурсами, называют раритетными базами данных. Они содержат данные секвени-рования генома какого-либо биологического вида или последовательности, расшифрованные каким-нибудь особым способом (например: база данных генома Сахарных грибов (Saccharomyces) «СГД» (SGD), база данных генома Дрозофилы (Drosophila) и т. п.). В дополнение к приведенным выше ресурсам, в сети можно найти многие другие библиографические банки данных и банки веб-узлов. Записи базы данных Записи базы данных содержат в себе новые экспериментальные результаты и дополнительные сведения в форме аннотаций. Аннотации дают информацию об источнике данных и методах его анализа, то есть получения этих данных. Они указывают совершивших открытие исследователей и приводят перечень публикаций по данному вопросу. Наконец, они обеспечивают ссылки на соответствующие записи других банков данных. Администраторы баз данных составляют аннотации по результатам анализа последовательностей посредством компьютерных программ. С целью обеспечения открытого доступа ко всем фундаментальным данным, относящимся к ДНК и РНК, научные журналы в качестве условия публикации статьи требуют предварительного помещения новых последовательностей нуклеотидов в базу данных. Подобные условия распространяются также на последовательности аминокислот, нуклеиновых кислот и белковых структур. Форматы представления последовательностей Многие базы данных и прикладные программы предназначены для работы с данными о составе последовательностей, что предполагает наличие стандартного формата ввода информации о последовательностях нуклеиновых кислот и белков. Наиболее распространенными являются следующие три формата описания последовательностей: «НФБИ/РИБ» («Национальный фонд биомедицинских исследований» и «Ресурс идентификации белка»), «ФАСТА» и «ГДЕ» (GDE). Каждый из этих форматов имеет не только средства для представления самих последовательностей, но также и функции, позволяющие вставлять уникальный код для обозначения последовательности и добавлять комментарии, которые могут описывать, например, имя последовательности, вид организма, от которого она была получена, и номер доступа для «Генбанка» или другой подходящей базы данных. Строки в формате «НФБИ/РИБ» начинаются с фразы «>Р1;» (белки) или «>N1;» (нуклеиновые кислоты). В начале строк в формате «ФАСТА» стоит только знак «>», а в формате «ГДЕ» — «%». Таблица характеристик (строки FT) представляет собой компонент аннотации записи и сообщает о свойствах определенных областей, например, кодирующих последовательностей (КП). Таблица характеристик может указать области, которые выполняют (влияют на) ту или иную функцию, или взаимодействуют с другими молекулами, или затрагивают репликацию, или вовлечены в рекомбинацию, или являются повторными элементами, или имеют вторичную или третичную структуру, или же были уточнены или исправлены. Запись базы данных Типичная запись базы данных содержит три раздела.
Система управления базами данных Система управления базами данных (СУБД) представляет собой программное обеспечение, которое позволяет определять и строить базы данных, а также совершать над ними сложные операции. Это набор программ, предназначенный для управления любым числом баз данных. СУБД включает в себя: 1) пользовательский интерфейс для обращения к БД, 2) пользователя, работающего в диалоговом режиме, 3) разработчика прикладных программ, 4) процессор базы данных, выполняющий функции управления хранением физических данных на диске и доступом к ним, и 5) словарь базы данных, в который записывается вся информация о базе данных, схемах, статьях предметного указателя и правах доступа. СУБД отвечает за 1) организацию доступа к данным, 2) внесение, обновление и удаление данных, 3) безопасность, 4) целостность, 5) блокирование, 6) регистрацию работы системы, 7) поддержку пакетных и диалоговых программ, 8) работу вспомогательных средств архивного резервирования и восстановления информации, 9) оптимизацию работы, 10) расширение возможностей доступа, 11) поддержание каталога и справочника объектов базы данных, 12) управление буферными пулами и 13) работу в качестве интерфейса для связи с программами других систем. СУБД обеспечивает независимость и коллективное использование данных, а также их безызбыточность, совместимость, безопасность и целостность. Типы СУБД Существует три основных типа систем управления базами данных: иерархический, реляционный и сетевой. Иерархическая и сетевая модели СУБД основаны на принципе управления базой данных путем отслеживания связей между элементами данных. Данные представлены в виде иерархической структуры, а связи описаны и установлены с помощью указателей физических адресов, помещенных в теле записей. Такие СУБД обычно применяют в крупных информационных системах, построенных на базе универсальных ЭВМ. Реляционная система управления базами данных Реляционная система управления базами данных (РСУБД) стала популярной только благодаря простой модели данных. Данные представлены как совокупность отношений (реляций). Каждое отношение изображено в виде таблицы. Строка соответствует записи, а столбец соответствует полю. Каждая таблица содержит только однотипные записи. Все записи в таблице имеют одинаковое число полей. Порядок записей в пределах таблицы не имеет никакого значения. Столбцы таблиц являются атрибутами. Все строки таблицы могут быть однозначно опознаны по значениям данных (элементов) из одного или более столбцов. Столбец, который однозначно определяет каждую строку, является первичным ключом. Среди особенно популярных РСУБД можно назвать программы «Майкрософт Аксес» (Microsoft Access) и «Оракул» (Oracle). «Майкрософт Ак-сесс» имеет удобный графический интерфейс, который позволяет очень легко создавать базы данных и манипулировать ими. «Аксесс» обеспечивает возможность независимой работы с различными вариантами табуляции: таблицами, запросами, формами и отчетами. Другое программное обеспечение, известное под названием «Постгре» (Postgre), предназначено для управления БД на базе ОС «Линукс». РСУБД построена на системе математических понятий, то есть операции управления элементами данных основаны на теории множеств. |
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням... Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»... |
*Кроманьйонець Наука про минуле, що займається вивченням матеріальних предметів (артефактів) діяльності людини |
Тема Гриби Загальна характеристика грибів. Різноманітність грибів Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»... |
1 Значення і теоретичні основи фінансового аналізу Дана спеціальність передбачає вивчення процесів формування і виконання бюджетів різного рівня, механізму управління державним боргом,... |
Оповідь, переказ про відоме, досліджене минуле наука, яка займається... Рід — доісторична і ранньоісторична суспільно-організаційна спільнота, стадія еволюції Етносу, до якої належали кровно пов'язані... |
Цієї презентації – Електродинаміка Медико біологічних систем. Створював... Я, Лесюк Анастасія Юріївна приймала активну участь у класному і позакласному житті Українського медичного ліцею 11-В класу. Писала... |
ОБҐРУНТУВАННЯ Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах.... |
ОБҐРУНТУВАННЯ Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах.... |
ПРОГРАМА З МАТЕМАТИКИ для 10 11 класів загальноосвітніх навчальних... Програма призначена для організації навчання математики в класах з поглибленим вивченням математики. Вона розроблена на основі Державного... |
1 Менеджмент при процесному підході – це Досягнення високого рівня ефективності організації на основі використання знань та навичок підлеглих |