Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі


Скачати 2.37 Mb.
Назва Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі
Сторінка 7/20
Дата 19.04.2013
Розмір 2.37 Mb.
Тип Документи
bibl.com.ua > Інформатика > Документи
1   2   3   4   5   6   7   8   9   10   ...   20

Базы данных структур

Базы данных структур архивируют, аннотируют и распределяют на­боры атомных координат. Они представляют собой собрания трехмерных структур биологических макромолекул, а именно белков и нуклеиновых кислот. Последняя организованная база данных структур белка — «Банк данных белка» («БДБ»). Адрес ее веб-узла следующий: http://www.rcsb.org/.

Это единственное хранилище структурных данных мирового масшта­ба; оно поддерживается «НИОСБ» — «Научно-исследовательским объеди­нением структурной биоинформатики (Research Collaboratory for Structural Bioinformatics, RCSB) в «Руджерском университете», штат Нью-Джерси, США. (Здесь поддерживается также «НДБ» (NDB Nucleic acid Structure Database — вспомогательная база данных структур нуклеиновых кислот). Равноценная база данных в Европе — «МСД» (MSD Macromolecular Structure Database — база данных макромолекулярных структур), обслу­живаемая «Европейским институтом биоинформатики» («ЕИБ»). Веб-узел «МСД» — http://msd.ebi.ac.uk/. Базы данных «БДБ» и «МСД» содержат аб­солютно идентичные данные.

Типичная запись «БДБ» включает в себя следующую информацию: на­звание белка, вид организма, из которого он получен, имя исследователя, определившего структуру, ссылки на публикации, описание процесса опре­деления структуры, описание эксперимента по определению структуры, по­следовательность аминокислот, перечень любых дополнительных молекул и координат атомов. В «МСД» предусмотрено средство поиска «ОКА» (ОСА), представляющее собой базу данных навигационного типа, которая объеди­няет информацию из многочисленных банков данных и содержит описание структур и функций белка. Другой полезный информационный источник в «ЕИБ» — база данных вероятных четвертичных структур (ВЧС) биологи­чески активных форм белков.
Классификация структур

Многие белки обнаруживают структурные подобия, отражающие в некоторых случаях общее эволюционное происхождение. Эволюцион­ный процесс производит замены, вставки и удаления в последовательно­стях аминокислот. У отдаленно связанных белков такие изменения могут быть многочисленными и приводить к сверткам, значительно отличающим­ся по числу и ориентации вторичных структур. Однако было замечено, что если функции белков консервативны, то и структурные компоненты, окру­жающие важнейшие аминокислотные остатки определяющих эти функции активных участков, также являются консервативными. С целью лучшего понимания взаимосвязи структуры белка с его первичной последовательно­стью были разработаны схемы классификации структур.

Ниже приведены базы данных (и программа), предлагающие разные варианты иерархической классификации белков «БДБ» согласно образцам свертки.

  1. «СКОП» (SCOP): Структурная классификация белков.

  2. «КАТ» (САТН): Класс / Конфигурация / Топология / Гомология.

  3. «ДАЛИ» (DALI): Программа идентификации подобных структур с по­мощью матриц расстояний.

  4. «ЦЕ» (СЕ): База данных выравниваний структур.


База данных «СКОП»

База данных «СКОП» описывает структурные и эволюционные отно­шения между белками с известной структурой. Так как современные сред­ства автоматического сравнения структур не могут надежно определить все такие отношения, БД «СКОП» построена на принципе сочетания ме­тодов ручного и автоматизированного контроля. Белки классифицированы согласно иерархической схеме, отражающей степень подобия их структур и силу эволюционных связей. Такая иерархия состоит из множества уров­ней, но в основном они описывают семейство, надсемейство и свертку белка.

Белки объединяют в семейство (с ясными эволюционными отношения­ми членов), если их последовательности подобны более чем на 30 %. Белки помещают в надсемейство, когда, несмотря на низкую идентичность после­довательностей, их структурные и функциональные характеристики пред­полагают общее эволюционное происхождение. К группе с общей сверткой относят те белки, у которых соответствующие основные элементы вторич­ной структуры находятся в аналогичном взаимном расположении и обла­дают одинаковой топологией — безотносительно того, имеют ли эти белки общее эволюционное происхождение. БД «СКОП» обслуживает запросы по ключевым словам через сервер «Лаборатории МРК» (MRC Laboratory).

База данных «КАТ»

База данных «КАТ» (классификация по классу, конфигурации, тополо­гии и гомологии) большей частью получена с помощью автоматических ме­тодов, но там, где автоматические методы дают сбой, по-прежнему необхо­дим ручной контроль. Разные категории в структуре классификации обозна­чены как уникальными номерами, так и описательными именами. В иерар­хической классификации можно выделить пять уровней: класс, конфигура­ция, топология, гомология и последовательность.

Класс устанавливается по основным элементам вторичной структуры и их упаковке. Конформация описывает общее взаимное расположение эле­ментов вторичной структуры. Топология дает описание, которое охватывает и внешнюю форму, и характер соединений вторичных структур. На уровне гомологии сгруппированы домены, которые показывают более 35 % иден­тичности последовательностей и предположительно происходят от обще­го предка. Последовательность обеспечивает последний уровень иерархии, в соответствии с которым структуры в пределах установленных гомологи­ческих групп далее группируются на основании идентичности последова­тельностей. Поиск в БД «КАТ» осуществляют путем направления запросов по ключевым словам через сервер «Биомолекулярных структур и примити­вов моделирования» при «Университетском колледже в Лондоне».

База данных «КАТ» — это база данных белковых структур, которая находится в «Университетском колледже в Лондоне». Подобно принятому в БД «СКОП» принципу классификации, белки БД «КАТ» классифициро­ваны в первую очередь на иерархические уровни по классу (за исключени­ем того, что здесь а/0- и а + /3-белки принадлежат одному классу; вме­сто а 4- /?-белков, четвертый класс «КАТ» включает в себя белки с малым числом вторичных структур). Вслед за классом белки классифицированы по конфигурации, свертке, надсемейству и семейству.
Смешанные базы данных

Смешанными (неоднородными) называют базы данных, которые объ­единяют в себе разнообразные структуры и типы данных из различных первичных источников. Смешанные базы данных выполняют поиск после­довательностей намного эффективнее, потому что они избавлены от необхо­димости опрашивать многочисленные ресурсы. Если смешанная база дан­ных разработана по принципу исключения избыточности, то процесс опроса будет оптимизирован еще больше, так как в этом случае устранена возмож­ность неоднократной проверки одной и той же последовательности.

Для создания смешанных ресурсов могут быть использованы различ­ные стратегии. Конечный продукт зависит от выбранных источников дан­ных и критериев их слияния. Выбор разных источников и применение различных критериев избыточности привел к появлению различных неод­нородных баз данных, каждая из которых имеет свой собственный спе­циальный формат. Главные смешанные базы данных: «ББД» (NRDB Non-Redundant Database — «Безызбыточная база данных»), «АУЛ» (OWL), «МИБП-Х» (MIPSX) и «Свисс-прот+ТрЕЛМБ».

«Безызбыточная база данных» — многоцелевой ресурс, располагающий самой современной информацией. «АУЛ» — безызбыточная база данных белков с приоритетом записей по уровню аннотирования и достоверно­сти последовательностей. База данных «МИБП-Х» содержит исключитель­но информацию об уникальных копиях. Объединенный ресурс «Свисс-прот+ТрЕЛМБ» является одновременно и многоцелевым и минимально из­быточным.
База данных «НДБ»

«НДБ» — база данных структур нуклеиновых кислот (адрес — ndbserver.rutgers.edu/ndb) — собирает и распределяет структурную инфор­мацию о нуклеиновых кислотах. В дополнение к информации относи­тельно нуклеиновых кислот, «НДБ» поддерживает вспомогательную базу данных белков, связывающих ДНК. Имеющаяся информация представлена координатами и структурными факторами, архивом стандартов нуклеино­вых кислот и атласом нуклеиновых кислот, содержащим структуры, кото­рые подчеркивают определенные особенности каждой белковой структуры в «НДБ». Кроме того, «НДБ» предоставляет сведения о собственных кор­реляциях между структурными параметрами.
База данных «КСД»

«КСД» (CSD Cambridge Structural Database — Кембриджская база дан­ных структур) накопляет исчерпывающие структурные данные об органи­ческих и металлоорганических соединениях, полученных с помощью рент-геноструктурного и нейтронографического анализа. Она содержит трех­мерные координаты атомов, а также сопутствующие библиографические, химические и кристаллографические данные. Сервисные средства «КСД» представлены программным обеспечением машинной графики, а также средствами поиска, выборки, обработки и визуального отображения дан­ных.

База данных «БМРБ»

База данных «БМРБ» (BMRB BioMagResBank — «Банк магнитного резонанса биополимеров») содержит данные ЯМР-анализа белков, пептидов и нуклеиновых кислот (www.bmrb.wisc.edu). Она предназначена для поме­щения вспомогательных данных, необходимых для определения ограниче­ний ЯМР и координат, хранящихся в «БДБ». «БМРБ» содержит параметры ЯМР, которые являются мерами гибкости и динамики. Кроме того, она со­держит данные относительно измеренных параметров химических сдвигов ЯМР, а также коэффициенты связи, полярные (ковалентные) связи, значения Т1, значения Т2, гетероциклические значения NOE, величины 52 (парамет­ры упорядочения), скорости водородного обмена и факторы поддержания водородного обмена.
Базы данных «ЗДи» и «КССБ»

«ЗДи» (3Dee) — база данных описаний белковых доменов. База данных «КССБ» (Классификация сверток по выравниваниям структур белков — Fold classification based on Structure-Structure alignment of Proteins, FSSP) постро­ена на автоматических сравнениях (по принципу «все против всех») трех­мерных структур всех записей «БДБ». Выравнивание структур выполнено с помощью программы «ДАЛИ».

База данных «КССБ» является базой данных представительных свер­ток для всех структур из «БДБ». Алгоритм иерархической группировки обрабатывает такие представительные свертки и выстраивает дерево свер­ток на основании выявленных структурных подобий. База данных «КССБ» основана на структурном выравнивании всех попарных сочетаний белков из Брукхейвенской базы данных структур, проведенном с помощью про­граммы выравнивания структур «ДАЛИ».
Прочие базы данных

«База данных молекулярных моделей» («БДММ») — хранилище экспе­риментально определенных структур, извлеченных из «БДБ». Ее организа­ция базируется на концепции связей соседних последовательностей и струк­тур. «БДММ» классифицирует белки с известной структурой, хранящиеся в Брукхейвенском «БДБ», на структурно связанные группы посредством программы выравнивания структур «ВАСТ» (VAST Vector Alignment Search Tool — средство поиска векторных выравниваний). «ВАСТ» вырав­нивает трехмерные структуры путем поиска подобных вариантов взаимно­го расположения элементов вторичной структуры. «БДММ» обеспечивает метод быстрого опознавания всех структур из «БДБ», которые являются статистически необыкновенными.

«База данных консервативных доменов» («БДКД») — (Conserved Domain Database, CDD) — база данных выравниваний консервативных до­менов со ссылками на их трехмерные структуры. «ЧЕМП» (CHAMP Chemico-physical AMino acidic Parameter databank — банк данных физико-химических параметров аминокислот) содержит 32 различные группы физико-химических параметров аминокислот. Он интегрирован с «ФАСТА». «База данных ферментативных реакций» (Enzyme-Reaction Database) свя­зывает химические структуры с аминокислотными последовательностями ферментов, которые распознают эти химические структуры в качестве своих лигандов. Химические структуры и химические названия зарегистрированы в базе данных химических структур по системе MACCS.

Ферменты зарегистрированы в этой базе данных с помощью опозна­вательных кодов записей в формате «НФБИ-РИБ». В этой базе данных последовательности ферментов разделены на группы, а консервативная по­следовательность каждой группы определяется путем множественного вы­равнивания последовательностей. Эти консервативные последовательности используются для построения мотивов.

«Протерм» (ProTherm Thermodynamic Database for Proteins and Mutants — база данных термодинамики белков и мутантов) — собрание численных данных, необходимых для изучения взаимосвязи между струк­турой, стабильностью и функцией белковой молекулы. Она содержит такие термодинамические параметры, как изменение свободной энергии Гиббса при развертывании, изменение энтальпии, изменение теплоемкости, тем­пература (фазового) перехода и т. д. Помимо этого, в «Протерм» помещена информация об активности, вторичной структуре, поверхностной реакцион­ной способности, методах измерения и условиях проведения экспериментов (рН, температура, концентрация буферных ионов и белков). БД «Протерм» связана с базами данных «РИБ», «Свисс-прот», «БДБ», «ПМД» (PMD) и «Пубмед».

База данных «САРФ» (SARF Spatial ARrangement of backbone Fragments — пространственное расположение фрагментов основной цепи) также является базой данных белков, классифицированных на основе струк­турного подобия.
Вторичные базы данных

Средства поиска в первичных базах данных эффективны для опозна­вания подобий последовательностей, но интерпретация результатов поиска иногда затруднена и не всегда дает ответы на некоторые более слож­ные вопросы анализа последовательностей. В таких случаях целесообразно применять программы поиска во вторичных базах данных. В зависимости от типа аналитического метода, на котором построен алгоритм поиска во вторичных базах данных, отношения между объектами могут быть объ­яснены достаточно полно на уровне надсемейств, семейств, подсемейств и видоспецифических последовательностей.

Принцип, положенный в основу развития вторичных баз данных, со­стоит в том, что с помощью множественных выравниваний могут быть об­наружены консервативные мотивы, которые отражают общие структурные или функциональные характеристики последовательностей, составляющих белки. Самый простой подход к распознаванию регулярных комбинаций заключается в том, чтобы характеризовать семейство по единственному консервативному мотиву и сократить данные о последовательности мотива к согласованной последовательности или к образцу регулярного выраже­ния. Регулярные выражения формируют основу базы данных «Просайт» (PROSITE).

Кроме того, было создано большое число вторичных баз данных, ко­торые содержат плоды анализа последовательностей, выуженных из пер­вичных источников. Многие вторичные базы данных, например, «Про­сайт», «Профили» (Profiles), «ПРИНТС» (PRINTS), «Пфам» (Pfam), «Бло­ки» (BLOCKS) и «АЙДЕНТИФАЙ» (IDENTIFY), используют в качестве первичного источника БД «Свисс-прот». База данных «Просайт» хранит ре­гулярные выражения (комбинации); БД «Профили» является хранилищем взвешенных матриц (профилей); в БД «ПРИНТС» находятся выровненные мотивы (индикаторы). БД «Пфам» содержит скрытые марковские модели (СММ). БД «Блок^» хранит выровненные мотивы (блоки), а БД «АЙДЕН­ТИФАЙ» — нечетко регулярные выражения (комбинации).
1   2   3   4   5   6   7   8   9   10   ...   20

Схожі:

Гриби – це одна з найбільших у природі груп організмів. Їх вивченням...
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
*Кроманьйонець
Наука про минуле, що займається вивченням матеріальних предметів (артефактів) діяльності людини
Тема Гриби Загальна характеристика грибів. Різноманітність грибів
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
1 Значення і теоретичні основи фінансового аналізу
Дана спеціальність передбачає вивчення процесів формування і виконання бюджетів різного рівня, механізму управління державним боргом,...
Оповідь, переказ про відоме, досліджене минуле наука, яка займається...
Рід — доісторична і ранньоісторична суспільно-організаційна спільнота, стадія еволюції Етносу, до якої належали кровно пов'язані...
Цієї презентації – Електродинаміка Медико біологічних систем. Створював...
Я, Лесюк Анастасія Юріївна приймала активну участь у класному і позакласному житті Українського медичного ліцею 11-В класу. Писала...
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ПРОГРАМА З МАТЕМАТИКИ для 10 11 класів загальноосвітніх навчальних...
Програма призначена для організації навчання математики в класах з поглибленим вивченням математики. Вона розроблена на основі Державного...
1 Менеджмент при процесному підході – це
Досягнення високого рівня ефективності організації на основі використання знань та навичок підлеглих
Додайте кнопку на своєму сайті:
Портал навчання


При копіюванні матеріалу обов'язкове зазначення активного посилання © 2013
звернутися до адміністрації
bibl.com.ua
Головна сторінка