|
Скачати 2.37 Mb.
|
«Ансамбль» является совместным проектом «Европейского института биоинформатики» («ЕИБ») и «Сенгеровского центра». Этот проект открыт для сотрудничества со всеми заинтересованными организациями. Собранные в «Ансамбле» данные включают в себя гены, ПОНы, повторения и гомологии. Эти гены или определены экспериментально, или найдены путем алгоритмического анализа последовательности. Поскольку экспериментальное подтверждение аннотации генома человека весьма ненадежно, «Ансамбль» представляет подтверждающие данные для опознавания каждого гена. Сервисные средства дают возможность создавать обширную сеть связей с другими, содержащими подобную информацию, базами данных — например «ОМИМ» или баз данных экспрессии. Специализированные геномные ресурсы В дополнение к многоцелевым базам данных последовательностей ДНК существует также ряд более специализированных геномных ресурсов. Цель этих ресурсов состоит в том, чтобы поместить в фокус а) геномику видов или б) специальные методы секвенирования. В качестве примеров таких ресурсов можно привести «СГД» (SGD — Saccharomyces Genome Database — база данных генома Сахарных грибов), «БДТ» (TDB — TIGR DataBase — база данных «ТИГРа») и «ЭйсДБ» (AceDB). Ниже мы приводим список адресов некоторых баз данных нуклеотидных последовательностей. EMBL http://www.ebi.ac.uk/embl/index.html DDBJ http://www.ddbj.nig.ac.jp/ GenBank http://www.ncbi.nlm.nih.gov/GenBank/GenBankover dbEST http://www.ncbi.nlm.nih.gov/dbEST/ GSDB http://www.ncgr.org/research/sequence/ SGD http://genome-www.stanford.edu/saccharomyces/ UniGene http://www.nebi.nlm.nih.gov/UniGene/ TDB http://www.tigr.org/tdb/tdb.html AceDB http ://www. Sanger, ac .uk/software/Acedb/ Webace http://www.webace.sanger.ac.uk/ OMIM http://www.ncbi.nlm.nih.gov/omim Базы данных белковых последовательностей Большую часть данных о составе аминокислотных последовательностей получают путем трансляции соответствующих последовательностей нуклеиновых кислот. Первичная структура белка — это его аминокислотная последовательность; последние хранятся в первичных базах данных в виде линейных строк букв, обозначающих составляющие их остатки. Вторичная структура белка соответствует областям локальной регулярности, которые в выравниваниях последовательностей проявляются часто в виде сильно консервативных мотивов; они хранятся во вторичных базах данных как регулярные комбинации (например, регулярные выражения, индикаторы, блоки, профили и т.д.). Третичная структура белка является результатом упаковки элементов его вторичной структуры, может формировать обособленные домены в пределах общей свертки и может привести к образованию самостоятельных единиц свертки, или модулей, хранимых в базах данных структур в виде наборов координат атомов. Первым секвенированным белком стал инсулин (1956 г.), последовательность которого состоит из 51 остатка. Начиная с 1980 г. научная литература стала все более и более изобиловать информацией о первичных последовательностях. В связи с этим несколько лабораторий начали собирать и помещать эти последовательности в центральные хранилища. Также было развито много центров первичных баз данных, расположенных в различных частях мира. «База данных белковых последовательностей» была создана Маргарет Дейхофф в начале 1960-х гг. (при поддержке «НФБИ» — «Национального фонда биомедицинских исследований», ею же учрежденного в «Джордж-таунском университете»); целью данного ресурса был сбор последовательностей для изучения эволюционных связей между белками. С 1988 г. «База данных белковых последовательностей» обслуживается корпоративной организацией, получившей название «Международный ресурс идентификации белка», или «МРИБ» (PIR-International). В это крупнейшее объединение центров сбора данных о макромолекулярных последовательностях вошли: «Ресурс идентификации белка» («РИБ») при «НФБИ», «Японская международная информационная база (данных) белка» («ЯМИББ») и «Мартин-сридский институт белковых последовательностей» («МИБП»). «МИБП» занимается сбором и обработкой данных о последовательностях, помещаемых в «МРИБ». Базы данных «РИБ» Сотрудникам «РИБ» удалось создать эффективную комбинацию программного обеспечения доступа и выборки информации из тщательно адми-нистрируемой базы данных и средств обработки и анализа последовательностей. «РИБ» производит также «Интегрированную среду анализа последовательностей» («ИСАП») — Integrated Environment for Sequence Analysis (IESA). Ее функциональные возможности включают в себя обозрение, поиск и анализ подобия последовательностей, а также связь с другими базами данных. «РИБ» поддерживает несколько баз данных белков. а) PIR-PSD: главная база данных белковых последовательностей. б) iProclass: классификация белков по структуре и функциям. в) ASDB: «База данных аннотаций и подобий» («БДАП»); каждая запись связана со списком подобных последовательностей. г) P/R-NREF: исчерпывающий безызбыточный ресурс более чем 800000 белковых последовательностей, собранных из всех доступных источ- ников. д) NRL-3D: база данных последовательностей и аннотаций белков с известной структурой, хранимых в «Банке данных белка». ё) ALN: база данных выравниваний белковых последовательностей. ж) RESID: база данных модификаций структур ковалентных белков. База данных «РИБ» разделена на четыре разные секции, обозначенные «РИБ1», «РИБ2», «РИБЗ» и «РИБ4». Они отличаются качеством данных и уровнем аннотирования: «РИБ1» содержит полностью классифицированные и аннотированные записи; в «РИБ2» помещены предварительные записи, которые не были полностью просмотрены и, возможно, содержат избыточную информацию; «РИБЗ» представлен непроверенными записями, которые еще не были просмотрены; наконец, записи «РИБ4» подпадают под одну из следующих четырех категорий: 1) смысловые трансляции синтетических последовательностей, 2) смысловые трансляции последовательностей, которые не транскрибируются или не транслируются клеткой, 3) последовательности белков или смысловые трансляции, которые интенсивно используются в генной инженерии и 4) последовательности, которые не кодируются геномом и не синтезируются рибосомами. В систему управления БД «РИБ» встроены программы выборки данных и поиска последовательностей через домашнюю веб-страницу «НФБИ-РИБ». «Свисс-прот» Плодотворное сотрудничество «Швейцарского института биоинформатики» («ШИБ») с «Библиотекой данных ЕЛМБ» привело к созданию аннотированной базы данных аминокислотных последовательностей, названной «Свисс-прот». «Свисс-прот» — администрируемая база данных белковых последовательностей, которая стремится обеспечить аннотации высокого уровня, содержащие описания функций белков и структур их доменов, их посттрансляционных модификаций, вариантов сращения и т. п. с минимальным уровнем избыточности и достаточно высоким уровнем интеграции с другими базами данных. БД «Свисс-прот» связана перекрестными ссылками со многими другими ресурсами. По развитию структуры и качеству аннотаций «Свисс-прот» намного опережает многие другие ресурсы белковых последовательностей и является предпочтительной базой данных для большинства исследователей. Записи начинаются с опознавательной строки (ID) и заканчиваются ограничительным знаком «//». Опознавательные коды в «Свисс-прот» разработаны таким образом, чтобы быть вполне информативными и в то же время достаточно удобными для пользователей; они имеют форму БЕЛОКИСТОЧНИК, где БЕЛОК — аббревиатура, которая обозначает тип белка, а ИСТОЧНИК — название организма. Поскольку опознавательные коды иногда могут изменяться, записи снабжены также дополнительным указателем — номером доступа, — который остается постоянным во всех версиях базы данных. Номер доступа расположен в строке АС, которая счи-тывается компьютером. Если в одной строке АС стоят несколько номеров, то наиболее часто используется первый (первичный) номер доступа. Строки DT обеспечивают информацию о дате занесения последовательности в базу данных и дате последнего внесенного изменения. Строка DE (описание) сообщает нам название, под которым данный белок известен в научном мире. Следующие строки дают название гена (GN), вид организма (OS) и его таксономическую классификацию (ОС) в пределах биологического царства. В следующем разделе записи находится список справочных данных; это могут быть сведения из литературы, неопубликованная информация, полученная непосредственно из отчетов работ по проектам секвенирования, результаты исследований структур или мутагенеза белков и т. д. За ссылками следуют строки комментариев (СС). Они разделены на темы, которые сообщают нам о функции белка, его посттрансляционных модификациях и специфичности к тканям, о его расположении в клетке и т. д. Строки комментариев указывают также на любое известное подобие или отношение к определенным семействам белков. Поле комментариев сопровождают строки перекрестных ссылок базы данных (DR). Они обеспечивают связи с другими базами данных биомолекул, включая первичные информационные ресурсы, вторичные базы данных, специализированные базы данных и т. д. Сразу после строк DR находится список подходящих ключевых слов (KW), за которым помещен ряд строк FT (характеристик). Строки FT указывают на особенно интересные области последовательности, к которым относятся местные вторичные структуры (например трансмембранных доменов), участки связывания лигандов, посттрансляционные модификации и т. п. Каждая строка FT содержит ключ, позицию отмеченной характеристики в последовательности и комментарий, который может, например, показывать уровень достоверности прилагаемой аннотации. Последний раздел записи базы данных содержит саму последовательность, набранную в строках SQ. Для обозначения аминокислот использован только однобуквенный код. Структура «Свисс-прот» обеспечивает прямой и эффективный алгоритмический доступ к различным информационным полям. «ТрЕЛМБ» База данных «ТрЕЛМБ» («Транслированная ЕЛМБ») была разработана в 1996 г. как аннотированное компьютером приложение к «Свисс-прот». Эта база данных использует формат «Свисс-прот» и содержит трансляции всех кодирующих последовательностей из «ЕЛМБ». БД «ТрЕЛМБ» разделена на две главные секции, обозначенные «СП-ТрЕЛМБ» и «РЕМ-ТрЕЛМБ»; «СП-ТрЕЛМБ» («Свисс-прот ТрЕЛМБ») содержит записи, которые в конечном счете будут включены в «Свисс-прот», но еще не были аннотированы вручную; «РЕМ-ТрЕЛМБ» содержит последовательности, которые не предназначены для помещения в «Свисс-прот»; к ним относятся иммуноглобулины и рецепторы Т-клеток, фрагменты длиной менее восьми аминокислот, синтетические последовательности, патентованные последовательности, а также трансляции кодонов, которые фактически не кодируют белки. База данных «ТрЕЛМБ» была разработана для того, чтобы обеспечить очень быстрый доступ к данным о последовательностях, полученным в ходе работ по различным проектам секвенирования геномов, и при этом не ставить под угрозу качество самой «Свисс-прот», включая туда последовательности с недостаточно полным анализом и аннотацией. База данных «РИБ» — безусловно, самый полный и многоплановый ресурс, но качество ее аннотаций все еще относительно низкое. «Свисс-прот» — база данных с развитой структурой, которая обеспечивает превосходные аннотации, но ассортимент ее последовательностей, по сравнению с «РИБ», относительно беден. «НРЛ-ЗД» База данных «НРЛ-ЗД» (NRL-3D) произведена центром «РИБ» и содержит последовательности, извлеченные из «Банка данных белка» («БДБ»). Заголовки и биологические источники записей отвечают стандартам номенклатуры, принятой в «РИБ». В теле записей приведены многочисленные библиографические ссылки, а также перекрестные ссылки на записи БД «МЕДЛАЙН» наряду с аннотациями на вторичные структуры, активные участки, участки связывания и модифицированные участки, сопровождаемыми справочными сведениями об экспериментальных методах, разрешении, R-факторе и т. д. В конце приложен список ключевых слов. «НРЛ-ЗД» является довольно ценным ресурсом, поскольку он обеспечивает выборку информации о последовательностях, хранящихся в «БДБ», как посредством запроса по ключевым словам, так и через поиск подобия. Поиск в базе данных «НРЛ-ЗД» может быть проведен с помощью системы выборки «АТЛАС» (ATLAS) — программы информационного поиска во множестве баз данных, специально предназначенной для обеспечения доступа к базам данных последовательностей макромолекул. |
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням... Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»... |
*Кроманьйонець Наука про минуле, що займається вивченням матеріальних предметів (артефактів) діяльності людини |
Тема Гриби Загальна характеристика грибів. Різноманітність грибів Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»... |
1 Значення і теоретичні основи фінансового аналізу Дана спеціальність передбачає вивчення процесів формування і виконання бюджетів різного рівня, механізму управління державним боргом,... |
Оповідь, переказ про відоме, досліджене минуле наука, яка займається... Рід — доісторична і ранньоісторична суспільно-організаційна спільнота, стадія еволюції Етносу, до якої належали кровно пов'язані... |
Цієї презентації – Електродинаміка Медико біологічних систем. Створював... Я, Лесюк Анастасія Юріївна приймала активну участь у класному і позакласному житті Українського медичного ліцею 11-В класу. Писала... |
ОБҐРУНТУВАННЯ Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах.... |
ОБҐРУНТУВАННЯ Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах.... |
ПРОГРАМА З МАТЕМАТИКИ для 10 11 класів загальноосвітніх навчальних... Програма призначена для організації навчання математики в класах з поглибленим вивченням математики. Вона розроблена на основі Державного... |
1 Менеджмент при процесному підході – це Досягнення високого рівня ефективності організації на основі використання знань та навичок підлеглих |