Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі


Скачати 2.37 Mb.
Назва Біоінформатика наука, що займається вивченням організації та функціонування біологічних систем різного рівня (від молекулярного до популяційного) на основі
Сторінка 6/20
Дата 19.04.2013
Розмір 2.37 Mb.
Тип Документи
bibl.com.ua > Інформатика > Документи
1   2   3   4   5   6   7   8   9   ...   20

«Ансамбль» является совместным проектом «Европейского институ­та биоинформатики» («ЕИБ») и «Сенгеровского центра». Этот проект от­крыт для сотрудничества со всеми заинтересованными организациями. Со­бранные в «Ансамбле» данные включают в себя гены, ПОНы, повторения и гомологии. Эти гены или определены экспериментально, или найдены путем алгоритмического анализа последовательности. Поскольку экспери­ментальное подтверждение аннотации генома человека весьма ненадежно, «Ансамбль» представляет подтверждающие данные для опознавания каж­дого гена. Сервисные средства дают возможность создавать обширную сеть связей с другими, содержащими подобную информацию, базами данных — например «ОМИМ» или баз данных экспрессии.
Специализированные геномные ресурсы

В дополнение к многоцелевым базам данных последовательностей ДНК существует также ряд более специализированных геномных ресурсов.

Цель этих ресурсов состоит в том, чтобы поместить в фокус а) геномику ви­дов или б) специальные методы секвенирования. В качестве примеров таких ресурсов можно привести «СГД» (SGD Saccharomyces Genome Database — база данных генома Сахарных грибов), «БДТ» (TDB TIGR DataBase — база данных «ТИГРа») и «ЭйсДБ» (AceDB). Ниже мы приводим список адресов некоторых баз данных нуклеотидных последовательностей.

EMBL http://www.ebi.ac.uk/embl/index.html

DDBJ http://www.ddbj.nig.ac.jp/

GenBank http://www.ncbi.nlm.nih.gov/GenBank/GenBankover

dbEST http://www.ncbi.nlm.nih.gov/dbEST/

GSDB http://www.ncgr.org/research/sequence/

SGD http://genome-www.stanford.edu/saccharomyces/

UniGene http://www.nebi.nlm.nih.gov/UniGene/

TDB http://www.tigr.org/tdb/tdb.html

AceDB http ://www. Sanger, ac .uk/software/Acedb/

Webace http://www.webace.sanger.ac.uk/

OMIM http://www.ncbi.nlm.nih.gov/omim
Базы данных белковых последовательностей

Большую часть данных о составе аминокислотных последовательно­стей получают путем трансляции соответствующих последовательностей нуклеиновых кислот. Первичная структура белка — это его аминокислотная последовательность; последние хранятся в первичных базах данных в виде линейных строк букв, обозначающих составляющие их остатки. Вторичная структура белка соответствует областям локальной регулярности, которые в выравниваниях последовательностей проявляются часто в виде сильно консервативных мотивов; они хранятся во вторичных базах данных как регулярные комбинации (например, регулярные выражения, индикаторы, блоки, профили и т.д.). Третичная структура белка является результатом упаковки элементов его вторичной структуры, может формировать обособ­ленные домены в пределах общей свертки и может привести к образованию самостоятельных единиц свертки, или модулей, хранимых в базах данных структур в виде наборов координат атомов.

Первым секвенированным белком стал инсулин (1956 г.), последова­тельность которого состоит из 51 остатка. Начиная с 1980 г. научная ли­тература стала все более и более изобиловать информацией о первичных последовательностях. В связи с этим несколько лабораторий начали соби­рать и помещать эти последовательности в центральные хранилища. Также было развито много центров первичных баз данных, расположенных в раз­личных частях мира.

«База данных белковых последовательностей» была создана Маргарет Дейхофф в начале 1960-х гг. (при поддержке «НФБИ» — «Национального фонда биомедицинских исследований», ею же учрежденного в «Джордж-таунском университете»); целью данного ресурса был сбор последователь­ностей для изучения эволюционных связей между белками. С 1988 г. «Ба­за данных белковых последовательностей» обслуживается корпоративной организацией, получившей название «Международный ресурс идентифика­ции белка», или «МРИБ» (PIR-International). В это крупнейшее объединение центров сбора данных о макромолекулярных последовательностях вошли: «Ресурс идентификации белка» («РИБ») при «НФБИ», «Японская между­народная информационная база (данных) белка» («ЯМИББ») и «Мартин-сридский институт белковых последовательностей» («МИБП»). «МИБП» занимается сбором и обработкой данных о последовательностях, помещае­мых в «МРИБ».
Базы данных «РИБ»

Сотрудникам «РИБ» удалось создать эффективную комбинацию про­граммного обеспечения доступа и выборки информации из тщательно адми-нистрируемой базы данных и средств обработки и анализа последователь­ностей. «РИБ» производит также «Интегрированную среду анализа после­довательностей» («ИСАП») — Integrated Environment for Sequence Analysis (IESA). Ее функциональные возможности включают в себя обозрение, по­иск и анализ подобия последовательностей, а также связь с другими базами данных.

«РИБ» поддерживает несколько баз данных белков.

а) PIR-PSD: главная база данных белковых последовательностей.

б) iProclass: классификация белков по структуре и функциям.

в) ASDB: «База данных аннотаций и подобий» («БДАП»); каждая запись
связана со списком подобных последовательностей.


г) P/R-NREF: исчерпывающий безызбыточный ресурс более чем 800000
белковых последовательностей, собранных из всех доступных источ-
ников.


д) NRL-3D: база данных последовательностей и аннотаций белков с из­вестной структурой, хранимых в «Банке данных белка».

ё) ALN: база данных выравниваний белковых последовательностей.

ж) RESID: база данных модификаций структур ковалентных белков.

База данных «РИБ» разделена на четыре разные секции, обозначенные «РИБ1», «РИБ2», «РИБЗ» и «РИБ4». Они отличаются качеством данных и уровнем аннотирования: «РИБ1» содержит полностью классифициро­ванные и аннотированные записи; в «РИБ2» помещены предварительные записи, которые не были полностью просмотрены и, возможно, содержат избыточную информацию; «РИБЗ» представлен непроверенными записями, которые еще не были просмотрены; наконец, записи «РИБ4» подпадают под одну из следующих четырех категорий: 1) смысловые трансляции синтети­ческих последовательностей, 2) смысловые трансляции последовательно­стей, которые не транскрибируются или не транслируются клеткой, 3) по­следовательности белков или смысловые трансляции, которые интенсивно используются в генной инженерии и 4) последовательности, которые не ко­дируются геномом и не синтезируются рибосомами. В систему управления БД «РИБ» встроены программы выборки данных и поиска последователь­ностей через домашнюю веб-страницу «НФБИ-РИБ».
«Свисс-прот»

Плодотворное сотрудничество «Швейцарского института биоинформа­тики» («ШИБ») с «Библиотекой данных ЕЛМБ» привело к созданию анно­тированной базы данных аминокислотных последовательностей, названной «Свисс-прот». «Свисс-прот» — администрируемая база данных белковых последовательностей, которая стремится обеспечить аннотации высокого уровня, содержащие описания функций белков и структур их доменов, их посттрансляционных модификаций, вариантов сращения и т. п. с минималь­ным уровнем избыточности и достаточно высоким уровнем интеграции с другими базами данных. БД «Свисс-прот» связана перекрестными ссыл­ками со многими другими ресурсами. По развитию структуры и качеству аннотаций «Свисс-прот» намного опережает многие другие ресурсы белко­вых последовательностей и является предпочтительной базой данных для большинства исследователей.

Записи начинаются с опознавательной строки (ID) и заканчива­ются ограничительным знаком «//». Опознавательные коды в «Свисс-прот» разработаны таким образом, чтобы быть вполне информативными и в то же время достаточно удобными для пользователей; они имеют форму БЕЛОКИСТОЧНИК, где БЕЛОК — аббревиатура, которая обозначает тип белка, а ИСТОЧНИК — название организма. Поскольку опознавательные коды иногда могут изменяться, записи снабжены также дополнительным указателем — номером доступа, — который остается постоянным во всех версиях базы данных. Номер доступа расположен в строке АС, которая счи-тывается компьютером. Если в одной строке АС стоят несколько номеров, то наиболее часто используется первый (первичный) номер доступа.

Строки DT обеспечивают информацию о дате занесения последова­тельности в базу данных и дате последнего внесенного изменения. Строка DE (описание) сообщает нам название, под которым данный белок изве­стен в научном мире. Следующие строки дают название гена (GN), вид организма (OS) и его таксономическую классификацию (ОС) в пределах биологического царства. В следующем разделе записи находится список справочных данных; это могут быть сведения из литературы, неопублико­ванная информация, полученная непосредственно из отчетов работ по про­ектам секвенирования, результаты исследований структур или мутагенеза белков и т. д.

За ссылками следуют строки комментариев (СС). Они разделены на те­мы, которые сообщают нам о функции белка, его посттрансляционных мо­дификациях и специфичности к тканям, о его расположении в клетке и т. д. Строки комментариев указывают также на любое известное подобие или от­ношение к определенным семействам белков. Поле комментариев сопрово­ждают строки перекрестных ссылок базы данных (DR). Они обеспечивают связи с другими базами данных биомолекул, включая первичные инфор­мационные ресурсы, вторичные базы данных, специализированные базы данных и т. д.

Сразу после строк DR находится список подходящих ключевых слов (KW), за которым помещен ряд строк FT (характеристик). Строки FT ука­зывают на особенно интересные области последовательности, к которым относятся местные вторичные структуры (например трансмембранных до­менов), участки связывания лигандов, посттрансляционные модификации и т. п. Каждая строка FT содержит ключ, позицию отмеченной характе­ристики в последовательности и комментарий, который может, например, показывать уровень достоверности прилагаемой аннотации.

Последний раздел записи базы данных содержит саму последователь­ность, набранную в строках SQ. Для обозначения аминокислот использован только однобуквенный код. Структура «Свисс-прот» обеспечивает прямой и эффективный алгоритмический доступ к различным информационным полям.

«ТрЕЛМБ»

База данных «ТрЕЛМБ» («Транслированная ЕЛМБ») была разработа­на в 1996 г. как аннотированное компьютером приложение к «Свисс-прот». Эта база данных использует формат «Свисс-прот» и содержит трансляции всех кодирующих последовательностей из «ЕЛМБ». БД «ТрЕЛМБ» разделе­на на две главные секции, обозначенные «СП-ТрЕЛМБ» и «РЕМ-ТрЕЛМБ»; «СП-ТрЕЛМБ» («Свисс-прот ТрЕЛМБ») содержит записи, которые в ко­нечном счете будут включены в «Свисс-прот», но еще не были анноти­рованы вручную; «РЕМ-ТрЕЛМБ» содержит последовательности, которые не предназначены для помещения в «Свисс-прот»; к ним относятся им­муноглобулины и рецепторы Т-клеток, фрагменты длиной менее восьми аминокислот, синтетические последовательности, патентованные последо­вательности, а также трансляции кодонов, которые фактически не кодируют белки.

База данных «ТрЕЛМБ» была разработана для того, чтобы обеспечить очень быстрый доступ к данным о последовательностях, полученным в хо­де работ по различным проектам секвенирования геномов, и при этом не ставить под угрозу качество самой «Свисс-прот», включая туда последова­тельности с недостаточно полным анализом и аннотацией.

База данных «РИБ» — безусловно, самый полный и многоплано­вый ресурс, но качество ее аннотаций все еще относительно низкое. «Свисс-прот» — база данных с развитой структурой, которая обеспечивает превосходные аннотации, но ассортимент ее последовательностей, по срав­нению с «РИБ», относительно беден.

«НРЛ-ЗД»

База данных «НРЛ-ЗД» (NRL-3D) произведена центром «РИБ» и содер­жит последовательности, извлеченные из «Банка данных белка» («БДБ»). Заголовки и биологические источники записей отвечают стандартам но­менклатуры, принятой в «РИБ». В теле записей приведены многочислен­ные библиографические ссылки, а также перекрестные ссылки на записи БД «МЕДЛАЙН» наряду с аннотациями на вторичные структуры, активные участки, участки связывания и модифицированные участки, сопровождае­мыми справочными сведениями об экспериментальных методах, разреше­нии, R-факторе и т. д. В конце приложен список ключевых слов.

«НРЛ-ЗД» является довольно ценным ресурсом, поскольку он обеспе­чивает выборку информации о последовательностях, хранящихся в «БДБ», как посредством запроса по ключевым словам, так и через поиск подобия. Поиск в базе данных «НРЛ-ЗД» может быть проведен с помощью системы выборки «АТЛАС» (ATLAS) — программы информационного поиска во множестве баз данных, специально предназначенной для обеспечения доступа к базам данных последовательностей макромолекул.
1   2   3   4   5   6   7   8   9   ...   20

Схожі:

Гриби – це одна з найбільших у природі груп організмів. Їх вивченням...
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
*Кроманьйонець
Наука про минуле, що займається вивченням матеріальних предметів (артефактів) діяльності людини
Тема Гриби Загальна характеристика грибів. Різноманітність грибів
Гриби – це одна з найбільших у природі груп організмів. Їх вивченням займається спеціальна наука – мікологія ( від грец. «мікос»...
1 Значення і теоретичні основи фінансового аналізу
Дана спеціальність передбачає вивчення процесів формування і виконання бюджетів різного рівня, механізму управління державним боргом,...
Оповідь, переказ про відоме, досліджене минуле наука, яка займається...
Рід — доісторична і ранньоісторична суспільно-організаційна спільнота, стадія еволюції Етносу, до якої належали кровно пов'язані...
Цієї презентації – Електродинаміка Медико біологічних систем. Створював...
Я, Лесюк Анастасія Юріївна приймала активну участь у класному і позакласному житті Українського медичного ліцею 11-В класу. Писала...
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ОБҐРУНТУВАННЯ
Україні проводиться модернізація організації документообігу, зважаючи на функціонування документів у традиційній та електронній формах....
ПРОГРАМА З МАТЕМАТИКИ для 10 11 класів загальноосвітніх навчальних...
Програма призначена для організації навчання математики в класах з поглибленим вивченням математики. Вона розроблена на основі Державного...
1 Менеджмент при процесному підході – це
Досягнення високого рівня ефективності організації на основі використання знань та навичок підлеглих
Додайте кнопку на своєму сайті:
Портал навчання


При копіюванні матеріалу обов'язкове зазначення активного посилання © 2013
звернутися до адміністрації
bibl.com.ua
Головна сторінка