авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Анализ масс-спектров пептидных фрагментов для идентификации генетически детерминированного полиморфизма белков

На правах рукописи

Чернобровкин Алексей Леонидович АНАЛИЗ МАСС-СПЕКТРОВ ПЕПТИДНЫХ ФРАГМЕНТОВ ДЛЯ ИДЕНТИФИКАЦИИ ГЕНЕТИЧЕСКИ ДЕТЕРМИНИРОВАННОГО ПОЛИМОРФИЗМА БЕЛКОВ 03.01.09 математическая биология, биоинформатика

АВТОРЕФЕРАТ

диссертации на соискание учёной степени кандидата биологических наук

Москва 2012

Работа выполнена в Федеральном государственном бюждетном учреждении Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича Российской академии медицинских наук.

доктор биологических наук,

Научный консультант:

член-корреспондент РАМН, Лисица А. В.

Официальные оппоненты: Николаев Е. Н.

доктор физико-математических наук, профессор, ФГБУН ИНЭПХФ РАН, заведующий лабораторией Равин Н. В.

доктор биологических наук, ФГБУН Центр Биоинженерия РАН, заместитель директора по научной работе ФГУ Научно-исследовательский

Ведущая организация:

институт физико-химической медицины ФМБА России

Защита состоится 12 апреля 2012 года в 11 ч. 00 мин. на заседании Диссертационного совета Д 001.010.01 при Федеральном государственном бюждетном учреждении Научно-исследовательский институт биомедицинской химии имени В.Н.Ореховича Российской академии медицинских наук по адресу: 119121, г. Москва, ул. Погодинская, д. 10, стр. 8.

С диссертацией можно ознакомиться в библиотеке ФГБУ ИБМХ РАМН.

Автореферат разослан 2012.

Учёный секретарь Диссертационного совета кандидат химических наук Карпова Е.А.

1.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

1.1. Актуальность проблемы В генах человека известно 65 тысяч замен единичных нуклеотидных остатков (Single Nucleotide Polymorphism, SNP), являющихся несинонимич ными, то есть потенциально приводящих к точечным заменам в амино кислотной последовательности белка [Yip и др., 2008]. По данным ресурса UniProt менее 1% точечных замен аминокислотных остатков установле но экспериментальным путем, например, методом Сэнжера или белковой хроматографией. Развитие биологической масс-спектрометрии как сред ства высокопроизводительного анализа протеомов открывает перспективы для подтверждения наличия в белках одноаминокислотных полиморфиз мов (ОАП).

В рамках центральной догмы молекулярной биологии наличие неси нонимичного SNP в гене предопределяет, что в белковом продукте гена будет присутствовать соответствующая замена аминокислотного остатка.

Однако, генотипирование не позволяет установить, влияет ли точечное изменение в последовательности ДНК на уровень экспрессии белкового продукта. В литературе имеются единичные сведения о соотношении уров ня экспрессии продуктов аллельных генов, тогда как определение этого соотношения расширяет представления о природе слабовредных генетиче ских мутаций, лежащих в основе соматических мультигенных заболева ний [Roth и др., 2008].

Исследование индивидуальных особенностей протеома, в частности полиморфизма аминокислотных остатков, является задачей протеотипиро вания. Термин предложен по аналогии с генотипированием молекул ДНК для обозначения экспериментов по изучению микрогетерогенности белков, обусловленной альтернативным сплайсингом, пост-трансляционными мо дификациями, а также полиморфизмом аминокислотных остатков. В свое время, задача генотипирования была решена за счет биологической ре акции полимеризации молекул ДНК. В отношении белков аналогичный подход в настоящее время не известен, поэтому информацию об ОАП целесообразно получать с помощью физического похода, основанного на высокоточном измерении масс-зарядных характеристик белков и их фраг ментов.

Основным методом, применяемым для исследования протеома, яв ляется масс-спектрометрический анализ белковых молекул. Идентифи кация белков проводится алгоритмически, путем сопоставления масс и зарядов продуктов ферментативного гидролиза белков с теоретиче скими значениями, вычисленными на основе расшифрованного генома [Govorun и др., 2002]. При масс-спектрометрическом анализе белок счи тается идентифицированным, если установлено 1–2 специфичных пептид ных фрагмента первичной структуры. По пептидным фрагментам после довательности удается различить белковые продукты разных генов, но отнюдь не установить микрогетерогенные варианты одного и того же белка.

Специфичные для аллельных форм пептидные фрагменты (протеотипи ческие пептиды [Craig и др., 2005]) с высокой вероятностью приходятся на неустановленную в ходе масс-спектрометрического эксперимента часть последовательности белка. Если же протеотипический пептид находится в идентифицируемой части последовательности, то наличие аллельного варианта трансляции гена вносит неоднозначность в интерпретацию масс спектрометрических данных.

Принципиальная проблема в области протеотипирования заключает ся в недостаточном покрытии пептидными фрагментами последователь ностей белков, идентифицируемых масс-спектрометрическими методами.

Масштаб обозначенной проблемы таков: сегодня стандартные эксперимен тальные и биоинформационные подходы обеспечивают 10–30% покрытия, а для идентификации ОАП необходимо достичь 100%. Решение возможно за счет обработки обширных репозиториев масс-спектрометрических данных, то есть коллекций, полученных разными исследовательскими группами при варьировании условий проведения экспериментов. Настоящая работа направлена на разработку вычислительного подхода к решению проблемы определения ОАП в белках.

Целью работы являлась разработка способа анализа масс спектрометрических данных для идентификации единичных аминокис лотных полиморфизмов, возникающих в результате трансляции несино нимичных нуклеотидных замен в соответствующих генах, и применение разработанного способа для выявления аминокислотных замен в белках человека.

Для достижения поставленной цели решались следующие задачи:

1. Провести обработку масс-спектров пептидных фрагментов для по вышения степени покрытия аминокислотных последовательностей белков идентифицированными пептидами.

2. На модельном наборе масс-спектрометрических данных, обеспечива ющих высокую степень покрытия последовательностей, разработать метод выявления одноаминокислотных замен в белках человека.

3. Обобщить метод выявления одноаминокислотных замен в форме уни версального алгоритма обработки тандемных масс-спектров;

оценить чувствительность и специфичность созданного алгоритма.

4. Применить созданный алгоритм для обработки репозитория масс спектрометрических данных, определить одноаминокислотные поли морфизмы и охарактеризовать белки человека, содержащие выявлен ные полиморфизмы.

1.2. Научная новизна и практическая значимость Для выявления в белках аминокислотных полиморфизмов разрабо тан оригинальный итеративный метод, основанный на последовательном применении существующих алгоритмов идентификации белков и пептидов.

Особенностью разработанного метода является то, что в процессе иденти фикации ОАП в базу данных аминокислотных последовательностей белков итеративно вносятся изменения, учитывающие сведения о наличии несино нимичных нуклеотидных замен в соответствующих идентифицированным белкам генах (патент РФ №2408011).

C помощью анализа масс-спектрометрических данных на протеомном уровне обнаружена экспрессия аллельных вариантов белков надсемейства цитохромов P450 человека. Впервые проведена масштабная инвентариза ция одноаминокислотных полиморфизмов белков человека. В результате установлено 270 одноаминокислотных полиморфизмов в 156 белках чело века.

Среди выявленных одноаминокислотных полиморфизмов более 20% связаны с различными заболеваниями человека, включая сердечно сосудистые, онкологические и другие заболевания. Обнаруженные протео типические пептиды, характерные для связанных с заболеваниями мик рогетерогенными вариантами белков человека, могут быть использованы для выявления диагностических биомаркеров методом мониторинга мно жественных реакций (MRM).

1.3. Апробация работы Основные положения диссертационной работы докладывались и об суждались на международной конференции Central and Eastern European Proteomics Conference (Йена, Германия, 2008), на научной конференции Химическая биология. Фундаментальные проблемы бионанотехнологии (Новосибирск, 2009), а так же на 8-м Ежегодном всемирном конгрессе Международной организации Протеом человека (HUPO 8-th Annual World Congress, Торонто, Канада, 2009).

1.4. Публикации Материалы диссертационной работы изложены в 7 публикациях: в статьях, в 1 патенте, в 3 публикациях в материалах сборников научных конференций.

1.5. Объем и структура диссертации Диссертация изложена на 189 страницах машинописного текста;

со держит 27 рисунков и 11 таблиц. Состоит из глав Введение, Обзор литературы, Материалы и методы, Результаты и обсуждение, За ключение, Выводы и Список литературы ;

включает 2 приложения.

2. МАТЕРИАЛЫ И МЕТОДЫ 2.1. Данные масс-спектрометрического анализа микросомаль ных фракций печени человека Исследование масс-спектрометрических методов для решения за дачи идентификации ОАП проводили с использованием массива масс спектрометрических данных, полученных при протеомном анализе мик росомальных фракций печени человека [Lisitsa и др., 2009]. Масс спектрометрические данные представляли собой 800 файлов в формате peaklist.xml (4 образца, по 40 срезов каждый, 5 повторов на срез). Файлы содержали откалиброванные по пикам аутолиза трипсина масс-спектры, полученные на времяпролетном масс-спектрометре Autoex II (Bruker Daltonics, Germany). Также использовали 160 файлов в формате mgf ( образца по 40 срезов), содержащих тандемные масс-спектры, полученные на масс-спектрометре типа ионная ловушка LC/MSD Trap (Agilent, USA).

2.2. Контрольный набор Aurum Dataset Для анализа чувствительности и специфичности алгоритма иден тификации одноаминокислотных полиморфизмов использовали масс спектрометрические данные Aurum Dataset, полученные в работе [Falkner и др., 2007]. Данные включают в себя результаты масс спектрометрических экспериментов, выполненных на ABI 4700 MALDI TOF/TOF (Applied Biosystems, USA) для 246 индивидуально очищенных рекомбинантных белков человека. Данные были загружены из протеомного репозитория Tranche в форматах.t2d и MGF. В работе использовали свод ный масс-спектр aurum.mgf, содержащий в общей сложности 9987 масс спектров пептидных фрагментов.

2.3. Масс-спектрометрические данные протеомного репозито рия PRIDE Файлы протеомного репозитория PRIDE в формате mzData загру жали c ftp-сайта PRIDE по адресу ftp://ftp.ebi.ac.uk/pub/databases/pride/.

Всего было загружено 9317 файлов общим объемом 270 ГБ. Для анализа был отобран 1891 файл, в которых содержались результаты масс-спектрометрических исследований образцов биоматериала человека (TaxID=9606).

2.4. Базы данных аминокислотных последовательностей белков человека Базу данных NCBInr использовали для идентификации белков микросомальной фракции печени человека. База данных в формате FASTA была загружена с ftp-сайта NCBI по адресу ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz. На момент загрузки (март 2010 года) в базе данных содержалось более 10 млн. аминокислотных последовательностей белков, из которых 518 609 записей соответствовали белкам человека.

Базу данных SwissProt использовали для идентификации белков че ловека по масс-спектрам протеомного репозитория PRIDE, а так же для валидации алгоритма идентификации ОАП. Аминокислотные последова тельности белков в формате fasta были загружены с ftp-сайта UniProt по адресу ftp://fpt.uniprot.org/pub/databases/uniprot. Загруженная в мар те 2010 года база данных SwissProt содержала 516 081 аминокислотных последовательностей, из которых 20 280 последовательностей относились к белкам человека.

2.5. Сведения о генетически-детерминированных полиморфиз мах белков человека Сведения о возможных полиморфизмах белков человека загру жали из базы данных UniProt в виде текстового файла humsavar.txt (http://www.uniprot.org/docs/humsavar.txt). В файле содержались резуль таты предсказания аминокислотных полиморфизмов, полученные путем компьютерной трансляции несинонимичных нуклеотидных замен в гено ме человека, а так же небольшое число (1%) аминокислотных поли морфизмов, ранее обнаруженных на протеомном уровне. Всего в файле humsavar.txt было описано 62 053 одноаминокислотных полиморфизма для 12 229 белков человека, из них 19 868 (32%) связаны с различными заболе ваниями, 36480 (59%) не имеют ассоциаций с заболеваниями, а 5 705 (9%) мутаций не классифицированы.

2.6. Идентификация белков и пептидов Идентификацию белков методом отпечатков пептидных масс (Peptide Mass Fingerprinting, PMF) осуществляли в программе Mascot v.2. (MatrixScience, UK). Для определения оптимального значения допуска на расхождение между теоретической и экспериментальной массой пептида (peptide mass tolerance), идентификацию белков в каждом масс-спектре проводили, варьируя значение допуска от 0,02 до 0,40 Да. Для иденти фикации пептидов и белков методом отпечатков фрагментации пептидов (Peptide Fragment Fingerprint, PFF) использовали программу Mascot v.2. для поиска по базам данных NCBInr (при анализе масс-спектров мик росомальных белков фракций печени человека) и SwissProt (при анали зе масс-спектров протеомного репозитория PRIDE). Параметры работы программы Mascot определяли в зависимости от типа масс-спектрометра, с помощью которого были проведены измерения. В случае масс-спектров, полученных с помощью ионной ловушки, значение допуска на расхождение между теоретической и экспериментальной массой пептида устанавливали равным 200 м. д., допуск на расхождение между теоретической и экспери ментальной массой пептидного фрагмента 0,8 Да. В качестве допустимых модификаций аминокислотных остатков указывали окисление метионина и модификацию цистеина акриламидом. При проведении идентификации допускалось не более одного пропущенного сайта гидролиза на пептид.

2.7. Одномерное протеомное картирование Для определения локализации идентифицированных белков в одно мерном геле использовали метод построения протеомных карт [Lisitsa и др., 2009]. Данные (масс-спектры и результаты идентификации) представ ляли в виде таблицы, строки которой соответствовали отдельным белкам (или их группам), идентифицированным в образце, а столбцы после довательным срезам геля. С применением специально разработанной про граммы Zoomer (projects.ibmh.msk.su/zoomer) в ячейках одномерной про теомной карты рассчитывали индексы представленности белка [Ishihama и др., 2005]. Ячейки, в которых значения индексов более чем на одно стандартное отклонение превышали среднее по всем срезам, определяли как зону локализации белка.

2.8. Итеративный алгоритм идентификации ОАП Для идентификации ОАП в масс-спектрометрических данных приме няли итеративный алгоритм, блок-схема которого представлена на рис. 1.

Идентификацию пептидов и белков в масс-спектрах проводили с исполь зованием программы Mascot. Из отчетов о результатах идентификации извлекали идентификаторы обнаруженных белков, которые использова ли для формирования дополнительных последовательностей, содержащих предполагаемые одноаминокислотные полиморфизмы, в соответствии с ба зой данных полиморфизмов (humsavar.txt, UniProt). На основании сгенери рованных дополнительных последовательностей создавали расширенную базу данных белковых последовательностей, которую использовали при повторной идентификации пептидов и белков, используя те же входные параметры и программное обеспечение, что и на первом этапе. Результаты повторной идентификации пептидов и белков анализировали на наличие протеотипических пептидов, содержащих одноаминокислотные полимор физмы.

2.9. Валидация алгоритма идентификации ОАП Для определения чувствительности и специфичности алгоритма ис пользовали контрольный набор масс-спектрометрических данных Aurum Dataset. Так как в белках, масс-спектры которых представлены в Aurum dataset, отсутствовали ОАП, то проводили моделирование, внося измене ния в исходные аминокислотные последовательности. Для создания мо Рис. 1: Итеративный метод идентифицирования ОАП, (*) обозначены элементы блок-схемы, отличающие разработанный алгоритм от аналогов [Chen и др., 2010;

Alves и др., 2008].

дели, содержащей один истинный ОАП1 x y в белке A, на основе аминокислотных последовательностей базы данных SwissProt создавали модифицированную базу данных белков человека, в которой изменяли последовательность белка A на последовательность A, содержащую за данный полиморфизм x y. Одновременно в файл с данными о полимор физмах белков человека вносили запись, соответствующую полиморфизму y x. Для каждого истинного ОАП случайным образом вносили один ложный ОАП в качестве отрицательного контроля.

При построении модели, содержащей N истинных ОАП и N ложных (отрицательный контроль), из списка 225 идентифицированных белков слу чайным образом отбирали сначала N белков для истинных ОАП, потом та ким же образом N белков для ложных ОАП (выборки белков для истинных и ложных ОАП могут пересекаться). Затем, для каждого из отобранных белков из базы данных UniProt получали сведения об известных ОАП, из которых отбирали случайным образом один ОАП.

истинный ОАП соответствует известному несинонимичному SNP.

Для каждой модели осуществляли идентификацию ОАП с помощью итеративного алгоритма, описанного в разделе 2.8. После этого в моделях определяли количество T PN истинно положительных результатов иден тификации ОАП, и количествоT NN истинно отрицательных результатов.

Далее, так как по условиям моделирования общее количество привнесен ных истинных ОАП равно количеству привнесенных ложных ОАП, то значения чувствительности (SN ) и специфичности (SP ) рассчитывали по формулам:

SNN = T PN /N, (1) SPN = T NN /N. (2) 3. РЕЗУЛЬТАТЫ 3.1. Идентификация высокогомологичных белков Идентификацию высокогомологичных белков провели на примере масс-спектрометрических данных, полученных при протеомном исследова нии микросомальных фракций печени человека. Белки идентифицировали последовательно в каждом из 40 срезов одномерного геля, соответствую щих диапазону молекулярных масс белков от 46 до 62 кДа.

Для увеличения степени покрытия аминокислотной последовательно сти белков, использовали метод одномерного протеомного картирования.

На одномерной карте визуализировали распределение близких по массе белков в одномерном геле, а так же определить область в геле, в которой преимущественно локализован белок (рис. 2).

3.1.1. Исследование белков в срезах одномерного геля Идентификацию белков в каждом срезе одномерного геля осуществ ляли с использованием двух методов: анализ отпечатков пептидных масс и анализ отпечатков фрагментации пептидов. В диапазоне масс от 52, до 62,5 кДа, соответствующем молекулярным массам цитохромов P человека, было идентифицировано 18 микросомальных белков, в число которых, помимо цитохромов P450 (CYP), вошли актин (Actin), микросо мальная эпоксидгидролаза (EPOX) и карбоксилэстераза (CES). Из 20 экс прессируемых в клетках печени цитохромов P450, при анализе срезов были идентифицированы 12 белков, в том числе представители подсемейств 1A, 1B, 2A, 2C, 2D, 2E, 3A, 4A и 4F. Так как белки в пределах подсемейств об ладают высокой степенью сходства аминокислотных последовательностей, то при анализе масс-спектров в программе идентификации (Mascot) гомо логичные белки идентифицировались за счет наблюдения эквивалентного набора масс-спектрометрических пиков (пептидов). Поэтому, для достовер ной идентификации высокогомологичных белков требовалось обнаружить уникальные для конкретного белка протеотипические пептиды.

Рис. 2: Снимок экрана программы Zoomer, на котором представлена одномерная протеомная карта распределения белков (колонка Protein) микросомальной фракции печени человека по срезам одномерного геля (колонки Slices). Белки отсортированы по убыванию молекулярной массы. Фоном выделены срезы, относящиеся к зоне локализации соответствующего белка (группы белков). Значения в ячейках соответствуют количеству пептидов белка, обнаружен ных в срезе. Прямоугольником обозначена зона локализации цитохромов P450 подсемейства CYP3A.

3.1.2. Повышение степени покрытия аминокислотной последо вательности белков В результате протеомного картирования была создана двухмерная диаграмма распределения идентифицированных белков в срезах одно мерного геля. На карте белки, относящиеся к различным подсемействам цитохромов P450, были пространственно разделены (рис. 2). С помощью построения одномерных протеомных карт определяли зону локализации цитохромов CYP4F2, CYP4A11, CYP2E1, CYP2D6, для которых нет близ ких гомологов (со степенью сходства аминокислотных последовательностей более 60%). Также на карте обозначали зоны локализации групп высоко гомологичных белков, соответствующих подсемействам цитохромов P CYP3A, CYP2A и CYP2C.

Зона локализации для (сгруппированных по гомологии) белков пред ставляли собой последовательности из 1-5 соседних срезов. Как показано на рисунке 2, флавин-содержащая монооксигеназа (FMO3) локализована в двух срезах №25 и №26, а зона локализации эпоксид-гидролазы (EPOX) начинается со среза №32 и продолжается до среза №36. Если говорить о группах белков, то можно отметить, например, что формы ферментов подсемейства CYP3А локализованы на одномерной карте в зоне с 30-го по 31-й срез.

Объединение масс-спектрометрических данных в пределах зон лока лизации позволило увеличить степень покрытия аминокислотной последо вательности идентифицированных белков. Как показано в таблице 1, та кое объединение при анализе времяпролетных масс-спектров увеличивало степень покрытия последовательности группы CYP3A до 58%, при этом максимальная степень покрытия последовательности в отдельном срезе составляла всего 38%. Такой же эффект был достигнут и для тандемных масс-спектров для CYP3A степень покрытия последовательности воз росла с 29% до 40%. Общее увеличение степени покрытия последователь ности группы CYP3A за счет применения двух масс-спектрометрических методов и агрегации данных в пределах зон локализации составило 27%.

Это позволило довести степень покрытия последовательности CYP3A до уровня 65%.

Повышение степени покрытия аминокислотной последовательности белков позволило подтвердить идентификацию отдельных высокогомоло гичных цитохромов P450. Так, были достоверно идентифицированы белки CYP3A4, CYP3A5 и CYP3A43, степень сходства аминокислотных последо вательностей которых превышает 80%. Кроме того, были выявлены пепти ды, позволяющие дифференциально идентифицировать белки, входящие в подсемейства CYP2A и CYP2C, обладающие гомологией 94% и 91%, соответственно.

Таблица 1: Повышение степени покрытия аминокислотной последовательности белка за счет агрегации масс-спектрометрических данных в пределах диапазона представленности белка.

CYP цитохромы P450, UDPGT УДФ-глюкуронозилтрансфераза, EPOX эпоксидгид ролаза. PMF, PFF методы идентификации по отпечаткам пептидных масс и отпечаткам фрагментации пептидов, соответственно.

Максимальное покры- Суммарное покрытие тие последовательности последовательности в Белок в отдельном срезе, % зоне локализации, % PMF + PMF + PMF PFF PMF PFF PFF PFF CYP2A6/7/8 38 30 48 50 35 CYP3A4/5/7 38 29 51 58 40 UDPGT 23 21 37 33 31 CYP2E1 22 30 44 28 44 EPOX 35 41 48 50 52 3.1.3. Идентификация ОАП в белках подсемейства CYP3A ци тохромов P450 человека Сведения о полиморфных вариантах и мутациях в генах CYP3A загружали из ресурсов www.cypalleles.ki.se и www.pharmgkb.org. Из известных однонуклеотидных замен 23 могут приводить к одноаминокис лотным полиморфизмам в белке CYP3A4, 12 в CYP3A5, и только одна мутация может транслироваться в ОАП цитохрома CYP3A43.

Для каждого из белков подсемейства CYP3A генерировали альтер нативные последовательности, содержащие ОАП. Из масс-спектров сре зов одномерного геля, соответствующих зоне локализации группы белков CYP3A, отбирали такие масс-спектрометрические пики (значения m/z), ко торые отсутствуют в масс-спектрах других срезов геля. Также проверяли, что отсутствуют пересечения с теоретическими масс-спектрометрическими пиками других белков, зона локализации которых пересекается с зоной локализации CYP3A.

Всего было отобрано 44 масс-спектрометрических пика, совпадающих с точностью до 0,025 Да c теоретическими масс-спектрами белков группы CYP3A, включая ОАП-содержащие изоформы. Среди них 8 пиков соответ ствовали протеотипическим пептидам аллельных вариантов белков подсе мейства CYP3A (табл. 2). Два пептида относились к цитохрому CYP3A4, три к CYP3A5.

Таблица 2: Содержащие ОАП пептиды белков CYP3A4 и CYP3A5, идентифицированные в масс-спектрах, полученных методом отпечатков пептидных масс.

Обнаруженные значения MH+ Близкие значения Пептид m/z Белок ОАП Да m/z 1 2 3 1498.75 1498.75 1498.74 CYP2D6 1498. 441 NCIGTR 1514.72 1514.72 CYP1B1 1514. CYP3A4 M445T FALMNMK453 1569.77 1569.77 1569.77 1569.75 CYP1A1 1601. 1601.78 1601.78 1601.78 1601.77 ATPsynthase 1601. 92 TVLVEEC 1730.84 - 1730.83 - - CYP2E1 1730. CYP3A4 K96E YSVFTNR 71 MWGTYE CES 1436. 1436.70 - - 1436.71 CYP3A5 L82R GQLPVR82 CYP2C8 1436. 267 HRLDFLQL 1975.01 1974.99 1975.03 - 1975.01 TRYPSIN 1975. CYP3A5 D277E MIESQNSK 269 LDFLQLM CYP3A5 D277E IESQNSKE 2393.17 - 2393.20 - 2393.15 CYP3A4 2393. TESHK В двух и более образцах были идентифицированы замены M445T в CYP3A4 и D277E в CYP3A5. Замена L82R в цитохроме CYP3A5 (аллель CYP3A5*3D согласно номенклатуре ресурса CypAlleles) была идентифи цирована только в одном образце. Для полиморфизма D277E в цитохро ме CYP3A5 было идентифицировано одновременно два протеотипических пептида. Оба пептида содержат модифицированный метионин (окисление), и отличаются за счет наличия сайтов пропуска гидролиза в одном случае со стороны N-конца, а во втором со стороны C-конца.

Теоретические массы ОАП-содержащих пептидов сравнивали с тео ретическими масс-спектрами других идентифицированных в образцах бел ков. Белки, в масс-спектрах которых присутствовали пики, отличающиеся от массы ОАП-содержащего пептида не более чем на 0,05 Да, приведены в последней колонке таблицы 2. Можно видеть, что для каждого из пред ложенных ОАП-содержащих пептидов существует соответствующий пик в масс-спектрах других белков. Например, теоретически рассчитанные мас сы пептидов для белков CES и CYP2C8 содержат значения m/z, совпада ющие с пиком m/z=1436,70, свидетельствующем о наличии полиморфизма L82R в белке CYP3A5. Однако, маловероятно, что данный пик относится к белку CES, так как зоны локализации CES и CYP3A расположены далеко друг от друга в одномерном геле (рис. 2). В то же время, нельзя исключить принадлежность этого пика к масс-спектру белка CYP2C8, так как на протеомной карте зоны локализации CYP2C8 и CYP3A перекрываются.

Среди обнаруженных ОАП-содержащих пептидов наибольший инте рес представляет первый пептид из таблицы 2, который свидетельствует о наличии замены M445T в гем-пептиде цитохрома CYP3A4 (вариант CYP3A4*3). Данная мутация по результатам генотипирования присутству ет у 4% европейцев, при этом среди жителей Восточной Европы часто та данной мутации достигает 10% [Dai и др., 2001]. Было зарегистри ровано четыре значения m/z, соответствующих различным комбинациям модификаций аминокислотных остатков в пептиде NCIGTRFALMNMK.

Теоретическое значение m/z немодифицированного пептида составляет 1498,76 Да, в то время как массы 1514,73, 1569,77 и 1601,78 Да соответ ствуют комбинациям модификаций одного/двух метионинов (окисление) и модификации цистеина пропионамидом. В образце №4 все четыре значения m/z наблюдали одновременно в одном срезе (рис. 3). Кроме того, в пре делах зоны локализации подсемейства CYP3A наблюдали пик, соответ ствующий нативному варианту данного пептида (с метионином в позиции 445, m/z=1615,78 Да). Таким образом, была подтверждена на протеомном уровне гетерозиготная экспрессия данной формы цитохрома P450.

Рис. 3: Масс-спектр протеолитических пептидов среза одномерного геля. Отмечены масс спектрометрические пики, соответствующие пептиду NCIGTRFALMNMK (MH+ =1498,74), а также его химически-модифицированным вариантам: окисление метионина (MH+ =1514,72), модификация циcтеина пропионамидом (MH+ =1569,75), окисление двух метионинов и моди фикация циcтеина пропионамидом (MH+ =1601,77).

3.2. Идентификация ОАП белков человека с помощью итера тивного анализа масс-спектрометрических данных в про теомном репозитории PRIDE 3.2.1. Чувствительность и специфичность алгоритма идентифи кации ОАП Задачу идентификации ОАП с помощью анализа масс спектрометрических данных рассматривали как задачу бинарной клас сификации. Результатом идентификации ОАП является классификация ОАП из списка генетически-детерминированных замен на те, которые Рис. 4: Диаграмма для оценки характеристик разработанного алгоритма идентификации ОАП.

подтверждаются масс-спектрометрическими данными (положительные случаи), и те, которые не подтверждаются (отрицательные случаи).

Чувствительность (SN ) алгоритма определяли как долю истинно положительных случаев идентификации ОАП, а специфичность (SP ) оце нивали как долю истинно-отрицательных случаев идентификации сре ди всех ОАП, которые отсутствуют в анализируемом образце. Значения (1 SP ) характеризовали долю ложно-положительных результатов при идентификации ОАП.

Для валидации алгоритма идентификации ОАП, приведенного на рис. 1, использовали контрольный набор масс-спектрометрических данных Aurum Dataset. Так как очищенные рекомбинантные белки, для которых получены масс-спектры Aurum Dataset, не содержали ОАП, то их наличие имитировали в модельных вычислительных экспериментах.

Для представления результатов вычислительных экспериментов, каждую из 225 моделей, содержащих от 1 до 225 аминокислотных замен, отобразили точкой в системе координат: по оси X откладывали значения (1 SPN ), т.е. долю ложно-положительных результатов, а по оси Y значения чувствительности SNN (см. рис. 4). Видно, что специфичность алгоритма в подавляющем большинстве случаев превышает 95%. Чувстви тельность алгоритма не превышает 30%, что объясняется низкой степенью покрытия аминокислотных последовательностей белков идентифицирован ными пептидами.

3.2.2. Выявление ОАП по масс-спектрам репозитория PRIDE В результате обработки 1 891 хроматомасс-спектров репозитория PRIDE были идентифицированы 53 тыс. уникальных пептидов в составе 9 тыс. белков человека. Среднее значение степени покрытия аминокис лотной последовательности составило 19% (для белков, идентифицирован ных минимум по двум пептидам).

Для каждого эксперимента PRIDE, в котором был идентифицирован хотя бы один белок, динамически формировали отдельную базу данных аминокислотных последовательностей. Для этого к последовательностям идентифицированных в данном эксперименте белков добавляли последо вательности, содержащие предполагаемые ОАП (по одной дополнительной аминокислотной последовательности на каждый предполагаемый ОАП).

Информацию о предсказанных для белка ОАП получали из базы данных UniProtKB путем анализа файла humsavar.txt.

Динамически создаваемые базы данных использовали для повтор ной идентификации пептидов и белков в программе Mascot с теми же параметрами, которые использовались при первой итерации. При анализе результатов повторной идентификации выявляли наличие таких пептидов, которые содержат сайт полиморфизма (то есть содержат измененный ами нокислотный остаток) и позволяют однозначно идентифицировать белок.

Всего было идентифицировано 310 содержащих ОАП пептидов в экспериментах репозитория PRIDE. Идентифицированные пептиды соот ветствовали 270 полиморфизмам белков человека;

для некоторых ОАП бы ло идентифицировано более одного пептида. Идентификация нескольких различных пептидов, содержащих один и тот же ОАП, связана с наличием сайтов пропуска гидролиза в некоторых пептидах.

Большинство ОАП (около 55%) было идентифицировано в единствен ном эксперименте. Однако, 22 ОАП (около 8%) были идентифицированы не менее чем в 10 экспериментах (табл. 3).

Таблица 3: Одноаминокислотные полиморфизмы, идентифицированные в 10 и более экспери ментах PRIDE. Идентификатор белка (ID) указан согласно ресурсу UniProt.

Сдвиг Пептид (подчеркнута позиция аминокислотной Эксп/ Эксп/ ID белка ОАП массы замены) пептид ОАП 403 VTTSQVMLSIMEK415 IC1 D408V -15,958 401 IKVTTSQVMLSIMEK415 3426 KEEENASVTDSAELQAYPALVVEK PRKDC I3434T -12,036 17 192 GAYSLSVR YES I198V -14,016 17 306 VLLDGVQNLR315 305 KVLLDGVQNLR CO3 P314L 16,031 306 VLLDGVQNLRAEDLVGK322 669 LLGLPGPPDVPDHAAYHPFR ITIH4 Q669L -14,975 14 160 KLYHSEAFTVNFWDTEEAK178 A1AT G172W 129,058 161 LYHSEAFTVNFWDTEEAK178 124 LGACNDTVQQLMEVFK139 ANT3 L131V -14,016 124 LGACNDTVQQLMEVFKFDTISEK146 533 FDPAKLDQIESVITATSANTQLVLE TLAQMDDLQDFVSK ITIH2 L569V -14,016 538 LDQIESVITATSANTQLVLETLAQ MDDLQDFVSKDK 509 CSQNITDTQESLSSLNR IKKE E515D -14,016 12 263 EQHLFLPFSYK APOB N273K 14,052 12 390 FNKPFVFLMIDQNTK A1AT E400D -14,016 11 2086 QTIIVVLENVQR2097 APOB V2092L 14,016 2084 NRQTIIVVLENVQR2097 3725 VLADKFIIPGLK3736 APOB T3732I 12,036 3730 FIIPGLK3736 933 SPPDISHGVVAHMSDSYQYGEEVTYK CFAH E936D -14,016 10 Согласно данным, приведенным в таблице 3, в наибольшем коли честве экспериментов наблюдали потенциальный полиморфизм остатка в первичной структуре ингибитора протеазы С1 (IC1_HUMAN). Наличие полиморфизма определялось на основании масс-спектрометрической иден тификации двух пептидов, один из которых был длиннее на два остатка с N-конца за счет пропущенного сайта гидролитического расщепления.

Предполагаемая замена аспарагиновой кислоты на валин должна приво дить к уменьшению молекулярной массы пептида на 16,01 Да. Эксперимен тальное значение, приведенное в таблице 3, составляет 15,958 Да. Несмот ря на то, что разница расчетной и экспериментальной массы находится в пределах точности измерительного метода, следует указать, что в данном случае утверждать о наличии ОАП в ингибиторе протеазы некорректно.

Дело в том, что в обоих протеотипических пептидах присутствует мети онин, который может подвергаться окислению в ходе пробоподготовки.

Окисление метионина также дает сдвиг массы на 16 Да, то есть различить окисленный пептид и пептид, содержащий ОАП, невозможно. Среди всех выявленных ОАП примерно в 8% случаев сдвиг массы, обусловленный заменой остатка, совпадает со сдвигом в результате наиболее распростра ненных пост-трансляционных модификаций белков.

Во второй строке таблицы 3 указан ОАП, соответствующий замене изолейцина на треонин в позиции 3434 каталитического домена ДНК зависимой протеинкиназы PRKDC. Пептид, содержащий данную замену, был идентифицирован в 17 экспериментах, при этом среднее значение отклонения экспериментальной массы от теоретической не превышает 0,01 Да. Данный полиморфизм не связан с каким-либо заболеваниям, и частота встречаемости данной мутации, по сведениям dbSNP, является до вольно высокой (4–40%). Сдвиг массы на 12, 036 Да, обусловленный дан ной заменой, не совпадает ни с одной из известных пост-трансляционных модификаций.

Разработанный алгоритм идентификации ОАП в масс спектрометрических данных позволяет определять случаи гетерозиготной экспрессии аллельных вариантов, то есть одновременно идентифицировать нативный белок, и его вариант, содержащий одноаминокислотный полиморфизм. В эксперименте PRIDE №8320 с высокой степенью достоверности (Mascot Score 118,6, E-value 2,9e-11) был идентифицирован состоящий из 30 а. о. пептид SSTSPTTNVLLSPLSVATALSALSLGAEQR, входящий в состав белка PEDF_HUMAN. Пептид содержит замену метионина в позиции 72 на треонин. В том же эксперименте (но с использованием другого масс-спектра) был идентифицирован нативный вариант этого белка. Для нативного варианта белка был идентифицирован протеотипический пептид SSMSPTTNVLLSPLSVATALSALSLGAEQR (Mascot Score 90).

3.2.3. Связь выявленных ОАП с заболеваниями человека Проведенный анализ масс-спектрометрических данных большого ко личества протеомных экспериментов позволяет получить представление о вариабельности протеома человека. Среди идентифицированных полимор физмов наибольшее количество, 163 ОАП, являются нейтральными ОАП.

Количество ОАП, ассоциированных с заболеваниями, практически в три раза меньше, чем нейтральных, и составляет 51 ОАП.

В наибольшем количестве экспериментов были идентифицированы ОАП, связанные с дефицитом регулятора свертываемости крови антитром бина III ( MIM:613118). В 14 экспериментах наблюдали замену лейцина (L) на валин (V) в позиции 131, и еще в 4 экспериментах была обнаружена замена пролина (P) на треонин (T) в позиции 112 белка ANT3_HUMAN.

Полиморфизм M697I рецептора нейротрофического фактора мозга NTRK2, являющегося биомаркером онкозаболеваний легких [Bullinger и др., 2010], был обнаружен в двух экспериментах, в которых с использовани ем аффинной экстракции киназ исследовали киназы клеток линии K-562.

Клеточная линия K-562 была получена из миелоидных клеток костного мозга пациента, страдавшего хроническим миелобластным лейкозом. Мож но предположить, что экспрессия полиморфного варианта белка NTRK является маркерным признаком неопластических заболеваний крови.

В результате работы были выявлены одноаминокислотные полимор физмы, подтверждающие на протеомном уровне трансляцию генетических мутаций, ассоциированных с тяжелыми формами заболеваний. Среди них – дефекты кератинов, вызывающие заболевания кожи, амилоидозы, свя занные с накоплением транстиретина, а также боковой амиотрофический склероз.

Обсуждая полученные результаты, следует провести сравнение ча стоты встречаемости несинонимичных SNP и полиморфизмов а.о., соответ ствующих этим SNP. Обращает внимание, что если среди аннотированных в базе данных UniProt геномных замен около 30% ассоциированы с раз личными заболеваниям, то на протеомном уровне содержание таких замен не превышает 20%.

Можно рассматривать несколько причин для превалирования ней тральных замен в протеомных данных, в том числе причины искусствен ного характера. Однако, полученный результат объясним с биологических позиций: например, при гетерозиготном генотипе экспрессия продукта му тантного аллеля снижена по сравнению с нормальной формой. Как след ствие, в масс-спектрометрических экспериментах регистрируются пики той формы белка, которая присутствует в более высоких концентрациях, а продукт мутантного аллеля не идентифицируется. В случае нейтральной или слабовредной мутации, экспрессия аллельных вариантов происходит примерно на одном уровне, поэтому вероятность обнаружения аллельного варианта на протеомном уровне довольно высока [Wang и др., 2001].

Обобщая результаты, следует указать, что анализ большого количе ства разнородных данных, содержащихся в международном протеомном репозитории, позволил верифицировать состоятельность разработанного алгоритма. Также установлено, что по сравнению с геномом, в протеоме возрастает доля нейтральных мутаций.

4. ВЫВОДЫ 1. Проведено протеомное картирование масс-спектрометрических дан ных, включающее идентификацию белков методом отпечатка пеп тидных масс с последующим анализом, направленным на выявление белок-специфичных протеотипических пептидов. На примере белков надсемейства цитохромов Р450 показано, что за счет картирования зон локализации белков в геле степень покрытия последовательно сти идентифицированными пептидными фрагментами увеличивается на 27%.

2. Идентифицированы протеолитические пептиды, специфичные для форм цитохромов Р450 CYP3А4 и CYP3А5, идентичность последова тельностей которых составляет 82%. Выявлены аллельные варианты трансляции цитохромов CYP3A4 и CYP3А5, содержащие одноами нокислотные полиморфизмы M445N (3А4), K96E (3А4), L82R (3A5) и D277E (3A5).

3. Разработан итеративный алгоритм, предназначенный для иденти фикации одноаминокислотных полиморфизмов белков по тандем ным масс-спектрам протеолитических пептидов. При тестировании на контрольном наборе Aurum Dataset алгоритм выявления по лиморфизмов показал специфичность более 95%. Чувствительность алгоритма была на уровне 30%, что соответствует средней степени покрытия последовательностей, включенных в контрольный набор.

4. В результате анализа масс-спектрометрических экспериментов, де понированных в репозитории PRIDE, выявлено в общей сложности 270 одноаминокислотных полиморфизмов в 156 белках человека, в том числе 51 ОАП (45 белков) ассоциированы с заболеваниями, включая нарушения в системе свертываемости крови и системные амилоидозы.

5. СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИС СЕРТАЦИИ 1. Chernobrovkin A.L., Lisitsa A.V., Ponomarenko E.A., Archakov A.I.

Bioinformatic approach for bottom-up proteotyping // Сборник материалов международной конференции HUPO. Toronto, Canada.

2009. P. 18.

2. Lisitsa A.V., Petushkova N.A., Thiele H., Moshkovskii S.A., Zgoda V.G., Karuzina I.I., Chernobrovkin A.L., Skipenko O.G., Archakov A.I.

Application of Slicing of One-Dimensional Gels with Subsequent Slice by-Slice Mass Spectrometry for the Proteomic Proling of Human Liver Cytochromes P450 // Journal of Proteome Research. 2010. V. 9(1). P. 95– 103.

3. Chernobrovkin A.L., Lisitsa A.V., Thiele G., Archakov A.I. Enrichment of the Sequence Coverage by Assemblage of the Mass-Spectrometric Data from Adjacent Slices of One-Dimensional Gel Electrophoresis // Сборник материалов международной конференции CEEPC. 2008. P. 42.

4. Чернобровкин А.Л., Лисица А.В., Арчаков А.И. Итеративный анализ масс-спектров для определения генетически детерминированного полиморфизма белков // Сборник трудов конференции Химическая биология Фундаментальные проблемы бионанотехнологии.

Новосибирск. 2009. С. 101.

5. Чернобровкин А.Л., Митькевич В.А., Попов И.А., Индейкина М.И., Ильгисонис Е.В., Лисица А.В., Арчаков А.И. Выявление одноаминокислотных полиморфизмов белков в масс-спектрах пептидных фрагментов // Доклады Академии Наук. 2011. V. 437(4).

P. 561-564.

6. Чернобровкин А.Л., Трифонова О.П., Петушкова Н.А., Пономаренко Е.А., Лисица А.В. Выбор допустимой погрешности определения массы пептида при идентификации белков методом пептидного картирования // Биоорганическая химия. 2011. Т. 37(1).

С. 132-136.

7. Арчаков А.И., Згода В.Г., Лисица А.В., Мошковский С.А., Чернобровкин А.Л. Cпособ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа // Патент на изобретение РФ №2408011, приоритет от 30.01.2009.



 




 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.