авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Моделирование биологической активности низкомолекулярных органических соединений с применением компьютерных методов анализа мультипараметрических данных

На правах рукописи

ИВАНЕНКОВ ЯН АНДРЕЕВИЧ МОДЕЛИРОВАНИЕ БИОЛОГИЧЕСКОЙ АКТИВНОСТИ НИЗКОМОЛЕКУЛЯРНЫХ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ С ПРИМЕНЕНИЕМ КОМПЬЮТЕРНЫХ МЕТОДОВ АНАЛИЗА МУЛЬТИПАРАМЕТРИЧЕСКИХ ДАННЫХ 03.01.04 – «Биохимия»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата биологических наук

Уфа – 2010

Работа выполнена в Исследовательском институте химического разнообразия (ИИХР) совместно с Учреждением Российской академии наук Институт физиологически активных веществ РАН (ИФАВ РАН) Научный руководитель доктор химических наук Балакин Константин Валерьевич

Официальные оппоненты: доктор биологических наук Вахитова Юлия Венеровна Институт биохимии и генетики Уфимского научного центра РАН доктор биологических наук Татьяненко Лилия Васильевна Институт проблем химической физики РАН Ведущая организация Химический Факультет Московского Государственного Университета им. М.В.Ломоносова

Защита состоится «» _ 2010 г. в «_» часов на заседании Объединенного диссертационного совета ДМ 002.133.01 при Учреждении Российской академии наук Институте биохимии и генетики Уфимского научного центра РАН по адресу: 450054, Уфа, пр. Октября, 71.

С диссертацией и авторефератом можно ознакомиться в Научной библиотеке УНЦ РАН (Уфа, пр. Октября, 71) и на сайте ИБГ УНЦ РАН: ibg.anrb.ru/dissov.html;

e-mail: molgen@anrb.ru

Автореферат разослан «_» октября 2010 г.

Ученый секретарь диссертационного совета Бикбулатова С.М.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Исследование биологической активности низкомолекулярных органических соединений является одним из наиболее актуальных направлений в современной биологической, медицинской и компьютерной химии [Rydzewski, 2008]. Однако изучение столь комплексного свойства сопряжено с целым рядом проблем, решение которых зависит от интенсивных теоретических и экспериментальных работ в области биохимии, молекулярной биологии, геномики, компьютерного моделирования, органического синтеза, медицины и фармакологии [Makriyannis, et al., 2004;

Hser, 2006].

Наибольшее практическое значение такие исследования имеют в области разработки новых лекарственных субстанций, которые в большинстве своем являются синтетическими молекулами. На ранних стадиях этого процесса особое внимание уделяется исследованию и компьютерному моделированию ключевых свойств физиологически активных веществ, включая терапевтически значимый механизм действия, а также ряд ключевых фармакокинетических и фармакодинамических параметров [Ng, 2004;

Hser, 2006;

Rognan, 2006]. Такой подход позволяет делать математически обоснованные предположения о фармакологической направленности и эффективности исследуемых структур [Bhm, et al., 2000;

Alvarez, et al., 2005;

Ekins, 2006;

Schneider, 2008;

Puzyn, et al., 2009].

Компьютерное моделирование в настоящее время становится неотъемлемой частью процесса исследования биологической активности [Tozer, 2006;

Balakin, et al., 2009]. Несмотря на сравнительно недолгую историю существования специализированных методов компьютерной биологической и медицинской химии, существует целый ряд эффективных алгоритмов, позволяющих моделировать и в дальнейшем прогнозировать различные биохимические свойства органических соединений, включая их метаболическую стабильность и способность образовывать активные комплексы с биологическими мишенями.

Среди таких алгоритмов особое место занимают методы нелинейного картирования [Zupan, et al., 1999;

Balakin, 2009]. Помимо высокой предсказательной способности такие методы весьма удобны для визуального восприятия;

они позволяют исследователю проводить комплексный анализ найденных закономерностей. На основании полученной нелинейной проекции исследуются причины и основные факторы, обусловливающие разделение категорий соединений, обладающих различной биологической активностью (БА).

Кроме методов нелинейного картирования существует ряд других, не менее эффективных подходов, позволяющих осуществлять комплексный анализ многомерных данных, среди которых наиболее перспективными в практическом аспекте являются классические искусственные нейронные сети (ИНС) [Haykin, 2009].

Моделирование осуществляется с использованием, как правило, расчетных молекулярных дескрипторов (признаков), в общем случае представляющих из себя числовой эквивалент свойства молекулы (структуры), например, молекулярный вес, общая площадь полярной поверхности, количество потенциальных доноров и акцепторов водородной связи и др. Таким образом, исследователь получает в свои руки эффективный компьютерный инструмент, без которого в условиях современного развития биотехнологий, в частности, высокопроизводительного биологического скрининга, обойтись просто невозможно.

Несмотря на очевидную целесообразность использования компьютерных моделей для анализа и предсказания различных биохимических свойств низкомолекулярных органических соединений, их разработка является в высшей степени сложной и трудоемкой задачей. Во многих случаях недостаточность исходных данных, их неоднородность, а также невоспроизводимость в условиях единого эксперимента, не позволяют исследователю построить статистически значимую in silico модель с адекватным и достаточным теоретическим обоснованием обнаруженных закономерностей. Отсутствие независимого тестирования и правильной трактовки полученных результатов делает такие модели несостоятельными в отношении корректности классификации и предсказания БА новых структур. В силу этих и целого ряда других объективных причин на сегодняшний день количество эффективных, с точки зрения качества предсказания, компьютерных моделей весьма ограничено. Некоторые из них узкоспециализированы и могут использоваться исключительно для определенного класса химических структур, что существенно сужает рамки их практического применения.

Учитывая сказанное выше, работы по компьютерному моделированию биологической активности органических соединений на основе алгоритмов нелинейного анализа мультипараметрических данных являются в высшей степени актуальными и, с практической точки зрения, крайне востребованными.

Цель и задачи исследования. Основной целью настоящей диссертационной работы является разработка подходов к компьютерному моделированию и прогнозированию комплексных биологических свойств органических соединений.

Среди наиболее значимых задач исследования можно перечислить следующие:

1. Сбор, анализ и подготовка к компьютерному моделированию представительных баз данных химических структур с экспериментально определенными биохимическими свойствами.

2. Расчет и отбор наиболее значимых молекулярных дескрипторов с привлечением специализированных компьютерных алгоритмов.

3. Компьютерное моделирование биохимической активности низкомолекулярных органических соединений с применением нелинейных методов анализа мультипараметрических данных.

4. Создание специализированных компьютерных программ для анализа химического пространства, моделирования и предсказания биологической активности.

Научная новизна. Разработан ряд оригинальных компьютерных моделей, позволяющих оценивать биологическую активность и фармакокинетические свойства низкомолекулярных органических веществ с использованием нелинейных алгоритмов анализа мультипараметрических данных, включая самоорганизующиеся карты Кохонена [Kohonen, 1990], метод Сэммона [Sammon, 1969], а также классические искусственные нейронные сети. В алгоритм Кохонена внесен ряд модификаций и усовершенствований, повышающих его производительность и точность. Созданы прогностические системы для анализа наиболее значимых фармакокинетических характеристик: метаболической стабильности веществ по отношению к семейству цитохромов P450, степени проникновения через биологические мембраны, цито- и орган-специфичной токсичности, объема распределения вещества в организме, времени полужизни в плазме крови, степени связывания с белками крови и P-гликопротеинами, а также возможности образовывать прочные нековалентные комплексы с различными биологическими мишенями, имеющими терапевтическую значимость. Показано, что точность классификации и предсказания с применением методов нелинейного картирования и искусственной нейронной сети классической архитектуры превосходит по качеству более простые регрессионные и корреляционные модели, а также тривиальные структурные и физико-химические фильтры и правила.

Практическая значимость работы. Созданные уникальные базы данных химических соединений с экспериментально определенными биохимическими свойствами, включая ряд ключевых фармакокинетических параметров, имеют очевидную практическую значимость, в первую очередь, для медицинской и биологической химии. Структуры подвергались тщательному анализу и специальной процедуре фильтрации, в ходе которой из рассмотрения исключались высокомолекулярные соединения, редкие органометаллические комплексы, вещества с недопустимыми структурными элементами, которые не являются drug like молекулами и в процессе моделирования дают существенные статистические погрешности. Для каждого соединения из собранных баз данных рассчитан широкий набор молекулярных дескрипторов. В зависимости от особенностей решаемой задачи с привлечением специализированных математико статистических алгоритмов определены оптимальные наборы признаков, с использованием которых строились компьютерные модели. Структурные базы данных с оптимизированным набором дескрипторов крайне востребованы в области биологической и медицинской химии: они используются в качестве обучающих выборок, с применением которых осуществляется компьютерное моделирование;

на их основе создаются специализированные аннотированные библиотеки физиологически активных веществ [Savchuk et al, 2004].

Разработанные нами компьютерные модели прошли экспериментальное тестирование с привлечением независимых контрольных выборок и результатов реальных биологических испытаний, осуществленных в Исследовательском институте химического разнообразия (ИИХР, г. Химки) и Институте физиологически активных веществ РАН (ИФАВ РАН, г. Черноголовка).

Созданные компьютерные программы и интегрированные в них модели, описанные в диссертационной работе, используются в ряде институтов и организаций, занимающихся разработкой физиологически активных соединений, (ИИХР, ИФАВ РАН, МГУ им. М.В.Ломоносова и др.).

Апробация работы. Результаты работы были представлены на более чем 20-ти научных конференциях и симпозиумах, в том числе: «Drug Discovery Technology Europe» (Stuttgart, 2003), «Drug Science & Technology Summit» (New York, 2003), «SBS 9th Ann. Conference and Exhibition» (Portland, 2003), «BioNorth 10th Anniversary Conference» (Ottawa, 2003), «SCIpharm Intern. Pharm. Industry Conference» (Edinbourgh, UK, 2004), XII Российский национальный конгресс «Человек и лекарство» (Москва, 2005), Международный конгресс «Биотехнология:

состояние и перспективы развития» (Москва, 2005), Международная конференция «Биологические мишени для действия лекарственных препаратов нового поколения. Перспективы интеграции российских ученых в международную кооперацию» (Химки, 2006), «Proceedings of the III Congress of Pharmacology» (Санкт-Петербург, 2008).

Публикации. По материалам диссертации опубликована 21 работа (помимо глав в книги и докладов на научных конференциях и симпозиумах), из них 9 публикаций в журналах из официального Перечня ВАК РФ.

Структура и объем работы. Диссертация состоит из введения, литературного обзора, экспериментальной части, обсуждения результатов, заключения, выводов и списка использованной литературы. Работа изложена на 172 страницах, включает 55 рисунков и 28 таблиц. Список литературы включает 306 источников.

СОДЕРЖАНИЕ РАБОТЫ

Во введении кратко изложена актуальность темы диссертационной работы, а также ее структура, сформулированы основные цели и задачи исследования, отражены научная новизна и практическая значимость.

Обзор литературы «Современные подходы к моделированию биологической активности органических веществ и разработке новых лекарственных соединений» описывает фундаментальную концепцию и ключевые этапы разработки новых физиологически активных веществ (ФАВ).

Подчеркивается значимая роль компьютерного моделирования в современной триаде высокоэффективных технологий, используемых в биологической и медицинской химии. Приводится общая структура, основные принципы работы и целевая дифференцировка алгоритмов компьютерного моделирования, включая искусственные нейронные сети и методы нелинейного картирования, эффективность которых продемонстрирована на ряде примеров, имеющих отношение к представленному исследованию. Описываются принципиальные этапы в планировании и осуществлении типового компьютерного эксперимента по моделированию БА, а также реального высокопроизводительного биологического скрининга (ВПС).

В «Экспериментальной части» описана общая методология проведения компьютерного моделирования, состоящего из нескольких важных этапов. На первой стадии эксперимента на основании тщательного литературного поиска, а также информации, полученной из специализированных баз данных, включая Prous Integrity Database (Prous Science, Испания), Beilstein Cross-Fire (Beilstein, США), MetaDrug (GeneGo, Inc., США), ToxSys (SciVision Inc. & ToxSys, США), проводили подготовку обучающих выборок, их анализ и фильтрацию. В настоящей работе обучающие выборки представляли из себя набор структур ФАВ с экспериментально найденным значением исследуемого биохимического свойства. В качестве признаков выступали молекулярные дескрипторы, рассчитанные при помощи компьютерных программ SmartMining (собственная разработка автора работы, ИИХР, Россия) и Dragon (Миланский Университет, Италия). В зависимости от специфики решаемой задачи, количества обучающих примеров и особенностей химических структур, из общего числа рассчитанных дескрипторов выделяли наиболее оптимальный набор с привлечением специализированных методов анализа мультипараметрических данных, включая анализ главных компонентов (АГК) [Jolliffe, 2002], t-статистику Стьюдента [Gosset, et al., 1908], генетический алгоритм [Sivanandam, et al., 2007] и анализ чувствительности [Yeung, et al., 2010]. На основании этого набора осуществляли компьютерное моделирование исследуемого свойства с использованием алгоритма самоорганизующихся карт Кохонена, метода Сэммона, а также классической ИНС с обратным распространением ошибки. Эксперимент осуществляли с использованием компьютерных программ SmartMining, Informagenesis (собственная разработка автора работы, ИФАВ РАН) и NeuroSolutions (NeuroDimension, США) в операционной системе Windows 2000. В общем случае, первые два алгоритма позволяют получать дву- или трехмерные отображения многомерного пространства дескрипторов, что весьма удобно для анализа и восприятия результатов моделирования. С применением третьего метода удается найти неявную многопараметрическую нейро-сетевую функцию, описывающую входное пространство признаков. Большинство представленных в работе моделей построено с применением методов нелинейного картирования. Тестирование моделей осуществляли с привлечением независимых выборок соединений, а также на основании результатов реальных биологических испытаний с применением технологии ВПС [Janzen, 2002;

Reymond, 2006;

Hser, 2006;

Vogel, 2007].

Большинство моделей было интегрировано в программу SmartMining;

программирование осуществлялось на языке Visual C++.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ И ИХ ОБСУЖДЕНИЕ Моделирование метаболизма Раздел посвящен разработке интегральной прогностической системы для оценки общего метаболического профиля низкомолекулярных органических веществ.

Моделирование метаболической стабильности органических соединений по отношению к семейству цитохромов P450. Исследование метаболической стабильности, являющейся одним из важнейших факторов, определяющих фармакологический профиль лекарственных соединений (ЛС), составляет весьма актуальную задачу современной биологической и медицинской химии. Нами предложен оригинальный подход к моделированию и прогнозированию метаболической устойчивости органических веществ под действием цитохромов Р450. Он основан на представительной обучающей выборке, собранной с использованием литературных источников, структур из специализированной базы данных, а также на алгоритме самоорганизующихся карт Кохонена. В исходном массиве данных были выделены две категории соединений: первая состояла из субстратов метаболических реакций, вторая включала в себя 523 продукта целевых трансформаций, для которых не было найдено сведений об их дальнейших метаболических превращениях. Относительно второй категории было сделано рациональное предположение, что эти соединения проявляют свойства не субстратов. Необходимо отметить, что одно и то же соединение может служить субстратом для нескольких представителей семейства цитохромов Р450, а также в зависимости от количества метаболически неустойчивых связей давать на одном и том же цитохроме несколько продуктов, что обуславливает разницу в количестве субстратов и продуктов. Подобное объединение вполне укладывается в концепцию эксперимента, целью которого является обнаружение общих свойств органических соединений, оказывающих влияние на их метаболический профиль.

Для полной обучающей выборки было рассчитано 500 молекулярных дескрипторов, из числа которых при помощи алгоритма АГК были отобраны семь наиболее значимых: MW (молекулярный вес), LogD (расчетный логарифм распределения вещества в системе 1-октанол/вода при pH=7,4), TPSA (общая площадь полярной поверхности), PPSA (частичная площадь полярной поверхности), Hb_don и Hb_acc (количество потенциальных доноров и акцепторов водородной связи, соответственно), HOMO (энергия высшей занятой молекулярной орбитали). На основании этих дескрипторов была построена общая карта Кохонена для субстратов и не-субстратов (рис. 1). Объекты, близко расположенные на карте, обладают схожими свойствами в исследуемом мультипараметрическом пространстве признаков.

а б Рис. 1. Модель Кохонена для субстратов (а) и не-субстратов (б) метаболических реакций, катализируемых цитохромами Р450;

для удобства восприятия области показаны отдельно.

Как видно из рис. 1, соединения, принадлежащие двум полярным категориям, занимают различные положения на карте. Для субстратов точность классификации на модельной выборке составила 77%, в то время как для не субстратов - 63%. С целью количественной оценки специфики распределения соединений, была построена дополнительная дифференциальная карта (рис. 2).

a б Рис. 2. Двумерное (a) и трехмерное (б) представление дифференциальной карты Кохонена, показывающие области преобладания субстратов над не-субстратами.

Каждый узел этой карты содержит результат деления процентного содержания субстратов, содержащихся в этой «ячейке», на процентное содержание не-субстратов, содержащихся в этой же «ячейке». Дифференциальная карта служит удобным средством визуального анализа, позволяющего различить области, в которых процентное содержание субстратов в 5-10 раз превышает процентное содержание не-субстратов по сравнению со случайным распределением. Было осуществлено независимое экспериментальное тестирование разработанной модели, по результатам которого можно говорить о ее высокой дискриминирующей способности.

Необходимо отметить, что во всех компьютерных экспериментах, описанных в представленной работе, удалось достичь статистически значимого и визуально различимого разделения исследуемых категорий соединений. Высокая предсказательная способность большинства моделей была подтверждена в ряде экспериментов с привлечением независимых тестовых выборок и реальных процедур ВПС.

Оценка эффективности связывания с активным центром цитохромов P450.

Вопросы взаимодействия низкомолекулярных органических соединений с активными центрами ферментов метаболических систем организма привлекают пристальное внимание исследователей. В частности, образование прочных нековалентных комплексов такого типа может приводить к ингибированию действия фермента, что в свою очередь может повлечь за собой как благоприятные, так и неблагоприятные терапевтические последствия. В ходе эксперимента обнаружены существенные корреляции между расчетными молекулярными дескрипторами и экспериментально найденными величинами Km (константа Михаэлиса). Обучающая выборка, содержащая сведения о более чем 500 соединениях с найденными в литературе экспериментальными значениями Km, была создана на основе специализированной базы данных. Каждая структура была отнесена как минимум к одной фермент-специфичной группе, внутри которой была принята следующая условная категоризация соединений в соответствии с величиной Km: сильное связывание (Km10 mM, категория 1), умеренное связывание (Km=10-100 mM, категория 2), слабое связывание (Km100 mM, категория 3). Из числа рассчитанных молекулярных дескрипторов при помощи АГК были отобраны шесть наиболее значимых индивидуальных признаков. С использованием алгоритма Кохонена была построена общая карта, на которой поочередно были выявлены области, соответствующие различным группам соединений и ферментов (рис. 3). Качество предсказания на модельной выборке оценивалось для двух полярных классов молекул (кат. 1 и кат. 3) и составило в среднем 94% для структур из группы CYP3A4 и более 98% - для CYP2D6 (для наилучших моделей). В большинстве описанных ниже экспериментов качество классификации и предсказания также оценивалось для двух принципиально различных категорий веществ, что вполне оправдано в условиях статистической классификации.

а б в г Рис. 3. Локализация соединений на карте Кохонена: (а) прочное связывание с CYP3A4 (38 соединений), (б) слабое связывание с CYP3A4 (32 соединения), (в) прочное связывание с CYP2D6 (45 соединений), (г) слабое связывание с CYP2D (7 соединений).

Предсказательная способность модели была оценена с использованием независимой выборки соединений с экспериментально установленной Km, не принимавших участие в обучении (табл. 1). По результатам тестирования было показано, что разработанная модель обладает высокой дискриминирующей способностью между двумя обозначенными группами соединений.

Таблица Качество предсказания на независимых выборках для моделей Кохонена Качество предсказания Средний Категории Всего Модель процент (эксп.) соединений кат. 1 кат. предсказания кат. 1, CYP(+) 31 (94%) 2 (6%) CYP3A4 93, кат. 3, CYP(-) 1 (7,7%) 12 (92,3%) кат. 1, CYP(+) 17 (85%) 3 (15%) CYP2D6 92, кат. 3, CYP(-) 0 (%) 7 (100%) Общая карта Кохонена для всех цитохромов P450, вошедших в общую обучающую выборку (12 подтипов), показывающая области распределения двух исследуемых групп соединений (кат. 1 и 3), представлена на рис. 4. Агенты, принадлежащие этим категориям, занимают различные области на карте, что говорит о наличие в исследуемом многомерном пространстве набора признаков, обуславливающих такое интегральное разделение. Для соединений с Km10 mM качество классификации составило 91,2%, в то время как для соединений с Km mM - 95,8%.

Рис. 4. Интегральная карта Кохонена для сильно- и слабосвязывающихся соединений с ферментами группы цитохрома P450.

Для двух наиболее значимых изоформ цитохрома P450 (CYP3A4 и CYP2D6) были построены две отдельные модели Сэммона. Общее количество соединений в обучающих выборках составило 126 структур для CYP3A4 и 75 молекул для изоформы CYP2D6. В качестве входных признаков выступали шесть молекулярных дескрипторов, использованных ранее для построения модели Кохонена. В качестве примера на рис. 5 представлена результирующая двумерная карта Сэммона, показывающая особое распределение соединений из экспериментальной группы CYP3A4.

Рис. 5. Двумерная карта Сэммона, показывающая распределение соединений из обучающей выборки CYP3A4;

оптимальная граница разделения двух крайних категорий объектов показана сплошной линией.

Оптимальная граница разделения объектов в двумерном пространстве находилась с использованием метода опорных векторов Вапника (МОВ). Среднее качество классификации для двух построенных моделей Сэммона составило 94,1% для CYP3A4 и 100% для CYP2D6. На основании полученных результатов можно сделать вывод о том, что в исходном шестимерном пространстве свойств имеется оптимальная гиперплоскость, позволяющая с высокой точностью разделить две крайние категории объектов.

Моделирование скоростей реакций N-дезалкилирования, катализируемых цитохромами Р450. Вопросам прогнозирования кинетических параметров взаимодействия органических веществ с метаболическими ферментами, преимущественно цитохромами Р450, посвящено значительное число исследований [Ekins et al., 2001, Lewis et al., 2002, Jones et al., 2002, Singh et al., 2003, Korolev et al., 2003]. Стандартным подходом к решению подобных задач служит нахождение количественных зависимостей структура-свойство. Однако моделирование такого сложного свойства связано с рядом объективных проблем, которые в первую очередь обусловлены сложностями при создании корректной обучающей выборки и отсутствием независимого тестирования [Darvas, 1988, Mulder, 1990, Hayashi, et al., 1991, Kato et al., 1995]. В связи с этим в ходе настоящего исследования была разработана оригинальная компьютерная модель, позволяющая предсказывать скорости метаболических реакций N дезалкилирования, катализируемых цитохромами CYP3A4 и CYP2D6. В качестве обучающих данных было использовано 66 метаболических реакций (30 структур для CYP3A4 и 36 структур для CYP2D6), с известными величинами logVmax.

Одним из важных нововведений, предложенных в настоящей работе, является независимое рассмотрение трех различных элементов топологической организации молекул субстратов (рис. 6), что обусловлено необходимостью учета ряда принципиальных факторов, влияющих на кинетику исследуемого процесса [Szklarz, et al., 2000;

Ekins, et al., 2001;

de Groot, et al., 2002;

Korolev et al., 2003].

OMe OMe H H N O O N [O]/CYP3A4 O O MeO N O MeO NH + logVmax 1,17 F Cl F Cl Цисаприд NH2 NH OMe *O H N O O * * MeO N O N * F тип В Cl F тип Б тип А NH2 уходящий фрагмент центроид места полная молекула протекания реакции Рис. 6. Три элемента структурной организации субстратов цитохромов P450 на примере Цисаприда.

Например, структура центроида определялась тремя ближайшими атомами от ключевого азота (топологическая окрестность), по которому осуществляется реакция N-дезалкилирования. Молекулярные дескрипторы были рассчитаны для каждого из трех таких элементов. Для отбора наиболее значимых признаков был использован специальный компьютерный алгоритм, названный в научной литературе анализом чувствительности. В отличие от описанных ранее примеров, для выполнения сформулированной задачи была использована классическая архитектура ИНС обратного распространения ошибки. Также был проведен многоступенчатый процесс оптимизации настроек ИНС. Ключевой эксперимент проводили с использованием нескольких рандомизаций, валидацию моделей осуществляли с применением процедуры LOO (сокр. от англ. leave-one-out – метод тестирования модели). Таким образом, в ходе эксперимента было построено несколько десятков различных моделей. В результате осуществления всех указанных выше процедур, мы выделили наиболее удачную финальную модель.

На рис. 7 показаны корреляционные графики зависимости между значениями предсказанных скоростей реакции N-дезалкилирования и экспериментально найденными значениями этой же величины. Среднее значение достоверности линейной аппроксимации на модельной выборке (r2) и тестовых примерах (q2) в условиях процедуры LOO указано на рисунке.

а б Рис. 7. Корреляционные диаграммы зависимости между экспериментальными и предсказанными значениями logVmax для группы CYP3A4 (а) и для CYP2D6 (б).

Предсказательная способность моделей была исследована с использованием независимых наборов соединений с экспериментально найденным значением logVmax;

точность предсказания составила 0,90 для CYP3A4 и 0,94 для CYP2D6.

Следует особо отметить высокую производительность такого подхода: с использованием построенных моделей можно осуществлять прогноз для десятков и сотен тысяч структур за довольно короткий промежуток времени, измеряемый минутами, что приобретает особую значимость на стадии планирования этапа ВПС.

Моделирование степени проникновения органических соединений через биологические барьеры Раздел посвящен разработке компьютерных моделей для анализа и предсказания степени проникновения низкомолекулярных органических соединений через гематоэнцефалический барьер (ГЭБ) и стенки желудочно кишечного тракта (ЖКТ).

С применением алгоритмов Кохонена и Сэммона нами был разработан ряд in silico моделей, способных эффективно и статистически достоверно предсказывать упомянутые выше свойства. В результате тщательного литературного поиска были собраны две представительные обучающие выборки соединений с экспериментально установленной степенью проникновения через ГЭБ и стенки ЖКТ. Выборки включали в себя несколько категорий веществ: (а) хорошо проникающие через ГЭБ(+) (267 соединений) и ЖКТ(+) (114 соединений), (б) плохо проникающие через ГЭБ(-) (189 соединений) и ЖКТ(-) (61 соединение), (в) умеренно проникающие через ЖКТ(±) (145 соединений). В случае ГЭБ критерием категоризации послужил экспериментально найденный логарифм соотношения концентраций соединения в мозговом веществе и в крови (в равновесном состоянии). Для классификации структур из второй группы использовали значение относительной абсорбции (Fa), или долю вещества (в %), проникающего через стенки ЖКТ в кровоток. Собранные базы отличаются разнообразием структурных хемотипов и гомогенностью физико-химических свойств. Для обеих обучающих выборок был использован идентичный набор дескрипторов (6 признаков), рассчитанных при помощи программы SmartMining.

Далее были построены карты Сэммона, соответствующие двум обучающим выборкам, ЖКТ и ГЭБ (рис. 8).

а б Рис. 8. Карты Сэммона, демонстрирующие различия свойств соединений, обладающих высокой и низкой способностью проникновения через стенки ЖКТ (а) и ГЭБ (б).

После этого была определена степень разделения интересующих нас категорий соединений при помощи оптимальной разделяющей линии, найденной по МОВ. Средняя точность классификации для обоих моделируемых свойств приближается к 88%.

С использованием тех же самых обучающих выборок и аналогичных молекулярных дескрипторов были построены две модели Кохонена (рис. 9а,б и 9в,г). Хорошо видно, что в обоих случаях противоположные категории соединений преимущественно локализованы в различных областях карт. Средняя точность классификации для обоих моделируемых свойств составила 88%.

Предсказательная способность описанных моделей была оценена при помощи независимых тестовых выборок, а также в условиях эксперимента LOO. Эти модели с успехом используются в научно-экспериментальной практике ИФАВ РАН и ИИХР для классификации и отбора химических структур на стадии комбинаторного синтеза (КС) и ВПС.

а б в г Рис. 9. Локализация соединений из групп ГЭБ(+) (а) и ГЭБ(-) (б), а также ЖКТ(+) (в) и ЖКТ(-) (г) на двух модельных картах Кохонена.

Прогнозирование других фармакокинетических параметров Раздел посвящен разработке компьютерных моделей для предсказания объема распределения вещества в организме (Vd), времени полужизни в плазме крови (t1/2), степени связывания с белками плазмы крови (PPB) и взаимодействия с P-гликопротеинами (P-gp).

На первом этапе моделирования на основании различных литературных источников была разработана аннотированная база данных, в которую вошли более 1400 органических молекул, в большинстве своем – известные ЛС, а также агенты, находящиеся на различных стадиях клинических испытаний. Каждое соединение было отнесено к одной или более групп, с экспериментально найденными значениями перечисленных выше свойств. В каждой группе были выделены условные категории соединений с высокими, средними и низкими значениями исследуемого свойства (табл. 2).

Таблица Статистические характеристики обучающих выборок и результаты моделирования с использованием алгоритма Сэммона Количество Качество Общее Фармакокинети Категория соединений соединений в классифи- количество ческий параметр категориях кации соединений 1 PPB(+), PPB90% 200 (100%) 169 (84,5%) Связывание с белками плазмы 2 PPB(+/-), PPB=50-90% 172 крови (PPB) 3 PPB(-), PPB50% 177 (100%) 143 (80,8%) Сродство к P- 1 P-gp(+), субстраты 89 (100%) 66 (74,2%) гликопротеинам 3 P-gp(-), не субстраты 78 (100%) 62 (79,5%) (P-gp) 1 Vd(+), Vd0,4 л/кг 47 (100%) 39 (83,0%) Объем 2 Vd(+/-), Vd=0,4-8 л/кг 162 распределения (Vd) 3 Vd(-), Vd8 л/кг 44 (100%) 34 (77,3%) T1/2(+), T1/220 ч Время полужизни 1 63 (100%) 51 (81,0%) в плазме крови 2 T1/2(+/-), T1/2=1-20 ч 347 (T1/2) T1/2(-), T1/21 ч 3 48 (100%) 40 (83,3%) Далее для всех структур было рассчитано широкое разнообразие молекулярных дескрипторов, из числа которых с привлечением специализированных алгоритмов анализа данных были отобраны оптимальные наборы, наиболее подходящие для моделирования исследуемого фармакокинетического свойства. С применением метода Сэммона были построены соответствующие модели, представленные на рис. 10. Очевидное разделение соединений из полярных категорий говорит о наличии в исходных пространствах признаков кластеров, преимущественно содержащих в себе отдельную группу веществ. Качество классификации на модельных выборках приведено в таблице 2.

а б в г Рис. 10. Двумерные карты Сэммона, показывающие распределение соединений из обучающих выборок (а) Vd;

(б) T1/2;

(в) PPB и (г) P-gp.

Для построения модели Кохонена были использованы аналогичные обучающие выборки и молекулярные дескрипторы. Пример карты приведен на рис. 11.

а б Рис. 11. Модель Кохонена, показывающая распределение соединений из обучающей выборки PPB: (а) PPB(+) и (б) PPB(-).

Среднее качество классификации и предсказания для моделей Кохонена представлено в таблице 3. Классификационная способность всех описанных выше прогностических систем была также оценена с использованием независимых тестовых выборок и подтверждена в ряде реальных in vitro экспериментов, с применением технологии ВПС.

Таблица Средняя точность предсказания (%) с применением процедуры LTO* Независимая Обучающая тестовая выборка выборка Модель (10%) кат. 1 (+) кат. 3 (-) кат. 1 (+) кат. 3 (-) Vd 73,5 77,5 83,3 81, T1/2 80,4 83,8 75,4 79, PPB 90,4 86,7 89,4 85, P-gp 80,4 76,9 77,4 80, LTO – сокр. от англ. leave-ten-out (метод тестирования модели) Моделирование токсических эффектов Раздел посвящен разработке in silico моделей для предсказания цито- и орган-специфичной токсичности низкомолекулярных органических соединений.

Компьютерная модель для предсказания клеточной токсичности основана на представительной обучающей выборке веществ (10 тыс. разнообразных структур) с экспериментально определенной степенью токсичности по отношению к нормальным фибробластам человека. Было обнаружено, что 2263 соединения (классы 1-3, табл. 4, см ниже) из числа протестированных проявляют цитотоксичность от слабой до весьма сильной. Выживаемость клеток под действием этих соединений (концентрация 10 мкмоль/л) составила от 0 до 75%.

Для веществ из класса 4 в условиях эксперимента не было выявлено значимых цитотоксических эффектов.

Таблица Классификация соединений из обучающей выборки по токсичности для нормальных фибробластов человека класс 1 класс 2 класс 3 класс (высокая (умеренная (низкая (отсутствие токсичность) токсичность) токсичность) токсичности) Выживаемость 0-25 26-50 51-75 клеток, % Диапазон величин 3 10 LC50, mM Число соединений 414 540 1309 Десять молекулярных дескрипторов, использованных для моделирования, были отобраны из числа более чем 300 изначально рассчитанных признаков при помощи АГК. С использованием этих дескрипторов была построена общая карта Кохонена (здесь не показана), на которой последовательно были выявлены области, соответствующие категориям соединений из таблицы 4. Для количественной оценки степени заселенности областей мы построили вспомогательную дифференциальную карту (рис. 12).

a б Рис. 12. Двумерное (a) и «трехмерное» (б) представление дифференциальной карты Кохонена;

показаны области преобладания нетоксичных соединений над токсичными.

В рассматриваемом примере хорошо видны области на карте, в которых процентное содержание нетоксичных соединений в 4-18 раз превышает процентное содержание токсичных соединений по сравнению со случайным распределением. Валидация модели осуществлялась с применением внутренних тестируемых наборов структур (20% от общего числа соединений в исходной обучающей выборке) в составе трех независимых рандомизаций. Результаты этих экспериментов, представленные в табл. 5, демонстрируют пригодность модели для решения практических задач, связанных с оценкой потенциальной токсичности органических соединений.

Таблица Доля корректно классифицированных соединений для модели Кохонена и ИНС токсичные нетоксичные ранд. 1 ранд. 2 ранд. 3 среднее ранд. 1 ранд. 2 ранд. 3 среднее Карты Кохонена 74,3% 79,0% 75,1% 76,1% 76,3% 79,1% 80,1% 78,5% ИНС 72,1% 77,2% 77,5% 75,6% 69,1% 71,2% 75,6% 72% Помимо алгоритма Кохонена для моделирования клеточной токсичности была использована классическая ИНС обратного распространения ошибки.

Результаты моделирования показали, что возможности этого алгоритма для решения обсуждаемой задачи не уступают методу нелинейного картирования;

сравнительные данные по корректности предсказания приведены в табл. 5.

Для моделирования орган-специфичной токсичности использовалась обучающая выборка соединений, включающая в себя более 22 тыс. различных молекул, большинство из которых составляли органические соединения, с экспериментально определенным значением LD50 по отношению к различным видам млекопитающих, включая человека. В базе также имелась возможность дифференцировать соединения по их токсичности к специфическим органам (печень, легкие, ЖТК и т.д.) в зависимости от способа введения (оральный, внутривенный и т.д.). Все соединения были условно разделены на три категории:

сильно токсичные (LD50300 мг/кг, 13398 соединений), вещества с умеренной токсичностью (LD50=300-400 мг/кг, 2451 соединение) и слаботоксичные (LD мг/кг, 6608 соединений). Результирующая карта Кохонена представлена на рис. 13.

Для моделирования использовалось 16 молекулярных дескрипторов, включая, помимо упомянутых ранее, различные топологические и электротопологические индексы (Zagreb, Balaban, SS), расчетный логарифм растворимости вещества в воде (LogSw), энергии низшей свободной и высшей занятой молекулярных орбиталей (НСМО и ВЗМО, соответственно), суммарный положительный (PEOE_RPC+) и отрицательный (PEOE_RPC-) заряд молекулы и т.д. Среднее качество классификации на модельной выборке составило более 80%. Модель успешно прошла испытания в ряде реальных экспериментов с привлечением технологии ВПС.

а б Рис. 13. Распределение слаботоксичных (а) и сильно токсичных (б) соединений на карте Кохонена.

Моделирование и предсказание орган-специфичной токсичности осуществлялось с привлечением алгоритма Сэммона. Всего было создано различных моделей, средняя предсказательная способность которых составила 70%.

Моделирование профиля мишень-специфичной активности органических соединений Раздел посвящен разработке интегральной модели Кохонена для предсказания мишень-специфичной активности (МСА) органических соединений.

Одна из отличительных особенностей этого метода состоит в том, что он позволяет в рамках одной модели предсказывать эффективность связывания не с одной, а с целым рядом терапевтически значимых биологических мишеней.

Структуры всех соединений, вошедших в обучающую выборку, были собраны на основании тщательного литературного поиска, а также взяты из базы данных Prous Integrity Database. В итоге обучающая выборка составила 17 тыс. ЛС с экспериментально определенной и подтвержденной МСА, куда вошли молекулы, обладающие активностью по отношению к различным группам биологических мишеней, например тирозиновым киназам, рецепторам, связанным с G-белками, ядерным рецепторам, каспазным и протеазным ферментам, гистондиацетилазам, хемокиновым рецепторам, липоксигеназам и т.д. Всего в пределах обучающей выборки насчитывалось более 200 уникальных типов биологических мишеней.

Для всех структур был рассчитан ряд дескрипторов, из числа которых в результате комплексных процедур было отобрано семь наиболее значимых признаков, способных адекватно описать МСА, а также учитывать изомеризацию тестируемых соединений. Для полной обучающей выборки была построена интегральная карта Кохонена (рис. 14а). После построения общей карты на ней поочередно были выявлены области преимущественной локализации групп ЛС, обладающих различной МСА;

примеры представлены на рис. 14б-г.

а б в г Рис. 14. (а) Карта Кохонена (1414) для полной исходной обучающей выборки (17 тыс. соединений);

области: (б) антагонистов/агонистов GPCR рецепторов (5432 соединения), (в) ингибиторов каспазных ферментов (50 соединений), (г) липоксигеназ (114 соединений).

Очевидно, что наблюдаются заметные различия в положениях соединений из репрезентативных групп. При этом для каждой группы можно выделить компактные регионы как повышенной заселенности, так и малой заселенности.

Средний процент разделения модельных групп соединений составил 75%, что свидетельствует о сравнительно высокой дискриминирующей способности разработанной модели, которая находит свое незаменимое применение в повседневной научно-исследовательской практике ИФАВ РАН и ИИХР.

Разработанная модель также может с успехом использоваться в области хемогеномики – сравнительно молодой научной дисциплины, фундаментальным теоретическим постулатом которой является предположение о том, что похожие на генетическом уровне биологические мишени предпочтительно взаимодействуют с одним и тем же лигандом или его биоизостерными аналогами (соединения, которые после введения в их структуру изостерных групп, сохраняют первоначальную биологическую активность) при условии комплементарности активных сайтов связывания. Более детально возможности модели для решения актуальных задач хемогеномики обсуждаются в нашей недавней главе, опубликованной в книге издательства Springer [Balakin & Ivanenkov, et al., 2009].

ВЫВОДЫ 1. С использованием различных литературных источников, специализированных химических баз данных, процедур фильтрации и статистического анализа создано 12 уникальных обучающих выборок органических соединений с экспериментально установленной биохимической активностью, включая метаболическую стабильность, токсичность, мишень-специфичность, объем распределения и время полужизни в плазме крови, связывание с белками крови и P-гликопротеинами.

2. Для всех соединений рассчитано более 500 различных молекулярных дескрипторов, из числа которых, в зависимости от исследуемого биохимического свойства, с применением специальных математических алгоритмов, выявлен наиболее оптимальный набор (от 6 до 16 дескрипторов).

3. С использованием специализированных алгоритмов анализа мультипараметрических данных и отобранных молекулярных дескрипторов разработан ряд компьютерных моделей для предсказания биохимической активности органических соединений.

4. Все компьютерные модели продемонстрировали хорошую точность классификации на обучающих примерах и высокую предсказательную способность на независимых выборках, включая результаты реального биологического тестирования, осуществленного с применением технологии высокопроизводительного биологического скрининга.

5. Разработаны три оригинальные компьютерные программы, позволяющие моделировать и предсказывать биохимическую активность низкомолекулярных органических соединений, рассчитывать различные молекулярные дескрипторы, осуществлять нелинейный комплексный анализ мультипараметрических данных с использованием алгоритмов Кохонена и Сэммона, а также классических искусственных нейронных сетей.

Список публикаций по теме диссертационной работы 1. Korolev D, Balakin K.V., Ivanenkov Y.A., et al. Modeling of human cytochrome P450-mediated drug metabolism using unsupervised machine learning approach // J.

Med. Chem. 2003. V. 46. P. 3631-3643.

2. Ivanenkov Y.A., Balakin K.V., Skorenko A.V., et al. Application of advanced machine learning algorithm for profiling specific GPCR-active compounds // Chem.

Today. 2003. V. 21. P. 72-75.

3. Nikolsky Y., Balakin K.V., Ivanenkov Y.A., et al. Intelligent machine learning technologies in pre-synthetic combinatorial design // PharmaChem. 2003. V. 4. P. 68-72.

4. Ivanenkov Y.A., Balakin K.V., Savchuk N.P. et al. Advanced data mining tools for compounds libraries // European Biotechnology News. 2003. V. 2. P. 40-41.

5. Balakin K.V., Ekins S., Ivanenkov Y.A., et al. Quantitative structure-metabolism relationship modeling of the metabolic N-dealkylation rates // Drug Metab. Dispos.

2004. V. 32. P. 1111-1120.

6. Tkachenko S.E., Okun I., Ivanenkov, Y.A., et al. Efficient optimization strategy for marginal hits active against Abl tyrosine kinases // Current Drug. Disc. Techn. 2004. V.

1. P. 201-210.

7. Балакин К.В., Иваненков Я.А., Скоренко А.В. и др. Построение классификационных моделей для виртуального скрининга // Журн. Орг. Фарм.

Хим. 2004. Т. 2, № 3. С. 47-53.

8. Balakin K.V., Ekins S., Ivanenkov Y.A., et al. Kohonen maps for prediction of binding to human cytochrome P450 // Drug Metab. Dispos. 2004. V. 32. P. 1183-1189.

9. Соловьев М.Ю., Филимонов С.И., Иваненков Я.А. и др. Синтез, строение и свойства ряда 3-сульфамидных производных пиридина // Изв. ВУЗов. Химия и хим. технология. 2004. Т. 47, № 2. С. 28-36.

10. Балакин К.В., Иваненков Я.А., Коваленко С.Н. и др. Построение классификационной модели для виртуального скрининга ингибиторов тирозиновых киназ // Журн. Орг. Фарм. Хим. 2004. Т. 2, № 4. С. 48-53.

11. Иваненков Я.А., Балакин К.В. Компьютерные методы прогнозирования метаболизма физиологически активных веществ // Биомедицинская химия. 2005.

Т. 51, № 2. С. 384-412.

12. Журавель И.А., Коваленко С.Н., Иваненков Я.А. и др. Синтез и виртуальный скрининг библиотек 2H-пирано[2,3-с]пиридинов с целью рационального отбора соединений-кандидатов для биологических испытаний на киназную активность // Журн. Орг. Фарм. Хим. 2005. Т. 1. С. 6-11.

13. Balakin K.V., Ivanenkov Y.A., Savchuk N.P., et al. Comprehensive computational assessment of ADME properties using mapping techniques // Curr. Drug Disc. Techn.

2005. V. 2. P. 99-113.

14. Дорогов М.В., Балакин К.В., Иваненков Я.А. и др. Профилирование мишень специфичной активности комбинаторных библиотек органических соединений с использованием карт Кохонена // Журн. Орг. Фарм. Хим. 2005. Т. 3, № 1. С. 6-11.

15. Кравченко Д.В., Иваненков Я.А., Балакин К.В. и др. Дизайн и синтез новых непептидных ингибиторов каспазы-3 // Химико-фармацевтический журнал. 2006.

Т. 3. С. 125-129.

16. Балакин К.В., Иваненков Я.А., Иващенко А.А. Компьютерные методы прогнозирования мишень-специфической активности в разработке новых противоопухолевых соединений // Психофармакология и биологическая наркология. 2007, Т. 7, № 4. С. 1598.

17. Chekmarev D.S., Kholodovych V., Ivanenkov Y.A., et al. Shape signatures: New descriptors for predicting cardiotoxicity in silico // Chem. Res. Toxicol. 2008. V. 21, № 6. P. 1304-14.

18. Ivanenkov Y.A., Savchuk, N.P., Ekins S., et al. Computational mapping tools for drug discovery // Drug Discovery Today. 2009. V. 14. P. 767-75.

19. Иваненков Я.А., Бовина Е.В., Балакин К.В. Методы нелинейного картирования для прогнозирования фармакологических свойств химических соединений // Успехи химии. 2009. Т. 78, № 5. С. 503-523.

20. Balakin K.V., Ivanenkov Y.A., Savchuk N.P. Compound library design for target families // Methods Mol. Biol. 2009. Т. 575, С. 21-46.

21. Волкова Т.Г., Балакин К.В., Иваненков Я.А., Клюев М.В. Прогнозирование биологической активности структурных аналогов бензилиденанилина // Жидкие кристаллы и их практическое использование. 2010. Т. 3. С. 57-63.

Список сокращений Fa – относительная абсорбция (сокр. от англ. Fractional absorption) GPCR – сокр. от англ. G-protein-coupled receptors (рецепторы, связанные с G-белками) LC50 (LD50) – концентрация (доза) соединений, при которой гибнет 50% клеток (организмов) LOO – сокр. от англ. Leave-one-out (метод тестирования предсказательной способности модели) LTO – сокр. от англ. Leave-ten-out (метод тестирования предсказательной способности модели) P-gp – P-гликопротеины (также известны как MDR1 или ABCB1) PPB – связывание с белками крови (сокр. от англ. Plasma-protein binding) T1/2 – время полужизни вещества в плазме крови (от англ.: Half-life time) Vd – объем распределения вещества в организме (от англ.: Volume of distribution) АГК – анализ главных компонент (от англ. Principal Component Analysis, PCA) БА – биологическая активность ВПС – высокопроизводительный биологический скрининг ГЭБ – гематоэнцефалический барьер ЖКТ – желудочно-кишечный тракт ИНС – искусственные нейронные сети (сеть) КС – комбинаторный синтез ЛС – лекарственные соединения (субстанции) МОВ – метод опорных векторов Вапника МСА – мишень-специфичная активность ФАВ – физиологически активные вещества

 




 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.