27.12.2019 12:50

Разработка методов и алгоритмов построения деревьев классификации для обработки генетических данных

Разработка методов и алгоритмов построения деревьев классификации для обработки генетических данных

Как известно, математика применяется для решения многих проблем, встречающихся в других науках. Не для каждой такой задачи хватает математических знаний специалиста, поэтому необходимо сотрудничество людей из различных областей наук. Моя работа - результат сотрудничества математиков и генетиков.

Цель работы - найти фрагмент генома, которым должны обладать изначально мыши, чтобы выжить после того, как им делают инъекцию белка, который заражает мышей сепсисом. Генетические данные обрабатываются генетиками, мы получаем лишь последовательность генов, которую обрабатываем различными математическими способами.

Данная проблема является очень актуально и значимой, так как генотип мышей очень схож с генотипом человека, поэтому с помощью данного исследования можно приблизиться к лечению септического шока у людей.

Исследования проводились при помощи методов кластерного анализа. В частности использовались методы иерархического кластерного анализа и метод K-средних.

Практическая часть работы выполнялась при помощи программной системы STATICTICA. Данная программная система обладает большим функционалом для разбиения одной выборки на различные кластеры. На данном этапе у меня были данные о 213 мышах, их генотип, время жизни, локусы, по которым был разбит генотип и фенотип, который обозначался как 0, если мышь умерла, и 1, если выжила.

В иерархическом кластерном анализе использовались различные комбинации методов подсчета расстояния между объектами и методов объединения в кластеры. Методы объединения в кластеры: метод одиночной связи, метод полной связи, метод средней связи, взвешенный метод средней связи, невзвешенный центроидный метод, взвешенный центроидный метод, метод Уорда. Методы подсчета расстояний: квадратичное евклидово расстояние, обычное евклидово расстояние, манхэттенское расстояние, расстояние Чебышева, степенное расстояние, процент несогласия.

Классическими методами однозначно разбить на кластеры не удалось, при применении различных подходов к разбиению объектов, в полученных группах оказывалось от 20 до 40% объектов из противоположного класса. Однако сочетание некоторых методов дало результаты, позволяющие судить о том, в каких хромосомах могут находиться искомые гены. На текущем этапе мне удалось выделить 2 кластера мышей, в одном из них всего лишь 3 выживших, в другом 5. Между этими кластерами прослеживается некоторая закономерность по первой хромосоме и по пятнадцатой. В первой хромосоме значительно преобладает аллель Н(смешанная), а в пятнадцатой хромосоме аллель В(резистентная) практически отсутствует, за исключением небольшого количества особей, а если посмотреть на время жизни мышей, то 2 из этих 3 мышей умерли более, чем за 24 часа, что дольше, чем среднее время смерти остальных, это означает, что они могли умереть по каким-либо другим причинам. Таким образом, в дальнейшем искать необходимый фрагмент генома нужно в первой и пятнадцатой хромосоме.

Е. Ю. Фурта

Разработка методов и алгоритмов построения деревьев классификации для обработки генетических данных

Опубликовано 27.12.2019 12:50 | Просмотров: 29 | Блог » RSS