Анализы в облаках
1 июля 2012 года DELSA Global, новый глобальный альянс, имеющий целью повышение эффективности использования данных в биомедицине и науках о жизни, запускает несколько масштабных научно-прикладных проектов DELSA Endorsed Projects. Это международные проекты, в рамках которых будет происходить обмен, анализ и распределение огромных массивов данных, находящихся в он-лайновых облачных хранилищах. Один из таких проектов основан на протеомике, науке, которая изучает белки и их взаимодействия в различных организмах и средах обитания, в том числе и в человеке. Биомедицина возлагает на протеомику большие надежды.
Протеомика и пр.
Исследования в области протеомики сейчас ведутся во многих научных центрах мира, каждый из которых применяет свой подход, а потому сопоставление получаемых в разных местах необработанных и хранящихся на жестских дисках данных часто связано с принципиальными трудностями. Как поясняет один из экспертов, Евгений Колкер (Eugene Kolker) , соучредитель и президент DELSA Global, Главный специалист по данным (Chief Data Officer) Детской больницы Сиэтла (Seattle Children's Hospital) и профессор биомедицинской информатики Университета Вашингтона, "это все равно, что сравнивать яблоки и апельсины". Однако, данные, находящиеся в свободном доступе в сети и соответствующим образом аттрибутированные, могут стать сопоставимыми и, следовательно, информативными для широкого круга специалистов.
Евгений Колкер. Фото из личного архива.
Для разработки простого пользовательского интерфейса к базам данных по протеомике необходимо знать, в каком организме, в каких тканях и при каких условиях экспрессируется тот или иной белок. Исходя из этого запроса в лаборатории Евгения Колкера была создана уникальная и общедоступная база данных по белкам MOPED, Model Organism Protein Expression Database, которой пользуются более 2000 лабораторий во всем мире. Пользователи, сравнивая свои собственные данные с данными MOPED, которые содержат информацию о белках разных организмов, в том числе человека, получают статистически достоверный результат. В частности, обнаруживая новый белок, связанный с тем или иным нарушением в организме, они могут с помощью такого программного инструмента как MOPED отличить действительно новое от уже известного, открытого другими исследователями.
Так, сами создатели базы MOPED совместно со своими коллегами из Университета Пенсильвании, США, и Страсбургского университета, Франция, открыли две белковые молекулы, связанные с развитием диабета второго типа. Оказалось, что это регуляторные белки, которые можно использовать для восстановления продукции инсулина организмом по мере необходимости. Один из этих белков в настоящее время проходит доклинические испытания.
База данных MOPED используют в своей работе и российские исследователи - члены альянса DELSA. Это коллектив ученых под руководством академика РАМН Александра Арчакова, директора ГУ НИИ биомедицинской химии им. В.Н. Ореховича РАМН, принимающий участие в глобальном проекте, пришедшем на смену Геному человека. Речь идет о проекте Протеом человека (Human Proteome Project), в котором Россия отвечает за белки человеческого организма, кодируемые 18-й хромосомой.
Один из новых масштабных проектов DELSA Global - Глобальный атлас белков (Global Protein Atlas). Члены международного альянса впервые заговорили он нем совсем недавно, на своей встрече в мае этого года в Бетесде, США. Его цель – охарактеризовать на основании геномных данных всевозможные белковые молекулы по ряду параметров как то: в какой ткани экспрессируется тот или иной белок, при каком заболевании, в каком окружении и в какой концентрации. Для реализации проекта участники DELSA воспользуются, в частности, данными другого масштабного проекта – Микробиома человека, в работе над которым исследователи установили, что организм человека населяют около 10 тысяч различных видов микробов. Все вместе они экспрессируют около 8 миллионов кодирующих белки генов. Для обработки и хранения этой информации точно понадобятся особые условия.
Спасение в облачных технологиях
На вопросы где хранить, как хранить и как обеспечить доступ к данным, которые получает протеомика, геномика, микробиомика и прочие так называемые "-омики" позволяют ответить биоинформационные технологии. "Если эти данные будут храниться в компьютере, к которому нет доступа вообще или доступ есть, но в ненадлежащей скорости, то никто не сможет эти данные анализировать, и с точки зрения налогоплательщика это работа в никуда", - говорит член-корреспондент РАМН, заместитель директора по научной работе ГУ НИИ биомедицинской химии им. В.Н. Ореховича РАМН Андрей Лисица.
Кадр "Первого канала", архив.
"Человек сгенерировал терабайты данных, из них удалось набрать материал на одну-две статьи по тому частному направлению, в котором он является специалистом, но все остальное оказалось закрыто для научного сообщества. Поэтому сейчас условием любого высокоэффективного эксперимента является размещение данных в так называемых общедоступных репозиториях" – считает ученый.
Подобную точку зрения высказывает и Евгений Колкер: "от 20 до 40 тысяч лабораторий во всем мире производят количество данных в эксабайтах (эксабайт – единица измерения количества информации, равная 1018 или 260 байтам), которые используются в пределах лишь 10 процентов - не более того, а не используются они потому, что нигде не размещены и недоступны. И явно что-то надо делать по-другому. А кто может что-то сделать разумное с огромным количеством данных, которые нигде не лежат? Компании типа Google, типа Amazon, типа Яндекса, типа китайского поисковика Baidu. У них другие технологии, у них есть распределительные центры и последнее время они стали исключительно эффективно использовать облачные технологии. Эти компании умеют анализировать данные, хотя биологические данные отличаются огромным разнообразием – это не анализ данных о наших покупках и поездках", - поясняет Колкер. Общедоступые репозитории, о которых говорит Андрей Лисица, и предоставляют т.н. облачные сервисы, или облачные технологии. Они обеспечивают повсеместный и удобный сетевой доступ по требованию к общему пулу данных. " Облака - это очень разумный партнер научных исследований", - считает Колкер.
Дальнейшее развитие протеомики связывают с совершенствованием методов биоинформатики и развитием кластерных вычислительных систем, на которых будут применяться сложные алгоритмы обработки данных. Однако никакие действия с данными сами по себе не вскроют заложенного в них смысла без участия человека. По мнению Андрея Лисицы, это прекрасная иллюзия: "слева у нас стоит хранилище, в котором свалены эти данные, справа у нас стоит мощный вычислительный кластер, "головастики" загружают туда алгоритмы, которые сначала разрабатывают, кластер берет данные, как в мясорубке их перерабатывает, и выдает нам ответы на фундаментальный вопрос, как организована жизнь". Пока что все не так просто, и человека-ученого из этого процесса ни на одном этапе не исключить.