Знаете ли вы, сколько информации скрыто внутри ваших собственных клеток? Это огромные массивы разнообразных данных. Каким же образом современным учёным удаётся расшифровывать и обрабатывать этот большой объём? Информатика и математика помогли биологам создать новую науку – биоинформатику. Она необходима для анализа, организации и понимания биологических процессов. Биоинформатика позволяет управлять огромными объёмами информационных потоков, позволяет исследовать тайны жизни и находить ответы на сложные вопросы о функционировании живых существ.

Вы можете быть удивлены, узнав, что каждая клетка вашего тела содержит «справочник» с инструкциями по построению и поддержанию всего вашего организма. Эта информация хранится в ДНК, которая имеется практически у всех живых существ и является «универсальным языком» жизни. В клетках человека этот язык состоит из более чем шести миллиардов «букв».

Учёные называют весь набор инструкций ДНК, находящихся внутри каждой клетки, геномом. Он разделён на «главы», известные как хромосомы. Каждый вид имеет определённое количество хромосом. Например, у человека 23 пары хромосом, а у помидоров - 12 пар. ДНК - это длинная молекула, состоящая из последовательности четырёх «букв», соответствующих четырём химическим соединениям: аденину (А), гуанину (G), цитозину (С) и тимину (Т). Комбинации этих четырёх составляющих используются клетками, чтобы знать, как себя вести. Геном каждого человека немного отличается от геномов других людей. Сумма этих различий приводит к уникальному внешнему виду и даже может влиять на то, как вы думаете или действуете. «Чтение» генома означает знание последовательности этих химических соединений, из которых он состоит. Для этой цели учёные используют метод, называемый секвенированием генома.

Но знать только последовательность - это всё равно, что пытаться прочитать книгу, написанную на неизвестном языке. Надо либо выучить сам язык, а для этого необходимо расшифровать и интерпретировать символы под своё понимание. Специалисты по биоинформатике стремятся идентифицировать конкретные цепочки внутри генома, называемые генами. Гены – это функциональные единицы наследственности, несущие информацию, передаваемую из поколения в поколение и уточняющие уникальные признаки. Каждый ген содержит информацию, необходимую для создания определённого белка. Белок – это уже большая и сложная молекула. Такие молекулы играют множество важных ролей в живых организмах.

Фактически, каждый раз, когда клетка хочет что-то сделать, она обращается к «справочнику», выбирает необходимые строки текста (то есть гены) и использует их для построения белков. Белки - это работники организма, каждый из которых выполняет свою особую работу. Они могут вносить изменения в строение клеток, помогают «строить» новые клетки, взаимодействовать друг с другом или с другими химическими соединениями, например, для построения мышц, волос или ногтей. Гены, и белки могут быть представлены цепочкой символов, а интереснейшая задача биоинформатики заключается в изучении этих последовательностей, для расшифровки их секретов. Первое, что делают специалисты этой научной дисциплины - знакомятся с такими текстовыми файлами на компьютерах, в которых хранятся последовательности ДНК или белков. Затем, с помощью программного обеспечения и мощных серверов, расположенных, как правило, в центре обработки данных (ЦОД), они смогут расшифровывать и интерпретировать эти записи, а главное сравнивать с другими подобными биопоследовательностями (так называются последовательности ДНК и белков).
Известные биопоследовательности можно сравнивать со всеми другими известными, чтобы сделать вывод об общем эволюционном происхождении или общей структурной функции. Но что из себя представляют такие сравнения? Это означает, что с помощью компьютерных программ нужно выстроить их в пары, чтобы сопоставить как можно больше символов. Оценка этого выравнивания определяется суммой совпадений, несовпадений и пробелов (добавок или удалений относительно другой последовательности). Другими словами, выравнивание двух последовательностей означает выявление областей сходства или отличия. Последовательности белков тоже можно сравнивать. Существуют инструменты биоинформатики, которые позволяют учёным транслировать последовательность ДНК в последовательность белка, а затем приступать к выравниванию и анализу.

Вместо парного сравнения исследователи могут также использовать инструменты, которые позволяют им искать в базе данных определённую последовательность. Например, если у них есть последовательность и они хотят знать, какой тип белка она кодирует или какова может быть её функция, то специальное ПО может сравнить эту новую биопоследовательность со всеми известными, хранящимися в базах данных. Чем больше сходство, тем больше вероятность того, что гены или белки выполняют одни и те же функции внутри клетки.

Данные о здоровье - это информация из таких источников, как медицинские записи, опросы и даже электронные гаджеты, которые становятся всё более популярными в деле поддержания здоровья людей. Компьютеры и интернет упрощают хранение и обмен такими данными, которые исследователи могут использовать для понимания и предотвращения заболеваний, а также разработки более эффективных методов лечения. Для этого они объединяют биологию, информатику и математику, чтобы находить закономерности. Но использовать такие наборы сведений, как оказалось, весьма непросто. Необходимо сначала найти нужную информацию среди множества доступных источников, затем убедиться, что данные «чисты» и правильны. После того, как эти компоненты собраны и проверены, учёные анализируют их, для использования в научных и лабораторных разработках. Надо учитывать тот факт, что почти вся информация такого характера является одновременно личной и ценной, поэтому её необходимо хранить в безопасности, обеспечив конфиденциальность персон.

Раньше термин «медицинские данные» использовался в основном, когда речь шла об экспериментах, проводимых учёными или лаборантами. Они собирались в ходе проведения экспериментов, анализировались для подтверждения гипотез, а затем использовались для планирования следующих экспериментов. Иногда это приводило к созданию нового лекарства или лучшему пониманию болезни, но часто эти данные (например, понимание того, сколько мышей поправилось от нового лекарства) использовались только самими экспериментаторами.

Но мир меняется стремительно, так же, как объём и структура медицинских данных. Теперь этот термин относится к любой информации, связанной со здоровьем людей. Информация о состоянии здоровья может поступать из различных источников, помимо научных исследований, включая электронные медицинские записи, опросы пациентов, последовательности изучения ДНК. Многие исследовательские области используют последовательности ДНК, чтобы понять, как гены влияют на здоровье. Растущее число носимых устройств (умные часы, трекеры сна и активности, мониторы уровня сахара в крови и др.) помогает найти способы предотвращения заболеваний или их лечения. Это огромны объём данных, но, благодаря облачным технологиям и интернету, хранить их и делиться ими стало проще. Обмен данными позволяет не только учёным, но и компаниям-производителям, использовать накопленные массивы информации для разработки новых устройств, которые могут улучшить здоровье человека.

Этот объём информации уже настолько велик, что её уже просто невозможно хранить на флэш-накопителе или даже на одном мощном компьютере. Не говоря уже о том, чтобы обрабатывать и систематизировать, сохраняя, при этом, конфиденциальность. Эти огромные наборы данных часто хранятся на мощных серверах, которые предназначены для выполнения множества задач и одновременного обслуживания множества пользователей. Серверы подобны огромным цифровым библиотекам, где учёные могут хранить свою информацию и получать к ней доступ из любого места в любое время. Обработанные обезличенные данные о состоянии здоровья, хранящиеся на серверах, также можно передавать коллегам по научной деятельности, для проведения других исследований. Использование такой информации этими новыми способами называется перепрофилированием. Такой инновационный подход очень полезен, поскольку исследователи могут делать новые открытия без необходимости проводить собственные эксперименты с нуля. Перепрофилирование экономит деньги и усилия, а также может ускорить темпы научных открытий.

Точно так же, как детектив использует улики для раскрытия дела, биоинформатики используют компьютеры и специальное программное обеспечение, чтобы найти «улики» в «куче» медицинских данных. Но как этот раздел науки помогает совершить переход от поиска и обработки к улучшению здоровья человека? Представьте, что вы специалист, работающий в области биоинформатики, и хотите, например, провести исследование сердечно-сосудистых заболеваний. Первый шаг - сбор всех доступных данных по этой теме. Подобно детективу, расследующему дело, вы должны найти правильные источники. Возможно, некоторые кусочки головоломки в загадке исследуемого заболевания возникли в результате экспериментов и исследований, проведённых в лабораториях по всему миру. Высока вероятность, что они уже существуют, в виде последовательностей ДНК или информации о молекулах, связанных с сердечными заболеваниями. Другие части вашей головоломки могут быть получены из электронных медицинских карт пациентов с похожими заболеваниями или из исследований того, как различные лекарства влияют на таких пациентов. Найдя правильные источники, вы должны убедиться, что действительно можете использовать эту информацию. Некоторые БД имеют открытый доступ - это означает, что каждый может использовать данные бесплатно в любое время и для любых целей, в то время как другие источники могут быть «закрытыми», то есть исследователи должны запросить доступ и выполнить определённые требования, прежде чем эту информацию использовать.

Предположим, доступ ко всем найденным источникам получен. Помните, что эти источники содержат данные, полученные другими учёными или врачами, которые, возможно, работали над вопросами, совершенно отличными от вашего исследования. Это означает, что, вероятно, есть данные, которые вам не нужны, но они смешаны с теми, которые необходимы. Задача состоит в том, чтобы найти свои конкретные части головоломки среди всего массива. Помните поговорку про иголку в стоге сена? Специальные инструменты биоинформатики используются для «задавания правильных вопросов» к BigData (так принято называть массивы больших данных), чтобы получить только ту информацию, которая относится к вашему исследовательскому вопросу. Например, вы можете отделить все последовательности ДНК (или медицинские записи) людей с сердечно-сосудистыми заболеваниями от последовательностей здоровых людей или людей с другими заболеваниями. Но на этом процесс ещё не заканчивается.

Как упоминалось выше, так же, как детективу нужно собрать улики из нескольких источников, скорее всего, вам тоже понадобится более одного источника для раскрытия тайны. Например, если вы хотите выяснить, связана ли мутация в определённом гене с заболеванием сердца, вам может потребоваться объединить электронные медицинские записи (информацию об историях здоровья пациентов и их состоянии здоровья) из одного источника с данными о последовательностях ДНК из совершенно другой БД. Такой процесс объединения данных из нескольких источников называется интеграцией - она помогает выявлять взаимосвязи и закономерности, которые можно не увидеть, используя только один источник. Но информация может быть представлена в разных форматах, с разными расширениями файлов, разными видами таблиц - то есть они могут попросту быть несовместимы друг с другом. Единицы измерения могут быть записаны по-разному (например, в одних наборах будут фигурировать фунты, а в других килограммы). Поэтому, сперва надо будет все эти разные типы привести к какой-либо единой форме.

Возвращаясь к аналогии с головоломкой, представьте, что вы пытаетесь собрать головоломку, но у вас есть лишние копии некоторых частей, а другие погнуты или сломаны и плохо сочетаются друг с другом. Вероятно, вам захочется как можно лучше очистить кусочки и удалить лишние, чтобы получить больше шансов успешно собрать пазл. В биоинформатике именно здесь происходит очистка данных - процесс проверки точности и надёжности информации, путём исправления ошибок и удаления дубликатов. Очистка данных - особенно важный шаг, поскольку ошибки могут привести к неправильным выводам (представьте, что в этих массивах где-то затесались цифры представления возраста в четырёхзначном представлении - например, 7056 лет). При этом надо проконтролировать, чтобы не удалилась нужная информация.

Когда ваши данные будут очищены и готовы к исследованию, наступит время самого интересного действия - аналитики. Анализ данных служит для выявления закономерностей, поиска взаимосвязей и генерации важных выводов. Учёные используют специальные инструменты и методы, чтобы осмыслить важную информацию и сделать значимые выводы. Сейчас для выполнения «детективной работы» по поиску закономерностей, поиска подсказок и составлению выводов, на основе наблюдений, используют мощные компьютеры и умные математические функции. В ходе вашего исследования вы можете обнаружить, что из всех людей с сердечно-сосудистыми заболеваниями те, у кого есть определённый ген, с большей вероятностью проживут дольше, если, например, будут принимать именно вот такое лекарство. Подобный вывод было бы невозможно сделать, изучая только медицинские записи или только последовательности ДНК, но, используя методы биоинформатики для поиска, объединения, очистки и аналитики, можно обнаружить новые взаимосвязи, которые в конечном итоге могут спасти жизни многих пациентов.