Реферат на тему биоинформатика

Обновлено: 05.07.2024

Биоинформа́тика или вычисли́тельная биоло́гия — одна из дисциплин биологии, развивающая использование компьютеров для решения биологических задач. Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации.

Термины биоинформатика и вычислительная биология часто употребляются как синонимы, хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы. Считается, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.

Программи́рование — процесс и искусство создания компьютерных программ и/или программного обеспечения с помощью языков программирования. Программирование сочетает в себе элементы искусства, фундаментальных наук (прежде всего информатика и математика), инженерии, спорта и ремесла.

В узком смысле слова, программирование рассматривается как кодирование алгоритмов на заданном языке программирования. Под программированием также может пониматься разработка логической схемы для ПЛИС, а также процесс записи информации в ПЗУ. В более широком смысле программирование — процесс создания программ, то есть разработка программного обеспечения.

3. Кибернетика и информатика

Современная кибернетика началась в 1940-х годах как междисциплинарные исследования, соединяющее области систем управления, теории электрических цепей, машиностроения, логического моделирования, эволюционной биологии, неврологии. Системы электронного управления берут начало с работы инженера Bell Telephone Laboratories Harold S. Black в 1927 году по использованию отрицательной обратной связи, для управления усилителями. Идеи также имеют отношения к биологической работе Ludwig von Bertalanffy в общей Теории Систем.

Кибернетика как дисциплина была твёрдо установлена Wiener, McCulloch и другими, такими как W. Ross Ashby и W. Grey Walter. Walter был одним из первых, кто построил автономные роботы в помощь исследованию поведения животных. Вместе с США и Великобританией, важным географическим местоположением ранней кибернетики была Франция.

Весной 1947, Wiener был приглашён на конгресс по гармоническому анализу, проведённому в Nancy, Франция. Мероприятие было организовано Bourbaki, французским научным обществом, и математиком Szolem Mandelbrojt (1899—1983), дядей всемирно известного математика Benoît Mandelbrot.

В начале 1940-ых Джон фон Нейман, более известный по его работам в математике и информатике, внёс уникальное и необычное дополнение в мир кибернетики: клеточные автоматы фон Неймана, и их логическое продолжение Универсальный Конструктор фон Неймана. Результатом этих обманчиво простых мысленных экспериментов стало понятие самовоспроизводства, который кибернетика приняла как основное понятие. Понятие, что те же самые свойства генетического воспроизводства относились к социальному миру, живым клеткам, и даже компьютерным вирусам, является дальнейшим доказательством несколько удивительной универсальности кибернетических исследований.

Wiener популяризировал социальные значения кибернетики, проведя аналогии между автоматическими системами (такими как регулируемый паровой двигатель) и человеческими институтами в его бестселлере The Human Use of Human Beings: Cybernetics and Society (Houghton-Mifflin, 1950).

В то время как не мало исследовательских организаций сосредоточились на кибернетике, Биологическая Компьютерная Лаборатории в университете Иллинойса, Urbana-Champaign, под руководством Heinz von Foerster, была главным центром кибернетических исследований в течение почти 20 лет, начиная с 1958 г..

В течение прошлых 30 лет кибернетика прошла цикл взлётов и падений, становясь всё более значимой в области искусственного интеллекта и биологических машинных интерфейсов (то есть киборгов), и когда это исследование лишилось поддержки, область в целом сбилась со своего основного направления.

В 1970-ых новая кибернетика проявилась во многих областях, сначала в биологии. Некоторые биологи под влиянием кибернетических понятий (Maturana и Varela, 1980; Varela, 1979; Atlan, 1979), осознали, что кибернетические метафоры программы, на которых базировалась молекулярная биология, представляли собой концепцию автономии невозможную для живого существа. Следовательно, этим мыслителям пришлось изобрести новую кибернетику, более подходящую для организаций, которые человечество обнаруживает в природе — организации, которые он самостоятельно не изобрёл. Возможность того что эта новая кибернетика могла также составлять социальные формы организации, оставалась объектом дебатов среди теоретиков на самоорганизации в 1980-ых.

В политологии Проект Cybersyn попытался ввести кибернетически административно-командную экономику в течение начала 1970-ых. В 1980-ых, в отличие от её предшественника, новая кибернетика интересуется взаимодействием автономных политических фигур и подгрупп, и практического и рефлексивного сознания предметов, создающих и воспроизводящих структуру политического сообщества. Основное мнение — рассмотрение рекурсивности, или само-зависимости политических выступлений, как в отношении выражения политического сознания, так и путями, в которых системы создаются на основе себя.

Недавние усилия в истинном направлении кибернетики, системы контроля и поведения на стадии становления, в таких смежных областях, как теория игр (анализ группового взаимодействия), и Metamaterials (исследование материалов со свойствами вне ньютоновых свойств их составляющих атомов), системы обратной связи в эволюции, и метаматериал (изучение материалов со свойствами за Ньютоновскими свойства их составных атомов), привели к возрождению интереса в этой всё более актуальной области.

Объектом кибернетики являются все управляемые системы. Системы, не поддающиеся управлению, в принципе, не являются объектами изучения кибернетики. Кибернетика вводит такие понятия, как кибернетический подход, кибернетическая система. Кибернетические системы рассматриваются абстрактно, вне зависимости от их материальной природы. Примеры кибернетических систем — автоматические регуляторы в технике, ЭВМ, человеческий мозг, биологические популяции, человеческое общество. Каждая такая система представляет собой множество взаимосвязанных объектов (элементов системы), способных воспринимать, запоминать и перерабатывать информацию, а также обмениваться ею. Кибернетика разрабатывает общие принципы создания систем управления и систем для автоматизации умственного труда. Основные технические средства для решения задач кибернетики — ЭВМ. Поэтому возникновение кибернетики как самостоятельной науки (Н. Винер, 1948) связано с созданием в 40-х гг. 20 в. этих машин, а развитие кибернетики в теоретических и практических аспектах — с прогрессом электронной вычислительной техники.

Кибернетика является междисциплинарной наукой. Она возникла на стыке математики, логики, семиотики, физиологии, биологии, социологии. Ей присущ анализ и выявление общих принципов и подходов в процессе научного познания.

Деятельность отдельных людей, групп, коллективов и организаций сейчас все в большей степени начинает зависеть от их информированности и способности эффективно использовать имеющуюся информацию. Прежде чем предпринять какие-то действия, необходимо провести большую работу по сбору и переработке информации, ее осмыслению и анализу. Отыскание рациональных решений в любой сфере требует обработки больших объемов информации, что подчас невозможно без привлечения специальных технических средств.

Возрастание объема информации особенно стало заметно в середине XX в. Лавинообразный поток информации хлынул на человека, не давая ему возможности воспринять эту информацию в полной мере. В ежедневно появляющемся новом потоке информации ориентироваться становилось все труднее. Подчас выгоднее стало создавать новый материальный или интеллектуальный продукт, нежели вести розыск аналога, сделанного ранее. Именно поэтому стало все больше и больше уделяться внимания информационным технологиям. В своем реферате я раскрыла историю и этапы развития информатики, её структуру, а также один из важнейших разделов информатики – кибернетику.

1. Юрий Лифшиц. Курс лекций Современные задачи теоретической информатики

3. Сайт для учителя информатики в школе. Компьютер в школе

4. Информатика и информационные технологии в образовании на портале RusEdu

5. Материалы по теоретическим основам информатики на сайте "Учитесь.ру"

6. Энциклопедия информационных технологий

7. Статьи по информатике и информационным технологиям из научных библиотек

8. Виктор Штонда, Статья "О компьютерных науках"

9. А. А. Разборов Theoretical Computer Science: взгляд математика // Компьютерра. — 2001. — № 2

Раздел: Информатика, программирование
Количество знаков с пробелами: 34616
Количество таблиц: 0
Количество изображений: 0

В настоящее время слово биоинформатика стало очень модным, оно употребляется в трех разных смыслах. Первый смысл связывают с телепатией, экстрасенсорикой и т.д. Второй смысл связан с применением компьютеров для изучения любого биологического объекта. И третий - биоинформатика в узком смысле слова, а именно о применении компьютерных методов для решения задач молекулярной биологии, в основном анализа разных последовательностей (аминокислотных, нуклеотидных).

Файлы: 1 файл

Биоинформатика.docx

Министерство Образования Республики Беларусь

студентка группы ЭМ-21 преподаватель

Гулевич А.А. Миняйлова Е.Л.

Что такое биоинформатика?

В настоящее время слово биоинформатика стало очень модным, оно употребляется в трех разных смыслах. Первый смысл связывают с телепатией, экстрасенсорикой и т.д. Второй смысл связан с применением компьютеров для изучения любого биологического объекта. И третий - биоинформатика в узком смысле слова, а именно о применении компьютерных методов для решения задач молекулярной биологии, в основном анализа разных последовательностей (аминокислотных, нуклеотидных).

В общем, сам термин биоинформатика уже намекает на то, что здесь пойдет о связи биологии с компьютером. Биоинформатика используется в биохимии, биофизике, экологии и других областях. Она решает три основные задачи (которые в нашем компьютеризированном мире приобретают все большую актуальность):

  • математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика);
  • разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика);
  • исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем.

В биоинформатике используются методы прикладной математики, статистики и информатики.

  • базы данных, в которых хранится биологическая информация;
  • набор инструментов для анализа тех данных, которые лежат в таких базах;
  • правильное применение компьютерных методов для правильного решения биологических задач.

Немного из истории

Биоинформатика возникла в конце 70-х годов на стыке молекулярной биологии и генетики, математики (статистики и теории вероятности) и информатики, испытавшая влияние лингвистики и физики полимеров. Толчком к этому послужило появление быстрых методов секвенирования последовательностей ДНК. (Секвенирование (от англ. Sequence – последовательность) — определение первичной аминокислотной или нуклеотидной последовательности биополимеров (белков и нуклеиновых кислот – ДНК и РНК). В результате получается линейное символьное описание, которое сжато поясняет атомную структуру молекулы.) Нарастание объема данных происходило лавинообразно и довольно скоро стало ясно, что каждая полученная последовательность не только представляет интерес сама по себе (например, для целей генной инженерии и биотехнологии), но и приобретает дополнительный смысл при сравнении с другими. В 1982 году были организованы банки данных нуклеотидных последовательностей - GenBank в США и EMBL в Европе. Первоначально данные переносились в банки из статей вручную, однако, когда этот процесс начал захлебываться, все ведущие журналы стали требовать, чтобы последовательности, упоминаемые в статье, были помещены в банк самими авторами. Многие последовательности сейчас попадают в банки без публикации. Банки постоянно обмениваются данными и, в этом смысле, практически равноценны, однако средства работы с ними, разрабатываемые в Центре биотехнологической информации США и Европейском институте биоинформатики, различны. Пожалуй, первым биологически важным результатом, полученным при помощи анализа последовательностей, было обнаружение сходства вирусного онкогена v-sis и нормального гена фактора роста тромбоцитов, что привело к значительному прогрессу в понимании механизма рака. С тех пор работа с последовательностями стала необходимым элементом лабораторной практики.

В 1995 году был секвенирован первый бактериальный геном, в 1997 - геном дрожжей. В 1998 было объявлено о завершении секвенирования генома первого многоклеточного организма - нематоды. По состоянию на 1 сентября 2001 года доступны 55 геномов бактерий, геном дрожжей, практически полные геномы Arabidopsis thaliana (растения, родственного горчице), нематоды, мухи дрозофилы - все это стандартные объекты лабораторных исследований. Количество геномов, находящихся в распоряжении фармацевтических и биотехнологических компаний, оценить трудно, хотя, по-видимому, оно составляет многие десятки и даже сотни. (Информации даже о примерном количестве расшифрованных геномов на данный момент нет. Последние сведения в сети интернет повествуют, только то, что к марту 2011 года уже расшифровано около 200 геномов людей (различных национальностей и расовой принадлежности), а также большинство известных вирусов.) Ясно, что подавляющее большинство генов в этих геномах никогда не будет исследовано экспериментально. Поэтому компьютерный анализ и становится основным средством изучения.

Все это привело к тому, что биоинформатика стала чрезвычайно модной областью науки, спрос на специалистов в которой очень велик. Следует отметить, что одним из неприятных последствий возникшего шума стало то, что биоинформатикой называют всё, где есть биология и компьютеры . В то же время многие области уже пережили такие моменты (например, теория информации ), и хочется надеяться, что за пеной ажиотажа не пропадет то действительно интересное, что делается в настоящей биоинформатике.

Следует отметить, что многие задачи из разных областей решаются сходными алгоритмами.

В последние годы возник ряд новых задач, связанных с прогрессом в области автоматизации не только секвенирования, но и других экспериментальных методов: масс-спектрометрии, анализа белок-белковых взаимодействий, исследования работы генов в различных тканях и условиях. При этом не только возникает необходимость создавать и заимствовать из других областей новые алгоритмы (например, для обработки результатов экспериментов в области протеомики (отрасль молекулярной биологии, изучающая кодируемые генами белки и их роль в регуляции функций организма) широко применяются методы анализа изображений), но и происходит распространение биоинформатических подходов на смежные области, например популяционную и медицинскую генетику. Существенно при этом, что роль биоинформатики не сводится к обслуживанию экспериментаторов, как это было еще несколько лет назад: у нее появились собственные задачи.

Коротко об основных областях исследований

Анализ генетических последовательностей

Обработка гигантского количества данных, получаемых при секвенировании, является одной из важнейших задач биоинформатики

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом (англ. Owen White), работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.

Вычислительная эволюционная биология

Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:

    • изучать эволюцию большого числа организмов, измеряя изменения в их ДНК, а не только в строении или физиологии;
    • сравнивать целые геномы (используя BLAST), что позволяет изучать более комплексные эволюционные события, такие как: дупликация генов, латеральный перенос генов, и предсказывать бактериальные специализирующие факторы;
    • строить компьютерные модели популяций, чтобы предсказать поведение системы во времени;
    • отслеживать появление публикаций, содержащих информацию о большом количестве видов.

    Область в компьютерных науках, которая использует генетические алгоритмы, часто путают с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диферсификация через рекомбинацию или мутации, и выживании в естественном отборе.

    Оценка биологического разнообразия

    Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля. Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям. Компьютерные симуляторы моделируют такие вещи, как популяционная динамика, или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.

    Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как Фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.

    Теперь перейдем к рассмотрению инструментов биоинформатики и непосредственному применению динамического программирования (на примере выравнивания последовательностей). Инструменты определяются задачами, которые хотят решать.

    Основу биоинформатики составляют сравнения. Если у нас есть, например, аминокислотная последовательность, о которой у нас есть экспериментальные данные, и известны ее функции, и другая, похожая на нее последовательность, мы можем предположить, что эти последовательности выполняют сходные функции. Это задача поиска сходства последовательностей

    Другая задача связана с анализом генома. Например один бактериальный геном можно просеквенировать в хорошо оборудованной лаборатории за неделю. При этом получают длинную нуклеотидную последовательность нуклеотидов. Там есть гены – белок-кодирующие участки, и участки, кодирующие тРНК и рРНК. Возникает задача найти эти гены. Другая задача – поиск сигналов в ДНК, то есть тех участков ДНК, которые отвечают за регуляцию - сайты связывания регуляторных белков, элементы вторичной структуры мРНК, которая транскрибируется с этого гена и др.

    Генетические тексты — тексты с большой долей шума, сравнивая родственные последовательности, в ряде случаев удается отфильтровать шум и выявить сигнал, например, короткую последовательность нуклеотидов, способную связываться с белкомрегулятором, или аминокислотные остатки в ферменте, отвечающие за связывание субстрата. Чтобы быть уверенными в результате, биоинформатики используют теорию… Читать ещё >

    Понятие биоинформатики. Биоинформатика и проект генома ( реферат , курсовая , диплом , контрольная )

    Под биоинформатикой обычно понимают использование компьютеров для решения биологических задач. В настоящее время это почти исключительно задачи молекулярной биологии. Причина этого в том, что за последние 20−25 лет накоплен поистине колоссальный экспериментальный материал именно о строении и функционировании биологических молекул (белков и нуклеиновых кислот), в качестве примера достаточно привести геном человека. Этот материал требует развитых компьютерных методов для своего анализа. Поэтому биоинформатика в большинстве мировых научных центров понимается как синоним вычислительной молекулярной биологии.

    Есть несколько основных направлений этого раздела науки, в зависимости от исследуемых объектов:

    • * Биоинформатика последовательностей.
    • * Структурная биоинформатика.
    • * Компьютерная геномика

    Основные направления биоинформатики в зависимости от исследуемых объектов

    Биоинформатика последовательностей

    Биоинформатика последовательностей

    Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

    Пусть ген найден. Что он кодирует? Зачем он нужен?

    Если речь идет об участке ДНК, кодирующем белок, то с помощью весьма простой операции — трансляции с использованием известного генетического кода можно получить. аминокислотные (белковые) последовательности. Из известных на сегодня 4 273 512 белков около 94% последовательностей — это именно такие гипотетические трансляты, и больше о них ничего не известно. Скорость поступления информации с автоматических секвенаторов превышает скорость нашего понимания ее смысла! Но биологические объекты — это объекты, возникшие в процессе эволюции. Сравнительно-эволюционный подход — один из мощнейших подходов в биологии. Например, функция белка из одного организма хорошо экспериментально изучена, в другом организме нашли белок с похожей аминокислотной последовательностью. Можно предположить, что второй (неизвестный) белок выполняет ту же или схожую функцию. И здесь сразу возникает несколько вопросов. Во-первых, что значит похожая последовательность? Как сравнивать последовательности? При какой степени сходства последовательностей можно предполагать, что белки выполняют сходные функции? Сравнение последовательностей (выравнивание) является важнейшей задачей биоинформатики. Трудно найти современного биолога, ни разу не использовавшего программы Blastp и ClustalX, появление этих программ — уже крупный успех биоинформатики. Но современные биоинформатики недовольны и постоянно совершенствуют методы выравниваний. Можно привести много примеров того, как сравнительно-эволюционный подход в сочетании с биоинформатическими методами порождает новое биологическое знание.

    Генетические тексты — тексты с большой долей шума, сравнивая родственные последовательности, в ряде случаев удается отфильтровать шум и выявить сигнал, например, короткую последовательность нуклеотидов, способную связываться с белкомрегулятором, или аминокислотные остатки в ферменте, отвечающие за связывание субстрата. Чтобы быть уверенными в результате, биоинформатики используют теорию вероятности и математическую статистику. Подводя итог, можно сказать, что основные задачи биоинформатики, связанные с анализом отдельных последовательностей, состоят в следующем:

    • * Выравнивание и определение сходства двух последовательностей
    • * Построение множественных выравниваний
    • * Распознавание генов
    • * Предсказание сайтов связывания регуляторных белков
    • * Предсказание вторичной структуры РНК

    Создание новых экспериментальных технологий ставит перед биоинформатикой целый ряд новых задач. Например, развитие масс-спектрометрии позволяет (пока в принципе) в одном эксперименте проанализировать весь набор белков, присутствующий в клетке. Для решения этой задачи необходим совместный анализ спектров масс и геномов. Открытие новых биологических явлений и механизмов также приводит к появлению новых задач. Хорошим примером служит открытие РНК интерференции, за которую в 2006 году дали Нобелевскую премию по физиологии. Это открытие породило целый вал биоинформатических работ, посвященных поиску участков связывания микроРНК и новых микроРНК. Многие находки были затем подтверждены экспериментально.



    Про биоинформатику слышали многие. Кто-то знает больше, кто-то меньше. Мы постарались раскрыть вопрос этой, относительно новой, науки. Так сказать, дать общие представления читателю об основных вехах развития, методах и проблемах: решённых и существующих на нынешнее время.


    С этого момента биоинформатика развивалась стремительно и неумолимо. В 1970 году Нидельманом-Вуншем была предложена система сравнения аминокислотных и нуклеотидных последовательностей. Эти алгоритмы быстро находили применение в огромном количестве исследований и стали фундаментом для новых открытий. Одним из наиболее важных прорывов стали алгоритмы и программы, позволяющие предсказывать вторичные структуры белков, а на их основе — предсказывать функции отдельных доменов и белков в целом (мы писали об этом здесь).


    Вообще, стандартным решением многих биологических вопросов является сравнение полученных данных с эталоном, и информационные технологии, позволяющие перенести эти расчёты на компьютеры. Исследования в этой области знания приносят очень прорывные и технологические плоды.

    Визуализированный результат работы алгоритмов выравнивания аминокислотных последовательностей:


    Вместе с развитием применения информационных технологий развивались и сами методы получения этих данных. Происходило их накопление. Например, на новый уровень выходили методы секвенирования, получали целые геномы модельных организмов, а их расшифровка и аннотирование во многом ложилось на вычислительную технику. Не углубляясь в историю развития методов NGS (next generation sequencing) отметим лишь, что сейчас есть возможность получать до 2 миллионов пар нуклеотидов за одно прочтение по весьма низкой себестоимости (в случае секвенирования методом MinION — стоимость одного миллиона пар нуклеотидов колеблется в районе 1$).


    Секвенатор MinION. Принцип работы основан на изменение силы тока по мере прохождения цепи через нанопору.

    Чем больше становилось референсных данных, тем больше была точность работы программ. Конечно, развивались и алгоритмы, обрабатывающие эти данные. И постепенно интерес в биоинформатике сместился с изучения отдельных частиц к исследованию взаимодействий разных генов. Отсюда даже выделился новый раздел биоинформатики — системная биология (объект — как система связанных процессов и компонентов взаимодействующих друг с другом).


    Новые технологии позволили получать все больше данных, в свою очередь, эти массивы охватить человеческим сознанием уже было невозможно, а многие расчёты на компьютерах до сих пор занимают дни и недели (например, сборки больших геномов).

    Чтобы не быть голословным, приведём несколько примеров исследований с использованием методов биоинформатики:

    Так, команда DeepMind буквально год назад решила вопрос по предсказанию трёхмерной структуры белка по его аминокислотной последовательности. Хотя сама проблема считалась буквально фундаментальной и сформулированной ещё в 1970-х.Сама идея о том, что аминокислотная последовательность белка несёт в себе информацию о его функциях была высказана нобелевским лауреатом по химии Кристианом Анфинсном. С тех пор это стало вызовом для компьютерных технологий, поскольку альтернативой для выяснения трёхмерной структуры (а значит, и функции белка) были лишь долгие эксперименты, тянувшиеся порой десятки лет для выяснения функции лишь одного белка. В 1969 году проблему обозначил Сайрус Левинталь, оценивший количество конформаций для типичного белка как 10 в 300 степени вариантов. Разработанный программистами ИИ AlphaFold позволяет весьма быстро (2–3 дня расчётов для типичного белка на не самом мощном компьютере) решать вопрос третичной конформации белка, а значит и его функции. Конечно, и здесь остаются проблемы, одна из основных — ИИ обучался на тех белках, для которых третичной структуры уже известны и верификация расчётов для отличных белков остаётся под вопросом. Но даже так, это однозначно прорыв в фундаментальной, структурной биологии. И, однозначно, найдёт своё применение в разработке многих лекарств. Больше можно почитать про ИИ на этом сайте .

    Наверняка многие слышали про NGS — секвенирование нового поколения. Методы NGS позволяют получать огромные нуклеотидные последовательности. При этом для того или иного участка по итогу секвенирования может существовать много тысяч прочтений и выравнивание этих фрагментов относительно друг друга сделать человеческими силами просто невозможно. Однако же существует ряд программ, в которых любой исследователь может получить консенсусные последовательности, просто внеся нужные параметры и переложив все вычисления на компьютер.


    Изображения из статьи (Kuzmin I. et al., 2020). Фрагмент сосудистой сети головного мозга Bissektipelta archibaldi.

    Иным примером использования биоинформатики в традиционных исследованиях может послужить орнитологическая работа исследователей из СПбГУ (Bojarinova J. & Babushkina O., 2015). Ещё в 2006 году были начаты эксперименты по влиянию фотопериоду на двигательную активность воробьиных птиц ( сначала длиннохвостых синиц, а после, и иных видов). Отловленные на Ладожской Орнитологической станции птицы помещались в цилиндрические клетки, с установленными камерами и лампами на таймере. Все движения птиц записывались, а отдельная программа обсчитывала, в какую сторону движения птиц были наиболее активными. Безусловно, сбор такого материала мог быть проведён и самими исследователями, путём ежедневного наблюдения за клетками, но это отняло бы гораздо больше времени, а также сильно увеличилась бы погрешность в данных.


    Простая иллюстрация модели Лотки-Вольтерра.

    Ранее мы уже упоминали, что одно из применений биоинформатика находит в области молекулярной биологии. Работы, основанные на сборке геномов, сравнении и аннотировании и анализе последовательностей, так или иначе, прибегают к методам биоинформатики. Однако же в приближении, оказывается, что решение многих задач берёт своё начало в поиске наибольших совпадений между двумя последовательностями белковыми или нуклеотидными. В случае белковых рассматриваются последовательности аминокислот, в случае нуклеотидных — последовательности нуклеотидов соответственно. Одним из самых первых алгоритмов можно назвать алгоритм Нидлмана–Вунша, разработанный и опубликованный в 1970 году. Иные его названия: алгоритм оптимального соответствия или метод глобального выравнивания. Он применим для выравнивания любых двух строк, будь то аминокислотная, нуклеотидная последовательность или же просто набор букв, цифр.


    Эвристические алгоритмы основаны на функции, которая ранжирует альтернативы на каждом шаге ветвления вариантов (ранжирование происходит на основе изначально установленных и введённых данных, то есть, основываясь на уже имеющейся информации) и, таким образом, конечный ответ будет приблизительно соответствовать оптимальному варианту. Такое решение не является абсолютно верным, но остаётся ценным в силу скорости получения ответа. На сходном принципе основана вся эвристика.

    Вероятностные же методы, помимо использования основных алгоритмов выравнивания учитывают разные вероятности тех или иных замен. В этом случае строятся так называемые матрицы замен. Разные аминокислоты заменяются в процессе эволюции с разной вероятностью. И для учёта этой неравной вероятности замен используются матрицы. Не вдаваясь в частности, отметим, что и у этих методов есть свои недостатки. Так, точность вероятностных методов сильно уменьшается с увеличением дистанции между таксонами.



    WinClada — одна из программ, используемая при работе с матрицами

    Мы уже писали про использование матриц признаков выше. Как правило, такой подход используется в морфологических исследованиях. Метод используется в описательной биологии, когда, к примеру, мы хотим установить весь комплекс признаков для 2 или более видов. Безусловно, в приближении идея выглядит довольно просто. Давая количественную или качественную оценку разным признакам у представителей разных видов, мы можем достаточно быстро составить нужную матрицу. Однако же при работе с большими коллекциями или множеством видов (или признаков, а может быть и того и другого) проанализировать получившиеся данные становится крайне затруднительно человеческими силами. И на помощь приходят разные программы для обработки таких данных: TNT, WinClada, PAUP. С помощью них любой человек может провести кладистический анализ имеющихся матриц признаков.

    Учитывая разнообразие задач, встающих перед биоинформатиками в разных областях биологии — появление огромного спектра самых разнообразных программ для обеспечения расчётов и анализа моделей — становится неизбежным. Зачастую эти программы не адаптированы для использования обывателем, содержат ошибки, а их оптимизация недостаточно хороша. Примером может служить программа PAST, используемая изначально для обсчёта палеонтологических данных, а в дальнейшем и для решения самых разных статистических задач, притом что там остаются ошибки в алгоритмах некоторых вычислений.

    Конечно, для стандартных задач уже существует немало понятных программ, с доступным руководством. Большое количество библиотек на таких языках программирования как Python или R. Но всё же круг задач в биологии, для которых использование методов биоинформатике могло бы сильно продвинуть исследования в этих областях — остаётся весьма широк. И востребованность специалистов в этой сфере всё ещё очень высока.

    ▍Места, где можно обучиться в России. Программы и курсы.

    Отдельным плюсом биоинформатики можно отметить её доступность. Практически любой программист или математик может в весьма короткие сроки перепрофилироваться в эту область. Кроме того, любой из наших читателей может познакомиться с некоторыми принципами и методами этой науки. А при большом интересе и найти первую работу в этой области, так как спрос во многом превышает предложение и востребованность таких специалистов велика.

    Многие курсы по биоинформатике доступны на разных онлайн-площадках подобных площадке Stepic. Мы предложим лишь несколько курсов, которые нам самим нравятся:

      позволяет получить самые начальные навыки в биоинформатике и возможно подтолкнёт новичка к дальнейшему развитию своих навыков; подойдёт тем, кто хочет получить продвинутые навыки программирования в подсистемах семейства Linux;
    1. Институт биоинформатики. У них Вы можете найти расширенный список курсов. И, возможно даже поступить на обучение.

    ▍Заключение.


    На множественных примерах мы видим, что биоинформатика является важным разделом в современной биологии. Она оказывает огромное влияние на медицину и биологию, как фундаментальную, так и практическую. Статистические методы открывают небывалые перспективы для многих областей этих наук. При этом новое применение находят многие мониторинговые исследования, не имевшие большого применения в прошлом. Теперь эти огромные массивы данных могут быть проанализированы с применением вычислительной техники. Как это нередко бывает, применение методов на стыке дисциплин и междисциплинарные исследования приносят порой самые неожиданные результаты, которые оказывают большое влияние на развитие науки.

    Следует отметить, что биоинформатика до сих принимается некоторыми учёными лишь за метод (к тому же не самый точный) помогающий в исследованиях. И, конечно, у них есть право так считать. На то есть комплекс причин, одна из самых очевидных: несовершенность моделей. Так, на данный момент времени создать идеальную модель той или иной живой системы и учесть все факторы и взаимодействие их влияний — практически невозможно.

    Мы же, в свою очередь, уверены, что информационные технологии хоть и не являются панацеей, но переводят многие исследования на совершенно новый уровень по скорости и точности исполнения. Это открывает (уже открыло) для человечества совершенно новые перспективы для развития как медицины, так и биологии в целом. А раз так, то мы и не вправе называть биоинформатику просто методом!

    Читайте также: