kultura

Револуционарни ДНК претраживач убрзава генетско откриће

Ретке генетске болести сада се могу открити код пацијената и идентификовати мутације специфичне за тумор – прекретницу омогућено секвенцирањем ДНК, које је трансформисало биомедицинска истраживања пре неколико деценија. Последњих година, увођење нових технологија секвенцирања (следеће генерације секвенцирања) покренуло је талас открића. Током 2020. и 2021. године, на пример, ове методе су омогућиле брзо декодирање и праћење генома САРС-ЦоВ-2 широм света.

Истовремено, све већи број истраживача своје резултате секвенцирања чини доступним јавности. Ово је довело до експлозије података, ускладиштених у великим базама података као што су амерички СРА (Секуенце Реад Арцхиве) и европски ЕНА (Европски архив нуклеотида). Заједно, ове архиве сада садрже око 100 петабајта информација – што је отприлике еквивалентно укупној количини текста пронађеног на целом интернету, при чему је један петабајт једнак милион гигабајта.

До сада су биомедицинским научницима били потребни огромни рачунарски ресурси да претражују кроз ове огромне генетске репозиторије и упореде их са сопственим подацима, чинећи свеобухватне претраге скоро немогућим. Истраживачи на ЕТХ Цириху су сада развили начин да превазиђу то ограничење.

Претраживање целог текста уместо преузимања читавих скупова података

Тим је направио алат под називом МетаГрапх, који драматично поједностављује и убрзава процес. Уместо преузимања читавих скупова података, МетаГрапх омогућава директне претраге унутар сирових ДНК или РНК података – слично као коришћење интернет претраживача. Научници једноставно уносе генетски низ од интереса у поље за претрагу и, у року од неколико секунди или минута у зависности од упита, могу да виде где се та секвенца појављује у глобалним базама података.

„То је нека врста Гоогле-а за ДНК“, објашњава професор Гунар Рач, научник за податке на Одељењу за компјутерске науке ЕТХ Цириха. Раније су истраживачи могли да траже само дескриптивне метаподатке, а затим су морали да преузму пуне скупове података да би приступили сировим секвенцама. Тај приступ је био спор, непотпун и скуп.

Према ауторима студије, МетаГрапх је такође изузетно исплатив. Представљање свих јавно доступних биолошких секвенци захтевало би само неколико хард дискова рачунара, а велики упити не би коштали више од око 0,74 долара по мегабази.

Пошто је нови ДНК претраживач и брз и прецизан, могао би значајно да убрза истраживање – посебно у идентификацији патогена у настајању или анализи генетских фактора повезаних са резистенцијом на антибиотике. Систем може чак помоћи у лоцирању корисних вируса који уништавају штетне бактерије (бактериофаге) скривене у овим огромним базама података.

Компресија за фактор 300

У њиховој студији објављеној 8. октобра год ПриродаЕТХ тим је показао како функционише МетаГрапх. Алат организује и компресује генетске податке користећи напредне математичке графиконе који ефикасније структурирају информације, слично као што софтвер за прорачунске табеле распоређује вредности. „Математички гледано, то је огромна матрица са милионима колона и трилионима редова“, објашњава Ратсцх.

Креирање индекса за претраживање великих скупова података је познат концепт у рачунарској науци, али ЕТХ приступ се истиче по томе како повезује необрађене податке са метаподацима док постиже изузетну стопу компресије од око 300 пута. Ово смањење функционише слично као сажимање књиге – уклања сувишне вредности, а истовремено чува суштински наратив и односе, задржавајући све релевантне информације у много мањем облику.

„Померамо границе могућег како би скупови података били што компактнији без губитка неопходних информација“, каже др Андре Калес, који је, као и Ратсцх, члан Групе за биомедицинску информатику на ЕТХ Цириху. За разлику од других маски за претрагу ДНК које се тренутно истражују, приступ истраживача ЕТХ је скалабилан. То значи да што је већа количина тражених података, то алату треба мање додатне рачунарске снаге.

Половина података је већ доступна

Први пут представљен 2020. године, МетаГрапх се стално усавршава. Алат је сада јавно доступан за претрагу (хттпс://метаграпх.етхз.цх/сеарцх) и већ индексира милионе ДНК, РНК и протеинских секвенци вируса, бактерија, гљивица, биљака, животиња и људи. Тренутно је укључена скоро половина свих доступних глобалних скупова података о секвенци, а очекује се да ће остатак уследити до краја године. Пошто је МетаГрапх отворени код, могао би да привуче интересовање и фармацеутских компанија које управљају великим количинама интерних истраживачких података.

Кејлес чак верује да је могуће да ће ДНК претраживач једног дана користити приватни појединци: „У раним данима чак ни Гугл није тачно знао за шта је претраживач добар. Ако се настави брзи развој секвенцирања ДНК, може постати уобичајено да се прецизније идентификују ваше балконске биљке.“

Related Articles

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *

Back to top button