Miks Hadoop sobib ideaalselt genoomi järjestamiseks

Sisu

Genoomika olevik ja tulevik
Geenivaramu kaardistamise tööstuse vajadused
Mida oodatakse lahenduses?
Miks on Hadoop genoomi järjestamise parim lahendus
Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata
Mida saab Hadoop teha?
Hadoopi võimalused
Crossbow: järgmise põlvkonna andmehaldusplatvorm
Muu Hadoopi põhine genoomikatarkvara
Järeldus

Allikas: A3701027 / Dreamstime.com

Ära võtma:

Geenivaramu järjestamine vajab kõigi oma andmete haldamiseks võimsaid tehnoloogiavahendeid ja Hadoop on ülesandega hakkama saanud.

Kliiniline genoomika on põnev teema, kus inimesed töötavad välja tipptasemel tehnoloogiad, et kiireid ja täpseid tulemusi töödelda. Turul on saadaval palju genoomijärjestusi ja nad toodavad järjestuste andmete petabaite ning järjestuse kasvades on lähitulevikus vaja saada andmete eksabaidid. Hadoop on siin ideaalne platvorm keeruka genoomika töövoo töötlemiseks. Hadoop suudab tohutul hulgal teavet salvestada ja sorteerida ning osutab ka asjalikku analüüsi. (Et saada aimu, kui palju andmeid see tegelikult hõlmab, lugege jaotist Mõistmine bittide, baitide ja nende kordistamise kohta.)

Genoomika olevik ja tulevik

Täna on genoomi kaardistamine jõudnud oma arengu tippu. Paljud genoomikatööstusega seotud inimesed matavad uudishimu ja kuna uusi võimalusi pakutakse, on tunni jaoks vajalik parem tehnoloogia. Geenivaramu järjestamine on väga korduv ja ressursimahukas ülesanne. Ainuüksi 2013. aastal toodeti umbes 15 petabaiti andmeid ja seda tegi ainult 2000 jada. See lõualuu langev kogus sisaldas 300 KB järjestatud andmeid inimese genoomi kohta. Sellise andmetootmise kiiruse korral võib prognoosida, et 2018. aastaks toodetakse umbes üks andmete exabyte. Selle põhjuseks on järjestuste arv, mis toodavad üha rohkem andmeid ühe töötsükli kohta. Teine põhjus on äärmiselt võimsate ja odavate genoomi sekveneerimismasinate tulek. Alates 2008. aastast on nende masinate hind pidevalt langenud. See on tingitud võimsatest järgmise põlvkonna masinatest, mis on turule sattunud.

Geenivaramu kaardistamise tööstuse vajadused

Inimese genoomist kogutud andmete töötlemiseks kasutatakse keerulisi algoritme. Seejärel tuleb see teave säilitada. See võidakse tulevikus üle vaadata, et võrrelda seda algsete andmetega. 100 GB andmete töötlemine ja salvestamine pole liiga keeruline, eriti kui teete seda järjestuskeskustes kasutatavate võimsate masinatega. Uuringud näitavad, et seda andmemahtu saab töödelda vaid umbes 1000 protsessori tunniga, seega on see väga lihtne. Sellise tehnilise arengu tempos on ilmne, et genoomitööstus töötleb peagi vaid mõne sekundi jooksul tuhandeid gigabaite.

Andmehaldus- ja salvestustehnikad ei arene siiski nii kiiresti, mistõttu võib oodata väärtuslike andmete suurt kaotust. See on tõesti ebasoovitav, kuna see takistab tõsiselt inimgenoomikas tehtud edusamme. Seega on väga vaja tõhusat andmehaldusmeetodit, mida saaks hõlpsasti värskendada. See võib olla efektiivne eriti lähitulevikus, kus genoomi kaardistamine liigub suurtest võimsate arvutitega laboritest väikestesse haiglatesse ja laboritesse.

Mida oodatakse lahenduses?

Uute genoomide järjestamise tehnikate avastamise ja arendamise tempo on äärmiselt kõrge. See tempo võib olla arstiteadusele väga kasulik, kuna see annab tugeva sammu peamiste haiguste likvideerimise suunas. Kuid ka see tempo võib olla väga keeruline.

Väljakutse seisneb järjestamisprojektide toodetud suurte andmemahtude haldamises. Seega on vaja tõhusat lahendust, mis aitab suurandmete salvestamisel ja töötlemisel. See lahendus peab olema odav ja kiire, samal ajal ka kohanemisvõimeline. Selle lahenduse analüüs peab olema ka täpne ja pidev. Mis on probleemile lahendus? Kahtlemata on see Hadoop. (Lisateavet Hadoopi kasutamise kohta leiate peatükist 5 statistikat suurandmete kohta (Hadoop) teenusena.)

Miks on Hadoop genoomi järjestamise parim lahendus

Genoomikatööstus vajab suurepärasemat lahendust, mis aitab neil andmeid tõhusalt hallata, töödelda ja edaspidiseks kasutamiseks salvestada. Tundub, et see lahendus sobib ideaalselt tarkvaraga Hadoop. Niisiis, Hadoopi võib pidada täiuslikuks suurandmete haldamise tarkvaraks, mis võib oluliselt parandada genoomikatööstuse praeguseid andmete salvestamise tehnikaid.

Hadoopi reaalajas võimalused võimaldavad genoomijadadel reaalajas analüüsida ja salvestada suures koguses andmeid. See võimaldab andmete edaspidist kasutamist. Hadoop suudab võita paljusid pärandsüsteeme, kuna see on neist palju kiirem ja töökindlam.

Pole vigu ega stressi - teie samm-sammuline juhend elumuutva tarkvara loomiseks ilma oma elu hävitamata

Te ei saa oma programmeerimisoskusi parandada, kui keegi tarkvara kvaliteedist ei hooli.

Mida saab Hadoop teha?

Tänu Hadoopile on genoomika ja geenijärjestuse valdkonnas avanenud suur hulk võimalusi ja võimalusi. Hadoop pakub paralleelseid arvutamisvõimalusi, tänu millele on võimalik kiirem järjestamine. Lisaks saab Hadoopi funktsiooni MapReduce kasutades hõlpsasti kaardistada suuri geenide arvu. Seetõttu muutub Hadoopiga järjestamine tõeliselt „järgmiseks sugulaseks” ja on palju vähem keeruline.

Hadoopi võimalused

Hadoopil on genoomitööstuses mitmeid võimalusi, kuid parim neist tuletati ajakirja Genes & Development Lynda Chini artiklist “Vähi genoomi andmete mõistmine”. Selles artiklis arutleb ta, kuidas tänapäevane genoomika on uusi uksi avanud, ja see on andnud palju positiivseid tulemusi, näiteks vähktõvega seotud genoomiteabe avastamine. Seetõttu oleme lähemal vähktõve ravi avastamisele. Selle valdkonna paremaks uurimisvõimaluseks vajab see siiski pisut rohkem tähelepanu ja võimsat andmehaldusrakendust. See võib olla Hadoopile parim võimalus oma kiiruse, võimsuse ja täpsuse tõestamiseks.

Crossbow: järgmise põlvkonna andmehaldusplatvorm

Crossbow, mis on genoomi uuesti sekveneerimise analüüsimiseks mõeldud tarkvarajuhtmestik, on üks parimaid lahendusi. See oli Hadoopi integratsiooni tulemus järjestatud andmete joondamise kiire algoritmi, mida nimetatakse Bowtie, ja võimsa algoritmi vahel, mis võrdleb ja uurib järjestatud andmeid, st genotüübi nimega SoapSNP. See on üles ehitatud Apache Hadoopile ja põhineb MapReduce raamistiku rakendamisel. Crossbow on kaasaskantav, skaleeritav ja sobib ka pilvandmetöötluse tööriistana.

Selle võimsa integratsiooni abil saab täielikku genoomi uurida vaid ühe päevaga kohalikus klastris, kus on 10 sõlme. 40-sõlmelise klastri korral on protsess veelgi kiirem ja lõpeb kõigest kolme tunniga kogumaksumusega alla 100 USD! Crossbooki täpsuse testimiseks läbi viidud uuring näitas, et see võib võrrelda iga genoomi 99-protsendilise täpsusega. Veel üks Crossbow kasulik omadus on see, et see töötab pilvel. Seega võimaldab Crossbow tuhandetel tulevastel sekveneerimiskeskustel, nagu haiglad, järjestada suures koguses genoomi andmeid ilma vajaduseta võimsate, kulukate arvutite ja tehnoloogia järele.

Muu Hadoopi põhine genoomikatarkvara

Paljud ettevõtted on tunnistanud Hadoopi võimu genoomikamaailma muutmisel. Nad on Hadoopi sobivalt modifitseerinud, et kasutada ära selle potentsiaali genoomi paremaks järjestamiseks. Allpool on toodud mõned näited kuulsatest Hadoopi-põhistest genoomi järjestamise lahendustest:

Hadoop-BAM: see on võimas andmehaldusriist, mis kasutab Hadoopi funktsiooni MapReduce mitmesuguste genoomikaga seotud tegevuste jaoks, näiteks genotüüpide tegemine. See töötab binaarse joondamise / kaardi vormingus.
Cloudburst: see Hadoopi-põhine lahendus loodi 2009. aastal. See on genoomijärjestuste võrdlemisel ja üksikute geenide kaardistamisel äärmiselt tõhus. See on ka üks esimesi Hadoopi põhiseid rakendusi, mis on selleks loodud.

Järeldus

Integratsioon suurandmete ja genoomikatööstuse vahel on tänapäeval osutunud õnnistuseks. Need platvormid on tõhusad paljude haiguste, näiteks vähi, raviviiside avastamisel. Genoomi kaardistamisel leitavaid andmeid saab kasutada selliste haiguste ennetava teabe formuleerimiseks. Suurandmete tulekut võib pidada pöördepunktiks genoomika maailmas ning kui teavet kasutatakse arukalt, siis võib-olla ka laiemas tervishoiu valdkonnas. Ainus selle välja edasiliikumise viis on nõuetekohaste andmehaldusriistade nagu Hadoop kasutamine.