Шест питања која треба да питате пре скока у прорачунску таблицу

Затражите гомилу научника да ли користе прорачунске табеле у свом раду и ви ћете се држати да бисте додирнули нерв. Многи су се заклели на прорачунске таблице, а други се куне од њих и неки се закуцају на то када су присиљени да их користе.
Шта то чини овај епитет корпоративне монотоније тако поларизира? Прорачунске табеле су широко доступне, али могу проузроковати главобоље за неразумне. Лако је случајно преписати садржаје у ћелији података, на пример или да одаберете погрешан опсег за израчун и завршите са погрешним вредностима. Понекад сама софтвер може да се упусти: на пример, Мицрософт Екцел је ноторан у генетичким круговима за аутоматски претварање генских имена као што су Оцт4 у датуме.
Шест савета за боље прорачунске табеле
Али то не значи да су изгубљени узрок. „Постоји врста овог уверења да прорачунска табла није добар алат за науку“, каже Ианина Беллини Саиибене „и то није тачно.“ Беллини Саиибене је научник података у Санта Роса, Аргентини и менаџеру заједнице, непрофитна иницијатива у Беркелеију, која пружа софтверске алате за отворене изворе за кориснике програмирања језика Р. Стилке у оквиру алата за истраживачима, али, као и било који алат, она, али, као и било који алат, она, али, као и било који алат, она која се користи.
Нажалост, недостатак стандардизоване обуке довело је до неких истраживача да развију лоше навике управљања подацима које на крају наруше способност прорачунске табеле да буде корисна, каже Карл Броман, статистичар на Универзитету Висконсин-Мадисон, који је написао о управљању подацима о прорачудности (КВ Броман & КХ Воо) Ам. Стат. 722-10; 2018). „Људи су креативни на начине на који ће злоупотребити прорачунске таблице“, каже он са смехом.
Следећи пут када размислите о употреби табеле за истраживање, ево шест питања, можете се замолити да их учините ефикаснијим.
Где су моји сирови подаци?
Пре него што урадите било шта са подацима, проверите да ли сте сачували нетакнуте, јасно означене верзије РАВ података – у идеалном случају као датотека само за читање у посебној мапи.
„Сваки пут када комуницирате са Екцелом прилика је да случајно негативно упишете нешто додатно и не схватате“, каже Броман. Када чак ни један притисак на тастери може прикрити или избрисати податке, он позива истраживаче да закључају своју главну датотеку података и да се уопште не зезне са њим. Уместо тога, направите копију сирових података и користите дупликат као своју радну верзију.
Шта желим да постигнем?
Марла Хертз, библиотекар за управљање истраживаним подацима на Универзитету Алабаме у Бирмингхаму, каже да многи проблеми у вези са прорачунским темама произилазе од покушаја да раде све кораке анализе у једној датотеци. Свака фаза животног циклуса података – од РАВ и прерађених података на анализу и коначну цифру – служи различиту сврху и треба их држати одвојено од осталих фаза.
ОБОСЕ ЕСЕЛЕБОР, истраживачки софтверски техничар на Институту Леедс Аналитике података на Универзитету Леедс, у Великој Британији, каже да њена стратегија за чишћење и анализу података зависи од њеног циља, да ли је то брза визуализација или вредност која је достојна публикација. Јасан циљ помаже Еселебору да буде фокусиран током чишћења великих, неуредних скупова података. Њен предлог да се избегне превладавање је да се реши проблеми један по један, као што је стандардизовање свих формата датума или праћење свих празних ћелија, пре него што крене даље.

Сциентист Дата Ианина Беллини Саиибене (лево), истраживачко управљање подацима Библиотелар Марла Хертз (центар) и истраживачки софтверски техничар Обозити Еселебор.КРЕДИТ: ЛР: ЕМБЛ ПХОТОЛАБ; Леки Цоон / Управни одбор Универзитета у Алабами за Универзитет у Алабами на Бирмингхаму; ХДР УК Црни програм стажирања
Да ли користим прави алат?
Ако су циљеви унос и прикупљање података, празнини прорачунске табеле су адекватни. Али постоје бољи алати који могу помоћи да се избегну каснији проблеми, каже Цристал Левис, самостални консултант за управљање подацима у Ст Лоуису, Миссоури. Унос података користећи дигиталне форме, као што су Гоогле форм, Мицрософтови обрасци, РедЦАП или Куалитри, могу да умањите грешке у подацима дајући корисницима дефинисану листу опција, ограничавајући врсте вредности које се могу уручити у то да подаци не буду постављени на погрешно место.
За чисту анализу података, међутим, прорачунске табеле не би требали бити ваш први избор, саветује научник Подаци Хеиди Сеиболд у Минхену, Немачка, који је извршни директор Дигиталне истраживачке академије, мреже која пружа обуку за побољшање квалитета истраживања. За разлику од скрипте написаног у програмирању као што је Питхон или Р, који документује сваки корак процеса и може се сачувати, верзије и рерун, анализу која се дешава унутар прорачунске табеле помоћу показивања и клика је тешко да се приближи и још теже.
Грешке аутоматске аутоматске грешке у Екцелу и даље стварају главобољу геномике
Прорачунске табеле такође не би требало да се користе ако имате посебно велики скуп података, каже Еселебор. Сећа се да је време када је то требало брзо завирити на прорачунску табелу са 100.000 редова, а замрзава је лаптоп. „Обично прелазим на Питхон или СКЛ да радим са огромним датотекама.“ (СКЛ, или структурирани језик упита, је програмски језик који се користи за управљање информацијама у базама података.)
Броон се слаже да се базе података могу бити од помоћи када ствари буду „постале заиста велике или стварно компликоване или када требате имати много бржег приступа подацима“, али процес обично захтева неке програмирање. Ако је пројекат довољно сложен да захтева базу података, вероватно је добра идеја да се укључе програмери ионако, каже он.
Како да форматирам свој лист?
Једна од најважнијих ствари коју истраживач може учинити је да држи машинско читљивим прорачунским путем. То значи да је форматирање на такав начин да рачунарски програм може да се логично креће кроз податке и прецизно обрађује информације у свакој ћелији.
„Рачунар ће желети правоугаонику података, где су редови појединци или субјекти и стубови мерења“, каже Броман каже. Он саветује да све вредности у колони треба да садрже исту врсту података са истим форматирањем.
Ћелије које су празне, спојене или садрже размаке или посебне знакове такође могу да ометају читљивост машине, као што могу мешати типове података у ћелији (као што је и вредност и њену јединицу). Или цртица или подвлаке могу се користити за одвајање речи уместо размака, каже Минг Томми Танг, директор биоинформатике на лијекорској фирми Астразенеца у Валтхаму, Масачусетс. Али он позива да их корисницима не користе наизменично: „Само будите доследни.“
Како да одговорно истражујем податке?
Ако учините било какве анализе или истраге у Екцелу, сваки подаци постављају у сопственом радном листу и ограничавају прорачуне и визуализације на наменске картице, саветује Беллини Саиибене.