Data science
2 минута
Read

Универзални приступ подацима: Први корак ка науци о удаљеним подацима

Pratyush Patodia
У 2018, заједнички истраживачки пројекат између Универзитета Централне Флориде и Града Орланда користио је податке о саобраћају у реалном времену како би пронашао стратегије које ће помоћи у смањењу саобраћајних несрећа и на крају побољшати безбедност на путевима у граду.

Упркос малом обиму пилот пројекта, он је изузетно помогао истраживачима да дубље разумеју вишеструке варијабле саобраћаја у реалном времену и открију стратегије за смањење судара или барем смањење смртних случајева.

Шта ако се тај скуп података може проширити?

Са 280 милиона возила и 227,5 милиона возача, Сједињене Државе су једна од најпрометнијих нација у погледу саобраћаја. Није изненађујуће да се сваке године на путевима у земљи региструје забрињавајући број несрећа. Само у 2018. број возила која су учествовала у сударима износио је узнемирујућих 12 милиона.

Шта ако се подаци о саобраћају широм земље могу прикупити и користити за анализу како би се откриле стратегије које би побољшале безбедност на путевима у Сједињеним Државама?

Могли бисте проучити информације о свакој саобраћајној несрећи и открити разлоге – од квалитета пута преко подмуклих терена до возачких вештина – који ће највероватније довести до несреће. Онда, замислите колико је живота спашено предузимањем малих превентивних мера!

Међутим, доступност и приступ тако великим скуповима података представљају огроман изазов. Чак и ако су такви подаци доступни, они су присутни у групама са владиним агенцијама, невладиним организацијама, приватним корпорацијама и другим институцијама. Затим, ту је питање приватности података, валидно и осетљиво питање.

Сада, шта ако би се сам универзум таквих скупова података могао проширити?

За све ове наизглед непремостиве изазове, ''blockchain'' технологија нуди решење. Може чак да се позабави двоструким питањима приватности и интероперабилности.

''Blockchain'': Децентрализација великих података

Централизовани модели машинског учења представљају огроман проблем приватности. Када се такви системи покваре или су нападнути, приватност података којима рукују је угрожена. Срећом, ''blockchain''технологија нуди савршену противмеру. У случају ''blockchain'', не постоји централизован систем који се може хаковати или физички оштетити.

У ствари, по први пут у историји, појединци имају приступ транспарентном и децентрализованом систему који нам помаже да одлучимо које информације се деле, а које не.

''Blockchain'' нису ништа друго до базе података – непроменљиве и дељене. Савремени технолошки развој такође представља узбудљиво ново поглавље у ''blockchain'' технологији.

''Blockchain'' су сада скалабилни, што их чини корисним у окружењима великих података. Ово отвара врата за заједничку контролу података, трагове које је лакше пратити и, што је најважније, универзалну размену података.

За успешну универзалну размену података потребно је да подаци буду поуздани, подложни ревизији, безбедни и употребљиви. По својој природи, ''Blockchain'' технологија испуњава ове захтеве. Уводи интероперабилност, видљивост, приватност и заштиту у процесу размене података. ''Blockchain'' апликације се већ користе за размену података у здравству, науци и другим дисциплинама.

Питања приватности и безбедности података такође постоје у ''Blockchain''. Ипак они се могу ефикасно решити уз диференцијацију приватност.

Елеганција диференцијалне приватности

Истраживачи са Универзитета Карнеги Мелон објавили су рад под насловом „ Simple Demographics Often Identify People Uniquely “. Они су показали да се 87% Американаца може јединствено идентификовати само на основу њиховог 5-цифреног поштанског броја, пола и датума рођења. У суштини, то значи да ако скуп података садржи ове три тачке података, не може се сматрати анонимним.

Подаци и компјутерски научници су то такође више пута доказали. На пример, такмичење за Netflix награду 2006. тражило је од конкурената да креирају предиктивни алгоритам како би одредили како ће неко оценити филм на систему заснованом на звездама. Netflix је објавио скуп података који је наводно анонимизирао податке о 480.000 корисника са 100 милиона оцена за 17.000 филмова. Нажалост, уклонили су корисничко име и лажирали неке оцене да би подржали анонимност. Међутим, 2008. године научници са Универзитета Тексас објавили су рад под насловом: „Robust Deanonymization of Large Sparse Datasets “. Ови истраживачи су идентификовали људе у скупу података Netflix награде тако што су га укрштали са јавно доступним подацима на IMDb-у. Много је примера такве деанонимизације наизглед анонимних података.

Диференцијална приватност може да се супротстави таквој деанонимизацији, омогућавајући научницима да пређу ка сигурнијем приступу универзалним скуповима података.

Разумевање диференцијалне приватности

У суштини, диференцијална приватност додаје ''буку'' скупу података где не угрожава употребљивост података, али отежава проналажење оригиналне тачке података. Ова ситуација је слична радио сигналима. Ако не подесите свој радио на прецизну фреквенцију станице, пријем ће бити погрешан, али и даље можете примити поруку (музику, вести или нешто друго), иако у мало изобличеном облику.

Диференцијална приватност укључује додавање пажљиво измерене ''буке'' и промену јединствених идентификатора у оквиру читавих скупова података. Пошто алгоритми диференцијалне приватности знају како се диференцијални шум приватности додаје скуповима података, можете га компензовати у својим анализама да бисте открили истинске записе заробљене у оригиналном скупу података. Диференцијална бука приватности у скуповима података се обично уводи коришћењем Лапласове дистрибуције за дистрибуцију података у ширем опсегу и побољшање анонимности.

Компаније попут Google-а и Apple-а већ су почеле да нуде различиту приватност са својим новим оперативним системима.

Корак ка будућности

Ово је ера знања, а ''blockchain'' технологија нуди јединствену и невиђену прилику да се то знање подели са свим заинтересованим странама ради остваривања веће користи. Међутим, у потрази за знањем, кључно је размотрити питања приватности која могу имати дугорочан утицај на појединце, земље и будућност саме ''blockchain''технологије – примена принципа ''blockchain'' и диференцијалне приватности у снабдевању машинским учењем представља моћно решење и показује пут напред. У комбинацији са техникама као што је '' Federated Machine Learning'' (о томе смо писали овде), то би омогућило да се предности каскадирају док се решавају проблеми који се појављују.

Претпоставимо да сте више заинтересовани за детаље и технике даљинске науке о подацима путем диференцијалних скупова података који су прожети приватношћу. У том случају, можете погледати и ''OpenMined'', водећу организацију у заговарању и развоју овог напора.

Join the conversation

Развијте своје пословање

Да ли сте спремни да изградите посао својих снова? Нека вам наша техничка стручност и извођење покажу најбољи пут напред.

ПОЧНИТЕ САД