Šafář, Luděk: Big neznamená jenom hodně

Čas zpracování obrovských objemů variabilních a rychle se měnících dat přijde, říká Luděk Šafář, Manager Tech Consultant ve společnosti EMC.

Big Data je podle některých názorů jen nová nálepka pro celkem banální inovace ve zpracování dat. Co Vy na to?

Můžu to ilustrovat na příkladu sociální sítě: když chcete zmapovat vzájemné vazby mezi jednotlivými účastníky, je to jednoduché: to se přece odjakživa řeší tabulkou a zaškrtnutím příslušného políčka, že? Ale co když ta tabulka nakyne na 900 milionů řádků, tak počet políček je číslo se sedmnácti nulami.

Tohle je odpověď na otázku, jestli Big Data představují něco nového: koncepčně velmi jednoduchý problém narazí na technologická omezení a stane se neřešitelným. No, a protože existuje potřeba ten problém řešit, tak je nutné vyvinout nová technologická řešení, obecně nové nástroje. A pro ten nový koncept existuje název Big Data.

Ta tabulka, to ale není úplně typický příklad… Co se vlastně v byznysu změnilo, že musely vzniknout nové metody zpracování dat?

Stručně: dat je mnoho, rychle se mění a jsou velmi různorodá. Mimochodem, začíná být trochu nepříjemné, že označení Big Data akcentuje pouze první z těch tří charakteristik, tedy velký objem. Ale ty další dva faktory, tedy variabilita dat a rychlost, s níž se mění, jsou v některých případech dokonce ještě podstatnější. Tak třeba na burze musíte mít některé analýzy k dispozici prakticky okamžitě. Nebo jiný příklad, také z oblasti kapitálových trhů: k odhadu vývoje trhů se používají také indikátory nálady v sociálních sítích, třeba na Twitteru. Ukázalo se, že akciové indexy s těmito indikátory korelují tak těsně, že jsou reálně využitelné k obchodování. Je však zřejmé, že za takovými indikátory jsou složité algoritmy, jimiž je nutné prohnat obrovská kvanta dat, a to velmi rychle.

Takže Big neznamená jenom hodně…

Upřímně, je to trochu zavádějící zjednodušení. Může svádět k, řekněme, technicistnímu přístupu: přidáme storage, zvýšíme výpočetní kapacitu, posílíme komunikační infrastrukturu…. Ale to není řešení.

Vrátím se k otázce, jestli Big Data představuje něco principiálně nového. Já tvrdím, že ano, protože dokáže řešit úlohy, které byznys vyžaduje, a které by tradičními způsoby prostě nebylo možné vyřešit. Tradičním přístupem k nárůstu náročnosti zpracování dat je, pořídit nové servery, nové serverové farmy… Ale tady se bavíme o nárocích, které nejsou pouze mnohonásobkem dřívějších nároků – jsou o mnoho řádů náročnější, jsou prostě mimo dosah technologií.

Co je na technologiích, jimž říkáme Big Data, opravdu specifického, je paralelní zpracování výpočtů. Ještě donedávna neexistovaly nástroje, jak roztříštit úlohu na tisíce nebo miliony dílčích úloh, distribuovat je ke zpracování a z dílčích výsledků složit výsledek celkový. Právě tohle je důvod, proč ve zpracování dat často neplatí to intuitivní řešení „tak nakoupíme další výkon“. Neplatí ta logika „Když dělník postaví dům za tisíc hodin, tak tisíc dělníků ho postaví za hodinu“.

Teď už zjednodušuji opravdu brutálně, ale Big Data můžeme přirovnat ke geniálnímu managementu stavby, který umožní, že těch tisíc dělníků si na té stavbě nepřekáží a ten dům fakt postaví za hodinu. Ten příklad měl ukázat, že Big Data řeší jiné úlohy než tradiční nástroje na zpracování dat. A jsou postavené na úplně jiných technologických základech. To má spoustu dopadů – mimo jiné to, že v oblasti Big Data vznikli noví hráči, což by jinak nebylo představitelné. Nezapomeňte, že problematika Big Data se přece jenom dotýká především – ale zdůrazňuji, že nikoli výlučně – velkých organizací. Takže by bylo logické, kdyby tento nový trh obsadili především jejich tradiční dodavatelé, ať už jde o databáze, BI nebo systémové integrátory. Myslíte, že kdyby nešlo o nový fenomén, že by zavedení dodavatelé ke svým velkým zákazníkům někoho nového pustili?

Pojďme opustit teoretický spor, co jaké míry je Big Data nový obor – nemáte nějaký bližší příklad využití Big Data, než jsou sociální sítě nebo stavebnictví?

Ty sociální sítě jsem zmínil proto, že firmy typu Facebook a především Google jako první čelily výzvě využít gigantická množství dat, v drtivé většině nestrukturovaných. A udělaly velkou část průkopnické práce, na nichž koncept Big Data stojí.

Ale samozřejmě jsou i další obory, kde je možné pomocí Big Data získat konkurenční výhodu. Třeba telekomunikace.

Operátorovi zavolá na infolinku zákazník se stížností. Možností, do jaké míry zákazníkovi vyjít vstříc, je široké spektrum, a operátor se musí pro některou rozhodnout. Je jasné, že klíčem ke zvolení správného přístupu je znalost hodnoty daného zákazníka, přesněji schopnost vyčíslit škodu z jeho případného odchodu.

Tradiční metody takového scoringu byly docela primitivní, a v podstatě vystačily s útratou zákazníka. Ale operátor přece má spousty dalších dat, z nichž může získat informace o daném zákazníkovi a s jejich využitím ten jeho scoring zpřesnit. Tedy – zpřesnit… On ten scoring často vyjde úplně jinak, než vypovídá pouhá výše útraty daného zákazníka. Bez té se operátor přece klidně obejde – ale co když ten zákazník byl ústřední postavou nějaké skupiny, kterou strhne s sebou? Tohle zjistit, to vyžaduje analýzu aktivit toho zákazníka. Nechci zabíhat do detailů, ale jen pro zajímavost: pro scoring zákazníka je důležitější, kolik lidí mu volá, než kolika lidem volá on sám.

Tak takovýto scoring, to není triviální úloha…

To tedy není. Je absolutně vyloučené, mít takhle podrobné podklady připravené pro všechny zákazníky preventivně, protože by k tomu byla potřeba výpočetní kapacita s cenou daleko převyšující reálné benefity takového přístupu.

A samozřejmě nemůžete zákazníka odkázat s řešením jeho stížnosti na pozdější dobu. Operátor se musí rozhodnout hned. Jediným řešením tedy je, mít k dispozici technologie, které celou scoringovou analýzu provedou v horizontu sekund, nanejvýš několika málo desítek sekund.

O čem mluvíte, to je v podstatě extrémní podoba Business Intelligence.

BI je obor, z něhož Big Data koncepčně vychází: jde o to, zpracovat data a dostat z nich informace. Jde jen o to, kolik těch dat – a jakých – dokážete zpracovat, a jak rychle.

Typickým využitím BI systémů jsou dávková zpracování dat. Typicky jednou za týden systém schroustá data, a vypadne z něj výstup, s nímž třeba celý týden pracují obchodníci z té firmy. A musejí se smířit s tím, že ty informace nejsou úplně aktuální. Systémy pro Big Data naproti tomu pracují typicky na vyžádání.

Ale největší rozdíl je v tom, s jakými daty se pracuje. BI tradičně stálo na předpokladu, že data jsou uložena v databázích, že jsou snadno dostupná – především proto, že jsou strukturovaná. A že mají rozumný rozsah. Příkladem je nákupní košík, kde nemůže být nic, co není na skladě, a kde nemůže být extrémně mnoho položek, protože to zboží přece zákazník přivezl k pokladně v nákupním vozíku. Pro zpracování dotazů nad těmito daty samozřejmě stačí nástroje, běžně používané v IT už dlouho. Ale ukazuje se, že je k dispozici čím dál víc dalších dat, které s byznysem také souvisejí, a bylo by zajímavé je nějakým způsobem využít. Když jsme u retailu: kromě množiny nákupních košíků mají obchodníci k dispozici třeba záznamy z různých čidel – můžete sledovat počty zákazníků v různých částech prodejny, nebo třeba teplotu… a to nemluvím o záznamech z kamer. Vedle toho máte reakce zákazníků v diskusním fóru na internetových stránkách obchodu… A zpracovávat tato data tradičními metodami jde jen těžko, protože jen těžko splníte tu standardní podmínku, mít je v databázích.

Když to zobecním, tak jde o to, najít nové faktory, které ovlivňují byznys, a jejich analýzou získat podklady pro lepší rozhodování.

Tedy získat konkurenční výhodu.

Z pohledu celé organizace jde samozřejmě o konkurenční výhodu. Ale zajímavé téma je i dopad Big Data na IT oddělení ve firmách.

Domnívám se, že Big Data jsou pro IT příležitostí, jak úplně změnit roli, kterou v organizaci hrají, jak zvýšit svůj význam a prestiž. Právě pomocí Big Data může IT nabídnout konkrétní přínos pro byznys, prostě přinést reálné, vyčíslitelné hodnoty. Překročit svůj stín nákladového střediska a z podřízené pozice dodavatele služeb pro byznys přerůst do pozice partnera.

IT oddělení a jeho prestiž… můžeme mluvit přímo o CIOs, ne?

No… je pravda, že od CIO se čeká, že upozorní vedení organizace na poklad v podobě dosud nevyužívaných dat, identifikuje jejich potenciál a navrhne způsob, jak je využít. Ale nemusí to být přímo CIO osobně, kdo na možnost nového využití dat přijde. Může to být kdokoli z IT, kdo se pohybuje na pomezí IT a byznysu… V poslední době se pro takový profesionální profil používá název Data Scientist. Myslím, že takový Data Scientist by měl být v každé firmě… Ale už teď je jasné, že těchto lidí bude na trhu zoufalý nedostatek, a to už ve velmi blízké době.

Ale vrátím se k tomu, jakou příležitostí je téma Big Data pro IT oddělení. Ano, je to příležitost, a velká. Ale je to také hrozba – v případě, že top management dostane tento námět od někoho jiného. Pak logicky přijde otázka, jestli ono „I“ ve zkratce CIO opravdu znamená „Information“ nebo jen „Infrastructure“. Jestli pro práci z informacemi není potřeba někoho jiného…

Ten někdo jiný, to docela dobře může být byznys konzultant.

Přesně tak. Big Data, to je téma právě pro business consulting, protože je velmi blízko core byznysu zákazníka. Právě byznys konzultanti mohou vyřešit ten základní problém, že naši potenciální klienti, tedy potenciální uživatelé technologií Big Data, nemají potuchy, co všechno by s těmi technologiemi mohli dělat, a jaké přínosy by pro ně mohly mít. Tohle vysvětlovat není primárně úloha pro nás, jakožto dodavatele technologické infrastruktury, ale pro konzultanty, kteří s klienty řeší byznysové problémy typu vysoká fluktuace zákazníků. Právě takové problémy mohou technologie Big Data pomoci vyřešit.

Tvrdíte, že technologie Big Data přinášejí úžasné možnosti – tak proč se ale jejich využívání už dávno nerozšířilo?

Hlavním důvodem je, že Big Data se pohybují mezi byznysem a IT. Jde sice o technologie, ale o takové, jejichž nasazení si musí vyžádat byznys. A lidé z byznysu často ani netuší o možnostech, které by s využitím Big Data mohli mít. Firmy mají spousty dat, ale ani nevědí, co je v nich za hodnotu. Vůbec je ani nenapadne hledat nějaké využití. Prostě pokračují ve vyjetých kolejích: to jsme nikdy nedělali…

Ale věřím, že zájem o nové možnosti ve zpracování dat dál poroste. S tím, jak se zostřuje konkurenční prostředí, se zužuje prostor pro špatná rozhodnutí, učiněná na základě nedostatečných informací a znalostí.

Takže čas zpracování obrovských objemů variabilních a rychle se měnících dat přijde. A jestli to bude pod hlavičkou Big Data, to je jedno.

Facebook
Twitter
LinkedIn

Přihlaste se k odběru Inside Observer free, týdennímu newsletteru o trendech utvářejících trhy a nenech si utéct alespoň základní informace.

Přihlaste se k odběru Inside Observer free, týdennímu newsletteru o trendech utvářejících trhy a nenech si utéct alespoň základní informace.

Dokončete svou registraci k newsletteru