Technology

adatelemzes.jpg
Forrás: Medium.com
A számítógépes adatelemzés eszközei és lehetőségei

Digitális előrelátás

Az előre tervezés, előre gondolkodás egyik leghatékonyabb eszköze a modern ügymenetben az üzleti intelligencia, és ahogy egyre több és több adat termelődik és töltődik fel a Felhőbe (nyilván a Big Data jelenségről beszélek), úgy lesznek ezek a BI rendszerek egyre megbízhatóbbak és pontosabbak. Azonban az üzleti intelligencia maga sem egy homogén massza, hanem megállás nélkül fejlődő, egymással vetekedő, de legalábbis mást nyújtó megoldások gyűjtőfogalma.

Ebben a cikkben, egy általános összefoglaló után, ahol elkülönítem a prediktív és preszkriptív analitikát, szeretném bemutatni ezeket a megoldásokat, hogy behatóbb ismeretekkel felvértezve helyesen dönthessen a lehetőségek közül.

Adatelemzés és prediktív analitika háttere

Mielőtt még a prediktív analitika mélységeibe hatolnánk, fontos tisztáznunk az alapvető big data és adat-analitikai fogalmakat. Az adatok feldolgozása klasszikusan a matematika, azon belül a matematikai statisztika területe, ami még akkor is megkerülhetetlen, ha manapság már a számítógépek átvették az uralmat az adatfeldolgozás és az adatelemzés felett.

Az adatanalízis az üzleti intelligencia rendszerek igazi vadászterülete. Minden BI tudja az adatvizualizációt, amikor az adatait színes grafikonok (charts) formájában jelennek meg és segítenek a gyors döntésben vagy az eredmények prezentálásában egy találkozón. A másik lehetséges adatelemzési módszer az értelmező (explanatory) adatelemzés, amikor az eszköz lehetőséget ad arra, hogy az adatok mélyére ásson és megtalálja az összefüggéseket. Ilyen eszköz például a grafikonoknál a lefúrás (drill down) lehetősége, vagy a pivot tábla.

A leíró statisztikai elemzés (descriptive statistics), ami a vizsgált adatok karakterisztikáját vagy tulajdonságait hivatott leírni. Ide tartoznak a jól ismert statisztikai mérőszámok: átlag, szórás, medián, variancia, stb. és ezek mind vizuálisan, mind pedig értelmező táblázatokban is tálalhatók.

Prediktív analitika

A prediktív analitika a leíró, deszkriptív analitikából fejlődött ki, képes feltárni egy idősorról, hogy növekvő vagy csökkenő trend jellemzi, és ha egy mért adat az elmúlt két évben minden nap növekedett, akkor nagy biztonsággal mondhatjuk, hogy jövő hétfőn is növekedni fog – és el is érkeztünk a prediktív elemzéshez. Ha ennél bonyolultabb helyzet áll elő, akkor pedig algoritmusokat is bevetünk, hogy a kívánt eredményhez vezesenek.

A prediktív analízis szokásos módszere, hogy az adatok egy jelentős részét elkülöníti és ezeken az adatokon „tanítja” az algoritmust, majd a fennmaradó részén az adatoknak teszteli az algoritmus hatékonyságát. Mivel ezek az algoritmusok a módszer során „megtanulják” az adathalmaz tulajdonságait, tanuló algoritmusoknak nevezzük őket és az informatikában ezt hívják machine learningnek (gépi tanulás).

Eddig azok a szervezetek, akik komolyan akartak foglalkozni a prediktív analitikával adattudóst vettek fel (vagy ilyen részleget létesítettek), aki lekódolta a szükséges elemző eszközöket. Az alábbiakban azonban megmutatom, hogy az üzleti intelligencia rendszerek fejlődésének köszönhetően már nem minden esetben van szükség saját adattudósra a jövő megjósolásához.

Prediktív analitikai módszerek


1. Trendvonal vagy regresszió
Önkiszolgáló szint: Magas
Előnyök: Gyors válaszidő, kis számítási igény, elterjedt módszer.
Hátrányok: Közepes előrejelzési hatékonyság és a big data adatbázisokon rosszul működik.

Ez a legegyszerűbb és ezáltal a legelterjedtebb prediktív eszköz és így az üzleti intelligencia szoftverek széles körében elérhető, de már az Excel is tudja és valószínűleg önnek sem kell hosszasan ecsetelnem. A legtöbb üzleti intelligencia rendszer megáll a lineáris és logisztikus regresszió használatánál, ami nem csak azt jelenti, hogy bonyolultabb regressziós technikák nem elérhetők a szoftverekben, hanem azt is, hogy a további pontokban tárgyalt fejlettebb módszereket sem lehet használni beépítetten a legtöbbjükben (köztük a PowerBi, a Sisense, a Tableau, a Qlik, a Looker, a Domo sem támogatja ezeket).


A trendvonal előnye a számítási gyorsasága, egyszerűsége és szemléletessége, nagy hátránya azonban, hogy komplexebb esetekben rossz előrejelzéseket ad, amennyiben nincs mögötte komoly statisztikai-adattudós szaktudás.

A Dyntell Bi-ban lévő Ensemble rendszerben egy logisztikus regresszión alapuló algoritmus található, a Prophet, amelyet Facebook-os fejlesztők kezdtek el programozni, nyílt forráskódúvá tették és a Dyntell továbbfejlesztette. A Prophet nagyon jó konszenzus az egyszerűség és a hatékony előrejelzés között, nagy előnye, hogy jól detektálja az idősorok szezonalitását is.

2. Mozgóátlag
Önkiszolgáló szint: Közepes
Előnyök: Könnyen érthető, gyors válaszidő, jó becslési minőség a megfelelő beállítások esetén.
Hátrányok: Az adatállomány méretének növekedésével (big data) csökken az előrejelzés pontossága.

Az Excelben ez is csak egy trendvonal típus, de kifinomult használata miatt sokkal összetettebb, sőt a magam részéről olykor erősebb eszköznek tartom a hagyományos regressziónál. A mozgóátlagot gyakorta használják a deviza- vagy tőzsdei piacok elemzésekor, mi több, megbízható működése révén üzleti idősorok vizsgálatakor is bátran támaszkodhatunk rá, míg a legszélesebb körben alkalmazott mozgóátlag módszer valószínűleg az ARIMA.

3. Neuronhálózat
Önkiszolgáló szint: alacsony
Előnyök: Jól alkalmazható osztályozási problémákra
Hátrányok: Előzetes tudást igényel a használata

A mesterséges neurális hálózatok az emberi idegrendszert és az agyat modellező statisztikai algoritmusok. Nagy előnyük, hogy ezek a rendszerek könnyen megoldják azokat a komplex problémákat, amelyek kihívást jelentenek a hagyományos algoritmusok számára,
hátrányuk azonban, hogy az algoritmusok használatához mélyebb statisztikai tudásra van szükség, az adattudósi ismeret a belépő szint ezekhez a rendszerekhez. Ezért a Dyntell Bi rendszerében a neurális hálózatok alkalmazása el van rejtve a felhasználók elől, a háttérből járul hozzá a hatékonyabb előrejelzéshez.


4. Mélytanulás (deep learning)
Önkiszolgáló szint: Egy mélytanuló rendszer felépítéséhez adattudósra van szüksége
Előnyök: Automata „feature extraction” és a legjobb eszköz az óriási adattömegek kezelésére
Hátrányok: GPU szerverre van szükség

Mindenképpen a legforróbb témák közé tartozik manapság a deep learning, ezért itt picit tovább időzök. Alapvetően a mesterséges neurális hálózat egymáshoz kapcsolódó csomópontok szövevénye.

Az alábbi kép szemlélteti a mélytanuló hálózatok hatékonyságát a hagyományos algoritmusokkal szemben egy olyan világban, ahol az adatok mennyisége exponenciálisan növekszik.


Előnyük az automatikus “feature extraction”, ami azt jelenti, hogy nincs szükség emberi erőforrásra a képek vagy adatok címkézéséhez. Fontos tulajdonság ez, hiszen mialatt az adatmennyiség exponenciálisan növekszik, addig mindezen információ feldolgozásához erőforrás is szükséges. Szerencsére a mélytanuló hálózatok megoldják ezt a problémát és alkalmazásuk egyre szélesebb körben terjed.

Felépíteni és működtetni egy mélytanulási rendszert valódi kihívás, ráadásul ha nincs elég adat, úgy várhatóan meg sem éri az erőfeszítést, hiszen az algoritmus valódi ereje épp abban rejlik, hogy big data mennyiségű adatok alapján adjon minél pontosabb előrejelzéseket.

A Dyntell Bi-ban is van természetesen deep learning algoritmus, de ennek paraméterezése is önműködően történik az adatok statisztikai paraméterei alapján, így az átlag felhasználó előtt láthatatlan marad.

 


 

5. Ensemble rendszer
Önkiszolgáló szint: szükség van egy adattudós csapatra a létrehozásához
Előnyök: az Ensemble rendszer egyesíti magában az összes korábban leírt algoritmus hatékonyságát
Hátrányok: szerver oldalon nagy teljesítményre van szükségünk a használathoz, míg a válaszidő igen lassú

Az Ensemble rendszer több tanuló algoritmusból tevődik össze, ahol a kimenetet a tagok súlyozott eredményei adják. Ez a módszer jobb előrejelzést ad, mint amit kinyerhetnénk a részeiből, a tanuló algoritmus összetevőkből. Az Ensemble példa a konszenzus keresésre, hiszen számunkra fontos kérdésekben mi is mindig kikérjük mások véleményét, úgy az Ensemble rendszer is több „véleményt” ütköztet a legpontosabb előrejelzés érdekében.

6. Korreláló idősorok
Önkiszolgáló szint: magas (TimeNet.cloud)
Előnyök: új változót hozhatunk az előrejelzésbe: mely függ a külső tényezőktől
Hátrányok: külső adatkészleteket kell kezelni ahhoz, hogy korrelációt találjunk az adatokkal

Adataink jövője vajon tényleg csak az adott adathalmaz múltbéli mintázataitól függ? Úgy gondolom, hogy a mai, végtelenül összetett és összefonódott világban nem szabad figyelmen kívül hagyni a külső adatsorokat sem.

Az ingyenesen elérhető TimeNet (http://timenet.cloud/) az idősorok adatbázisa, gazdasági és földrajzi adatokat tárol, naponta frissítve azokat. Az itt tárolt adatokkal külső gazdasági folyamatok írhatók le, egyúttal azon törekvéseinket is támogatja, hogy korrelációt találjunk ezen külső tényezők és egy adott vállalat adatai között.

A TimeNet a klasszikus korreláció fogalmat és a saját korrelációs módszerét is használja. A klasszikus korreláció hasonlóságot keres a görbék alakjában, de a TimeNet saját fejlesztésű korrelációja az idősorok viselkedésében keres hasonlóságot. A viselkedések összehasonlításához meghatározza egy görbe trend-váltó pontjait (lokális minimumok és maximumok), így ha egy másik idősornak is időben közel található trend-váltó pontja, úgy feltételezhető kapcsolat a két idősor között.

Noha az idősorok közötti korreláció koncepciót a tőzsdén nagyon is alkalmazzák, a Dyntell Bi kivételével nincs szabvány üzleti szoftver példa a saját adataid és korreláló idősorok elemzésére.


7. Dyntell Bi „TimeNet Deep Prediction”
Önkiszolgáló szint: Magas
Előnyök: Egyesíti a prediktív elemzés hat szintjét
Hátrányok: Nagy feldolgozási teljesítményre van szükség (klasszikus és GPU szerverek)

A TimeNet mély előrejelzés módszere a prediktív analitika fenti hat szintjét egyesíti, néhány további funkciót adva a folyamathoz. Ez a jelenleg elérhető legkiterjedtebb és legegyszerűbben használható előrejelző eszköz, ami ráadásul működik a kis és a nagy mennyiségű adatokon is.

A módszer elérhető a Dyntell Bi-ból, és használata egyszerű. Ha van egy olyan diagramja, ami idősort ábrázol (vagyis a vízszintes tengelyen az idő van ábrázolva), és elindítja egy kattintással az előrejelzési folyamatot, a Dyntell Bi elküldi az idősor adatait a felhőbe. Itt a Dyntell GPU kiszolgáló klaszter fogadja és indul a predikció. Az elemzés időt vesz igénybe, és amíg a válaszra vár, természetesen az üzleti intelligencia szoftver is használható. Amint az előrejelzés elkészült, figyelmeztetést kap, hogy megtekinthetőek a prediktált adatok.

Ezek tehát a jelenleg használatos prediktív elemzői módszerek, de a tudomány nem áll meg ennyinél, hiszen ha már tudjuk, mi fog történni, még fel is kell készülnünk rá.

Előíró (preszkriptív) elemzés

Az előíró elemzés arra a kérdésre ad választ, hogy “mit tehetünk?” azért hogy meggátoljunk egy problémát vagy kihasználjunk egy lehetőséget, ami a célunk felé vezet minket.

A preszkriptív elemzés a prediktív elemzés után a következő lépcső. Ez a módszer nem csak a jövőt jósolja, hanem még abban is segít, hogy mit kell tennünk a jövőben, hogy a kívánt eredményt elérjük. Ha lehetséges, és ha engedélyt kap, akkor a megfelelő lépéseket meg is teszi helyettünk.

Az előíró elemzést riasztásokkal lehet kezelni, ezért a kifinomult riasztórendszer vagy munkafolyamat-rendszer elengedhetetlen a modern üzleti intelligencia szoftverben.

Az eszköz erősségének bemutatásához két esettanulmányt szeretnék a figyelmébe ajánlani az élelmiszeriparból, ahol nagy jelentősége van a predikciónak a termékek szavatossági idejéből adódóan:

1. Costa
A Costa kávézó lánc üzleteiben valószínűleg már Ön is sok kávét ivott, legközelebb gondoljon arra, hogy itt a Dyntell BI elemezi a kávézók összesített adatait. A prediktív elemzés az üzletek jövőbeli tranzakciószámát mutatja üzletenként. Ez segít a Costa-nak abban, hogy hatékonyan kezelje a humán erőforrásait és éppen a megfelelő számú barista és kiszolgáló legyen a shopban és figyelmezteti a menedzsmentet, ha váratlan esemény fordulhat elő. Costa nem használja a TimeNet-et, de az algoritmus elemzi a múltbeli adatmintákat és egyéb speciális idősorokat. Costa-ban a Dyntell mély előrejelzése körülbelül 90%-os pontosságú előrejelzést ad egy héttel előre.

2. Ana Pan
Az Ana Pan Európa egyik legnagyobb sütőüzeme, ahol a Dyntell prediktív és előíró elemzését használják az üzletek eladásának előrejelzésére, és ennek alapján a péksütemények gyártására. Az Ana Pannál a TimeNet korrelációs adatokat és a Deep Prediction szerver-klasztereket használják a gyártandó termékek számának és az adott boltba szállítandó termékek számának megjóslására. A Dyntell BI rendszer automatikusan betölti az előre jelzett adatokat az Ana Pan ERP rendszerébe, ahol az előrejelzett mennyiségek közvetlenül a termelés- tervezési és gyártási modulokba kerülnek.

Ha Ön használ is már valamilyen megoldást a fentiek közül, ne legyen benne biztos, hogy az tökéletesen megfelel a céljainak! 2018 januárjában a Gartner felmérést adott ki a mesterséges intelligencia projektekről, ahol megállapították, hogy a felépített adatmodellek több mint 60% soha nem került felhasználásra. Ezért ha az előrejelzés stratégiai kérdés az Ön vállalkozásában, akkor szüksége van egy professzionális csapatra (belső vagy kiszervezett), amely segít a jó minőségű előrejelzés adatforrásainak és módszereinek beállításában és karbantartásában.

A saját csapata építése előtt a Dyntell Bi-t érdemes kipróbálni. Itt regisztrálhat egy Dyntell Bi felmérésre, ahol a szakértők felmérik, hogy az Ön szervezetében mennyit tudna profitálni egy üzleti intelligencia rendszerből.