Jak připravit data a provést efektivní analýzu

Obrázek 1: Schopnost definovat časová období, která nás zajímají v rámci signálu na základě jakéhokoli typu kritérií, je kritickou složkou pro práci s daty z časových řad. Všechny obrázky poskytla společnost Seeq Obrázek 1: Schopnost definovat časová období, která nás zajímají v rámci signálu na základě jakéhokoli typu kritérií, je kritickou složkou pro práci s daty z časových řad. Všechny obrázky poskytla společnost Seeq

Co se týče analytických nástrojů, zakopaný pes tkví v detailech.

Existuje dobře zdokumentovaná a široce uznávaná exploze systémů pro vytváření a ukládání dat v časových řadách, včetně datové historie, možnosti otevřeného softwaru, datových jezer a cloudových služeb. Díky těmto atraktivním možnostem úložiště – spolu s nižšími cenami za instalaci senzorů a sběr dat – jsou průmyslové organizace zaplaveny implementacemi průmyslového internetu věcí (IIoT) a velkými daty. Na co si však tyto společnosti nejčastěji stěžují? Jsou bohaté na data, a chudé na informace, mají tolik dat, a přesto tak málo užitečných informací.

Jednou z hlavních výzev je, že shromážděná data nejsou připravena k analýze a realizaci vyplývajících výhod, což je jejich hlavní účel. Někteří uživatelé odhadují, že v rámci prováděných analýz vynakládají více než 70 % svého úsilí na pouhý přesun dat ze stavu „nezpracovaná“ do pozice „připravená“ pomocí nástroje na čištění dat. Tato jednotvárná monotónnost shromažďování, organizování, čištění a kontextualizace dat v analytickém procesu představuje obrovskou překážku při vytváření hodnot ze surových dat.

Přístup k datům

Musejí být splněny dva předpoklady pro převedení dat z kategorie „nezpracovaná“ do stavu „připravená“ a pro provedení analýzy: přístup k datům a odbornost zaměstnanců.

Je mylné předpokládat, že většina zaměstnanců má okamžitý přístup k datům. V mnoha organizacích nemají uživatelé přístup k datům, která jim jsou potřebná pro provedení analýzy. Je to proto, že na „správu dat“, kam patří různá pravidla a procesy, jež musejí zaměstnanci dodržovat při přístupu k datům, je zaměřována pozornost mnoha IT oddělení, jejichž povinností je řešit problémy se zabezpečením, ochranou soukromí a diskrétností.

Zároveň je přístup k datům nezbytným předpokladem pro to, co přijde dál, což je proces vytváření dat připravených k analýze a pochopení jejich významu. Jasným osvědčeným postupem výrobních organizací je navíc ukládání procesních dat v nativní podobě bez sumarizace nebo jejich čištění. Je to proto, že jakákoli domněnka o tom, jak manipulovat s daty, než budou analyzována, může mít na jejich průzkum nepříznivý vliv.

S daty by mělo být manipulováno pouze v čase, ve kterém probíhá samotná analýza, a poté pouze odborníkem na danou problematiku (dále v textu pod zkratkou OnDP), jenž má na starost provedení analýzy. Pokud se přesto rozhodnete jít cestou čištění či sumarizace dat nebo jinak změnit zdroj dat, riskujete, že (možná neúmyslně) odstraníte data a podrobnosti, které by se mohly ukázat jako důležité pro pochopení jejich významu. Prvním předpokladem úspěchu je proto přístup k datům v jejich zdrojové podobě.

Odbornost zaměstnanců

Druhým předpokladem je náležitá odbornost OnDP, procesních inženýrů a dalších zaměstnanců s odbornými znalostmi v oblasti dat, aktiv a procesů průmyslového závodu nebo zařízení. Tito odborníci jsou již přibližně 30 let zvyklí provádět analýzu dat pomocí tabulkových procesorů, čemuž předcházelo používání logaritmických pravítek, pera a papíru.

Spojení těchto zaměstnanců a jejich odbornosti s přístupem k datům je zásadním krokem, protože pouze v době provádění analýzy lze učinit správná rozhodnutí s ohledem na následné kroky, tj. čištění dat a kontextualizaci. Bez tohoto stupně odbornosti bývají výsledkem analýzy často nesmyslné závěry, jelikož získaná data je nutno chápat v kontextu podniku a odfiltrovat falešné korelace. Jinými slovy algoritmus, který se uvolnil v rámci velkých dat, obvykle odhalí tisíce potenciálních problémů, z nichž jen některé jsou opravdu výzvou. Například kdo opravdu potřebuje vědět, že se nevyrábí žádný produkt, když je vypnuto hlavní napájení podniku?

Tím, že výrobci ve svých organizacích postaví do přední linie tyto odborníky, jsou schopni realizovat řadu vylepšení v oblasti výnosu, dostupnosti, produktivity a marže; toto se děje právě díky analýze získaných dat.

Díky přístupu k datům mohou OnDP připravit data pro analýzu prostřednictvím integrace a sladění dat z různých zdrojů, což je v praxi známo pod pojmem kontextualizace dat (proces aktivního zasazení dat do kontextu). Kontextualizace dat probíhá různými způsoby v závislosti na dodavateli a odvětví, včetně harmonizace dat, mísení, syntézy, mísení a rozšiřování, přičemž vše znamená totéž: integraci dat se záměrem informovat nebo integrovat napříč rozdílnými typy dat. Důvodem je fakt, že v signálu časové řady nejsou k dispozici žádné „záchytné body“, takže OnDP musí (v době provádění analýzy) najít způsob, jak integrovat vícero aspektů: „co měřím“ (snímaná data) s tím „co dělám“ (co v dané době dělá zařízení nebo proces), a dokonce i s tím „jaká část dat je pro mě opravdu důležitá“.

Vytváření kontextu

Jako příklad výzev, jimž je zapotřebí čelit při práci s daty získanými z časových řad, lze uvést jednoduchou sadu dat s daty ze senzoru zaznamenanými každou sekundu po dobu jednoho roku, což vytvoří 3,1 milionu datových bodů, každý ve formě časové značky s konkrétní hodnotou. Uživatel s největší pravděpodobností nechce pro svou analýzu všechna signální data; spíše chce pouze identifikovat časová období, která jsou pro něj nějakým způsobem zajímavá. Je například možné, že uživatel potřebuje zpracovat časové úseky definované podle:

  • časového období: den vs. noc, podle směn, pouze úterky, všední dny vs. víkendy atd.;
  • stavu zařízení: zapnuto, vypnuto, zahřívání, vypnutí atd.;
  • výpočtu: časová období, kdy je druhá derivace klouzavého průměru záporná;
  • vzorků dat, která představují chybu: ztracené signály, špičky, přechodná zeslabení signálu nebo jiné problémy, jež vyžadují vyčištění, aby se zlepšila přesnost analýzy.

Jinými slovy časová období, která nás zajímají (na něž se zaměřujeme), jsou ta období, kdy je definovaná podmínka pravdivá; zbývající data lze v rámci analýzy ignorovat. Lze vybrat časová období, která nás zajímají jako integrační body s relačními nebo diskrétními datovými typy (viz obrázek 1).

Dva komentáře k uvedenému příkladu: Zaprvé dokonce i z jednoduchého příkladu získaných dat z jednoho signálu za jeden rok je zřejmé, že existuje nekonečné množství způsobů, jak může být signál rozdělen na segmenty nebo spotřebován pro analytické účely. Jelikož existuje tolik možností, měl by se výběr časových období, která nás zajímají, provádět v „analytickém čase“, kdy je záměr uživatele jasný a kdy lze identifikovat relevantní časové segmenty. V uvedeném příkladu se navíc zabýváme pouze jedním signálem. Představte si výrobní prostředí o 20 000 až 70 000 signálech, jako jsou velké chemické závody, ropné rafinerie se 100 000 signály nebo podnikové souhrny dat ze senzorů, které zahrnují miliony signálů.

Kontextualizace v době provádění analýzy a v rukou OnDP je to, co transformuje data časových řad ze zakřivené čáry v kontrolním grafu na datové objekty, které nás zajímají pro analýzu; do její definice by pak měly být zahrnuty všechny její formy (viz obrázek 2).

PLE2008 MAG Seeq Fig 2Obrázek 2: Časová období, která nás zajímají, lze označit jako „kapsle“ a jsou označena barevnými pruhy v horní části trendového podokna. V tomto případě označují oblasti, jež je třeba řešit v rámci úsilí o vyčištění dat

Zadruhé je důležité si uvědomit, že jakákoli analýza dat z časových řad zahrnuje vzorkování dat signálu s přísným dodržováním výzev interpolace a počtu, což obvykle řešení konsolidace/agregace dat IT neřeší. Proto je v rámci kontextualizace dat vyžadováno použití řešení, jež jsou specifická pro výrobní prostředí. Schopnost sladit signály s různými vzorkovacími frekvencemi z různých zdrojů dat v různých časových pásmech zahrnujících letní čas nebo jiné změny je absolutním požadavkem před povolením definování příslušných časových období.

Kontextualizace dat a poslední úpravy

Posledním krokem kontextualizace po identifikaci časových období, která nás zajímají v rámci signálů časových řad, je pak další kontextualizace dat z jiných zdrojů, aby bylo možné nahlédnout do výsledků výroby a podnikání. Typy otázek, na něž se organizace vyžadující použití většího počtu rozdílných souborů dat mohou ptát, pak zní:

  • Jaká je spotřeba energie při výrobě produktu typu 1 oproti produktu typu 2?
  • Jaký je dopad teploty na kvalitu produktu?
  • Mění se spotřeba energie, když se liší doba dokončení šarže?

Zdroje dat mohou zahrnovat laboratorní informační systémy, systémy provádění výroby, systémy plánování podnikových zdrojů, externí systémy stanovení cen surovin a další.

Příklad pro kontextualizaci v rámci dat časových řad a pak napříč dalšími zdroji dat je uveden v následujícím příkladu. Výsledkem je tabulka, která je snadno pochopitelná a manipulovatelná, je přístupná OnDP i analytikům prostřednictvím aplikace business inteligence, jako je Microsoft Power BI, Tableau nebo Spotfire (viz obrázek 3).

PLE2008 MAG Seeq Fig 3Obrázek 3: Tato tabulka byla vytvořena pomocí aplikace Seeq a je snadno přístupná pro odborníky na danou problematiku (OnDP)

Pohled do budoucna

Na průmyslové organizace je v současné době upírána stále větší pozornost a vyvíjen tlak, aby provedly digitální transformaci spolu s požadovanou integrací informačních/provozních technologií (IT/OT) nezbytnou k zajištění integrovaného pohledu napříč obchodními a produkčními datovými soubory. Proto je pro výrobní organizace stále důležitější uznat význam procesu aktivního vytváření kontextu bez ohledu na zvolenou strategii ukládání dat z časových řad.

OnDP musí provést kontextualizaci dat takovým způsobem, aby byla data připravena pro provedení analýzy. Pouze OnDP disponují potřebnými odbornými znalostmi a chápou potřeby své analýzy, a proto budou vědět, co hledají, právě v době, kdy analýza probíhá. To zahrnuje schopnost rychle definovat, sestavovat a pracovat s časovými obdobími, která nás zajímají v rámci dat z časových řad, včetně přístupu k souvisejícím datům z výrobních, obchodních, laboratorních a jiných systémů.

Z tohoto důvodu organizace, jež sladí požadavky na kontextualizaci dat z časových řad se svou datovou strategií, budou mít větší šanci na zlepšení výsledků produkce prostřednictvím hlubšího pochopení souvislostí a detailnějšího přehledu o tom, co se v podniku děje.

Řízení a údržba průmyslového podniku

Časopis Řízení a údržba průmyslového podniku již přes 10 let patří mezi neodmyslitelný zdroj informací v oblasti průmyslové údržby a diagnostiky. Část obsahu je z pera licenčních autorů Plant Engineering z USA.

www.udrzbapodniku.cz