Vývoj řídicích systémů s umělou inteligencí

Aplikace pro Microsoft Bonsai Brain zahrnují mimo jiné dynamické a vysoce proměnlivé systémy, konkurenční optimalizační cíle nebo strategie a neznámé výchozí nebo systémové podmínky. Obrázky poskytla společnost Wood Aplikace pro Microsoft Bonsai Brain zahrnují mimo jiné dynamické a vysoce proměnlivé systémy, konkurenční optimalizační cíle nebo strategie a neznámé výchozí nebo systémové podmínky. Obrázky poskytla společnost Wood

Může se umělá inteligence (AI) stát dalším vývojovým stupněm řídicích systémů? Podívejte se na tři charakteristiky řídicího prvku s umělou inteligencí a na tři aplikace.

Řídicí systémy se v průběhu desetiletí neustále vyvíjely. Technologie umělé inteligence (AI) pomáhají rozvíjet novou generaci některých řídicích systémů.

Proporcionálně-integračně-derivační (PID) regulátor lze interpretovat jako vrstvení schopností: proporcionální člen směruje k signálu, integrální člen přibližuje k žádané hodnotě a derivační člen může minimalizovat přejetí.

Ačkoli ekosystém řídicích prvků může představovat složitou síť vzájemně propojených technologií, lze jej zjednodušit i tím, že se na něj budeme dívat jako na neustále se vyvíjející větve rodokmenu. Každá technologie řídicího systému nabízí své unikátní vlastnosti, které nebyly dostupné u předchozích technologií. Například dopředné řízení (feed forward) zlepšuje řízení PID předpovídáním výstupu regulátoru a následně využívá předpovědi k oddělení chyb vlivem narušení procesu od signálového šumu. Prediktivní regulace s modelem (Model Predictive Control – MPC) k tomu přidává další možnosti vrstvením předpovědí budoucích výsledků regulačního zásahu a řízením několika korelovaných vstupů a výstupů. Nejnovějším vývojovým stupněm strategií řízení je zavádění technologií umělé inteligence, které posouvají průmyslové řídicí systémy na vyšší úroveň. Jedním z nejnovějších pokroků v této oblasti je použití řízení na bázi posilovaného učení („reinforced learning“).

Tři charakteristiky řídicích prvků na bázi umělé inteligence

Řídicí prvky na bázi umělé inteligence (tj. řídicí jednotky založené na hlubokém posilovaném učení neboli DRL – Deep Reinforcement Learning) poskytují jedinečné a atraktivní vlastnosti, které uvádíme níže:

  1. Učení: Řídicí prvky na bázi DRL se učí metodickým a nepřetržitým procvičováním známým jako strojové učení. Proto mohou tyto řídicí prvky odhalit nuance a výjimky, které není snadné zachytit v expertních systémech a jež mohou být obtížně ovladatelné při použití regulátorů s fixním zesílením. Simulátor může modul DRL vystavovat různým procesním stavům. S mnoha z těchto stavů bychom se v reálném světě nikdy nesetkali, protože modul (systémový mozek) umělé inteligence se může snažit provozovat zařízení příliš blízko nebo za hranicí provozních limitů fyzického zařízení. V tomto případě jsou tato přejetí (která by pravděpodobně způsobila přejetí procesu) zkušenostmi pro systémový mozek, aby se naučil, jakému chování se má vyhnout. Když se to dělá dostatečně často, systémový mozek se naučí, co nemá dělat. Kromě toho se modul DRL může učit z mnoha simulací najednou. Místo toho, aby systémový mozek dostával data jen z jednoho závodu, může se učit ze stovek simulací, přičemž každá z nich probíhá rychleji než v běžném reálném čase, čímž poskytuje natrénované zkušenosti vhodné pro optimální učení.
  2. Odložené uspokojení: Řídicí prvky na bázi DRL se mohou naučit rozpoznat neoptimální chování v krátkodobém horizontu, což umožňuje optimalizaci zisků v dlouhodobém horizontu. Podle Sigmunda Freuda, a dokonce i Aristotela z roku 300 před naším letopočtem, lidé toto chování znají jako „odložené uspokojení“. Když se umělá inteligence chová tímto způsobem, může se vyhnout tendenci řešit lokální minima, aby dosáhla optimálnějších řešení.
  3. Netradiční vstupní data: Řídicí prvky na bázi DRL spravují přísun dat a jsou schopny vyhodnocovat informace ze senzorů, což automatizované systémy neumějí. Řídicí prvek na bázi umělé inteligence může například zohlednit vizuální informace o kvalitě výrobku nebo stavu zařízení. Při provádění regulačních zásahů rovněž bere v úvahu kategorické výstrahy a varování stroje. Řídicí jednotky na bázi umělé inteligence mohou dokonce využívat zvukové signály a vstupy ze senzorů vibrací, aby určily, jak budou o procesu rozhodovat, podobně jako operátoři reagují na zvuky v provozu. Schopnost zpracovávat vizuální informace, například velikost plamene, odlišuje a ukazuje schopnosti řídicích prvků na bázi DRL.

CTL2102 MAG2 F2 AI Wood CP x3 Dashboard 1Sledování energetických parametrů na přehledovém panelu může pomoci vizualizovat cíle optimalizace

Zavádění řídicích systémů založených na DRL

Zavádění řídicího systému na bázi DRL do procesního závodu probíhá ve čtyřech krocích:

1) příprava doprovodného simulačního modelu pro systémový mozek;
2) návrh a trénování systémového mozku;
3) hodnocení trénovaného systémového mozku;
4) nasazení.

Začlenění řídicích prvků na bázi DRL vyžaduje simulaci nebo prostředí „digitálního dvojčete“, aby bylo možné trénovat a učit se, jakým způsobem se rozhoduje. Výhodou této metody je, že se systémový mozek může učit jak to, co je považováno za „dobré“, tak to, co je pro systém „špatné“, aby dosahoval stanovených cílů. Vzhledem k tomu, že reálné prostředí má své variability (mnohem více, než co je obvykle reprezentováno v simulačních modelech procesu), a vzhledem k množství simulací potřebných pro natrénování systémového mozku v celém stavovém prostoru operace jsou nejlepší metodou trénování systémového mozku modely redukovaného řádu, které zachovávají základní fyzikální principy. Tyto modely nabízejí způsob, jak vyvíjet složité simulace procesů, a jsou rychlejší za běhu, což obojí umožňuje efektivnější způsob vývoje systémového mozku. Simulátory procesů založené na značkách („tag-based“) jsou známé svou jednoduchou konstrukcí, snadným použitím a schopností přizpůsobit se široké škále simulačních potřeb, což odpovídá požadavkům na simulační model potřebný k tréninku systémových mozků založených na DRL.

V dnešní moderní době, kdy se panely s kontrolkami a vypínači odsouvají do zadního rohu výrobní haly, mají simulátory založené na značkách mnohem větší význam pro usnadnění práce automatizačního technika. Používání simulace k testování systému při přejímacích zkouškách ve výrobním závodě (Factory Acceptance Test – FAT) před uvedením do provozu bylo „denním chlebem“ softwaru pro simulaci procesů po celá desetiletí – dávno před nástupem moderních výrazů, jako je „digitální dvojče“. Stejné simulátory lze použít při výcviku modulů umělé inteligence pro efektivní řízení průmyslových procesů. Aby toho bylo možné dosáhnout, musejí být simulátory schopné běžet distribuovaně na více procesorech a případně v „cloudu“. K procvičování, trénování nebo vyhodnocování potenciálních nových algoritmů umělé inteligence v paralelním provádění je zapotřebí více instancí simulací. Jakmile toho bude dosaženo, lze pro výcvik modulů umělé inteligence založených na DRL použít systémy pro výcvik operátorů, které byly vyvinuty pomocí simulátorů na bázi značek.

Navrhování a trénování systémového mozku

Navrhování systémového mozku na základě procesu, který se má řídit, má zásadní význam pro vývoj úspěšného řídicího řešení na bázi DRL. Systémový mozek se může skládat nejen z konceptů umělé inteligence, ale může zahrnovat i heuristiku, naprogramovanou logiku a známá pravidla. Pokud jsou správným způsobem získány informace od odborníka na danou oblast, je schopnost implementovat systémový mozek s využitím těchto informací klíčem k úspěchu projektu.

Uplatnění odborných znalostí z dané oblasti při vytváření poučených trénovacích scénářů má zásadní význam pro vývoj robustního řídicího systému na bázi umělé inteligence. Předtím než je možné modul DRL trénovat pomocí modelu, musí člověk rozhodnout, které prvky modelu budou systémovému mozku ukázány jako stav procesu. Stav procesu je obecně soubor naměřených hodnot, které má automatizační systém k dispozici. Typickými příklady jsou výšky hladin, teploty, žádané hodnoty apod. Příliš malé odhalení stavu procesu neumožní systémovému mozku učit se z dostatečného množství dat. Při příliš rozsáhlém stavu může počet vnitřních hyperparametrů rychle narůstat. To systémovému mozku brání v co nejrychlejším učení, protože část jeho úsilí je promarněna na to, aby zjistil, které části stavu procesu nejsou tak důležité. Podobná situace nastává u dat, která proudí ze systémového mozku do procesu. Člověk musí rozhodnout, které akce nechá ovládat systémovým mozkem, což určí množství úsilí potřebného k regulaci nejvíce žádoucího stavu procesu. Rozhodnout o tom, co zahrnout do akcí, které má systémový mozek k dispozici, je obvykle jednodušší, protože k dispozici je jen omezené množství ovládacích ventilů nebo jiných mechanismů, kterými lze proces řídit.

Rozhodnutí o rozsahu procesního stavu a akčním prostoru se v konečném důsledku omezuje na to, které simulační značky by měly být zahrnuty do jednotlivých struktur stavů a akcí. V simulátoru založeném na značkách jsou definovány stavy a akce. Výběrem značek ze seznamu a kliknutím na tlačítko je lze přidat do struktury stavu nebo do akce používané systémovým mozkem.

CTL2102 MAG2 F2 AI Wood CP x4 maincolumnfordistillationTechnologie umělé inteligence se může rozšířit na jakýkoli komplexní problém, který lze modelovat pomocí simulací, jako je řízení přerušovaných výpadků výroby v závodech dodávajících ropnému a plynárenskému sektoru a optimalizace a řízení výkonu rafinérií / chemických závodů

Definování stavových a akčních prostorů

Inkling je jazyk vyvinutý pro použití při trénování modulů DRL, jenž vyjadřuje paradigma tréninku v kompaktní, expresivní a snadno srozumitelné syntaxi. Simulátory založené na značkách lze naprogramovat tak, aby automaticky generovaly kód Inklingu definující stavové a akční struktury systémového mozku.

Jakmile jsou definovány stavové a akční struktury, je třeba systémovému mozku definovat cíle tréninku. Typickými požadavky na trénink systémového mozku jsou konstrukce, jako jsou cíl, penalizace, plán lekce a scénáře. V tomto příkladu musel uživatel vytvořit přibližně 40 řádků kódu, aby bylo možné natrénovat systémový mozek umělé inteligence pomocí simulace. Vytvořený kód Inklingu popisuje dvě důležité věci pro vznikající mozek umělé inteligence – co má dělat a jak to má dělat. Konkrétně byl tento kód vytvořen pro řízení výšky z hladiny v nádrži pomocí regulace průtoku před nádrží a uzavíracích ventilů za nádrží. Výrok „cíl“ popisuje požadované výsledky činnosti mozku a v tomto případě by se skutečná výška hladiny měla blížit žádané hodnotě výšky hladiny.

Výběr vhodných lekcí a scénářů odpovídajících cíli je výsledkem správné spolupráce mezi návrhářem systémového mozku a oborovým expertem, aniž by došlo k přeplnění nádrže. Výroky „lekce“ a „scénáře“ systémovému mozku říkají, jak se tento cíl naučit. V tomto případě scénář řídí mozek tak, aby každou tréninkovou epizodu zahájil s náhodnou, ale omezenou výškou hladiny a žádanou hodnotou. 

Tvorba kódu pro vytváření mozku umělé inteligence

Efektivní trénink mozku vyžaduje, aby byl prozkoumán velmi rozsáhlý stavový prostor operací. Cloudové technologie umožňují zapouzdření simulátorů a jejich provoz v masivně paralelním prostředí. Pokud však chcete dosáhnout opravdu dobrých výsledků, je třeba nápady na trénování mozku nejprve otestovat v lokálním simulátoru, aby se „vychytaly mouchy“. Jakmile je uživatel spokojen, lze simulátor zapouzdřit a spustit v cloudu. Typické tréninky mozku mohou mít od 300 000 do 1 000 000 tréninkových iterací. Průběh tréninku mozku lze snadno zobrazovat na obrazovce, například pomocí jednoduché demonstrace nádrže. Cloudové zdroje zvládnou natrénovat simulátor vyžadující půl milionu iterací za méně než jednu hodinu.

Graf může znázorňovat průběh tréninku mozku v závislosti na počtu iterací. Parametr „splnění cíle“ je klouzavý průměr tréninkových epizod, jehož výsledkem je celkový počet splněných cílů. Obvykle je třeba, aby hodnota splnění cíle dosáhla 100 %, aby systémový mozek dosáhl účinného ovládání všech scénářů, které procvičoval.

Hodnocení trénovaného mozku

Poté, co je systémový mozek natrénován, je třeba jej otestovat, aby bylo možné posoudit jeho použitelnost. V této fázi se systémový mozek porovnává s modelem a posuzuje se jeho chování. Tentokrát by však měly být scénáře v simulaci různorodé – mozek by měl být testován v situacích, se kterými se během původních kol testování nemusel setkat.

Pokud je například hodnota řízena kombinací tří ventilů, co se stane, když jeden ventil najednou nebude k dispozici? Dokáže mozek udělat něco rozumného, pokud je některý z ventilů zablokovaný nebo je mimo provoz? V tomto směru lze přizpůsobit modely simulátorů vyvinuté pro systémy školení obsluhy nebo testování řídicích systémů. Stejně jako při testování řídicího systému je třeba i řídicí prvek na bázi umělé inteligence podrobit přísnému formálnímu testování. Simulátor s automatizovaným testovacím plánem může výrazně snížit úsilí potřebné k vyhodnocení „natrénovaného“ mozku. 

Nasazení systémového mozku

Jakmile systémový mozek projde testem, může být nasazen do provozu. I když existuje mnoho způsobů nasazení, jedinečnou výhodou použití simulátorů založených na značkách, které se používají pro testování řídicích systémů, je to, že je lze použít jako middleware pro integraci systémového mozku s řídicím systémem. Díky široké nabídce dostupných ovladačů pro různé řídicí systémy je integrace do specifické lokality zákazníka mnohem snazší než použití zakázkového řešení. Z hlediska údržby softwaru je navíc vždy cenná minimalizace počtu zakázkových nasazení.

Kence Anderson je hlavní programový manažer pro autonomní systémy ve společnosti Microsoft. Winston Jenks je technický ředitel společnosti Applied Intelligence with Wood a Dr. Prabu Parthasarathy je viceprezident společnosti Applied Intelligence with Wood, systémového integrátora a partnera vydavatelství CFE Media and Technology. Upravil Mark T. Hoske, obsahový ředitel časopisu Control Engineering, CFE Media and Technology, Tato e-mailová adresa je chráněna před spamboty. Pro její zobrazení musíte mít povolen Javascript..

Control Engineering Česko

Control Engineering Česko je přední časopis o průmyslové automatizaci. Je vydáván v licenci amerického Control Engineering, které poskytuje novinky z této oblasti více než 60 let.

www.controlengcesko.com