19. Výroční konference itSMF Czech Republic
22. - 23. 1. 2025
Publikováno: 3. 1. 2012
Mám dvě otázky z oblasti Incident a Problem managementu.
Jde mi především o prakticky použitelné zkušenosti. Metriky, které moc nedávají smysl, nebo je nejde ve skutečnosti rozumně měřit, jsou všude po Internetu (a částečně i v ITILu). Obě otázky jdou k jádru procesu: chci měřit Voice of the customer (ala Six Sigma), tedy “Nechceme opakované incidenty” a “Chceme snížit počet incidentů”. Nechci metriky, které se sice snadno měří, ale jsou pro měření přínosu Problem managementu nedůležité – např. počet zalogovaných problémů, průměrná cena vyřešení problému.
1. Jakou reálně použitelnou metriku lze použít na měření základního cíle procesu Problem management, tedy snížení počtu incidentů?
2. Problem management mluví o opakovaných incidentech. Máte nějakou zkušenost, jak tyto opakované incidenty rozpoznávat, abychom mohli změřit procento opakovaných incidentů?
Kandidáti na opakované incidenty se vedle manuální analýzy mohou detekovat následovně:
Kandidáty potom podrobit analýze a tím zpřesnit výsledky.
Je pravda, že základním cílem procesu problem management je snížení počtu opakovaných incidentů, a RK ve své odpovědi správně uvádí, jak tento přínos prakticky měřit. Chtěl bych jen dodat, že problem management má ještě další významný přínos, a tím je zkrácení doby řešení opakovaných incidentů a minimalizace dopadu na uživatele, čehož dosahuje tím, že se snaží: opakované incidenty identifikovat (způsobem, který uvádí RK) a svazovat je se záznamem problému, přičemž pokud ještě takový problém založen není, tak jej vytvořit.
K tomu dvě poznámky:
1) ITIL V2 v knize Service Support dokonce uváděl, že každý incident, u něhož není možné identifikovat konkrétní KP, jejíž selhání jej způsobilo, by měl být svázán se záznamem problému (nebo známé chyby, neboť ve V2 se ještě rozlišovalo mezi problémem a známou chybou).
2) je potřebné, aby pro incident management platila tato dvě pravidla:
a. řešitel incidentu, který využije postup uvedený ve znalostní DB, sváže incident s příslušným záznamem ve znalostní DB
b. pokud řešitel incidentu vyřeší incident díky opravě KP, jejíž selhání identifikoval, tak incident sváže s touto KP.
Díky těmto dvěma pravidlům se výrazně sníží počet incidentů, které bude muset problem management analyzovat, tzn. zůstanou pouze incidenty, které nemají identifikovanou příčinu (tj. KP, jež incident způsobila) a incidenty, jež nebylo možné vyřešit díky informacím ze znalostní DB.
Svazování opakovaných incidentů s existujícím problémy, resp. se záznamy ve znalostní DB, má další přínos v tom, že následně může change management hodnověrněji rozhodnout o tom, které problémy působí největší potíže, a tedy upřednostnit změny, resp. patche, které je řeší.
Vzhledem k tomu, že je v poslední době obrovský tlak na snižování IT nákladů, je tento druhý přínos problem managementu stejně důležitý, jako ten první, a možná že i důležitější. Jinými slovy: snižování počtu opakovaných incidentů může být (za určitých okolností) nákladnější a tedy méně efektivní, než vylepšování postupů reakce na opakované incidenty (prostřednictvím doplňování znalostní DB). Samozřejmě souhlasím s tvrzením tazatele, že uživatelé si primárně přejí snížení opakovaných incidentů. Nicméně efektivní problem management je schopen vytvořit takové postupy reakce na opakovaný incident, že jeho vznik nemusí uživatel vůbec pocítit.
Snížení počtu incidentů je základní cíl, ale nikoliv jediný. V principu se může stát, že jde o problém vzniklý z jediného incidentu. Pak je to o vyřešení problémů a tím zvýšení stability/kvality (dostupnosti) služeb. Další věcí je třeba eliminace nepříznivého dopadu na business u těch problémů/incidentů, kde jim nejde zabránit pomocí lepších organizačních opatření – nezapomeňme např. na fakt, že Problem manager figuruje v eskalační matici pro IM.
K odpovědi na otázku 1. – asi bych odkázal na edici 2011, kde je teď k dispozici přehršel podle mého názoru velmi rozumných metrik jak pro IM, tak i PrM – SO/4.2.8 a 4.4, např.:
K odpovědi na otázku č.2, první odrážka (seskupení podle KP, kódu uzavření a dalších atributů):
Přidal bych další atributy jako jsou základní symptomy v popisu problému, stejný čas, stejná lokalita, stejná služba, stejný uživatel/skupina uživatelů. Dospělé systémy pro ITSM umí indexovat záznamy o incidentech, problémech, KE atd. takže asi není problém klást strukturované dotazy.
Toto klade poměrně vysoké nároky na KOREKTNÍ a KOMPLETNÍ popisy incidentů/problémů. Tendence je zde zadávat informace typu “nefunguje služba XY”, ale proces IM/PrM ve skutečnosti vyžaduje zadávat celou řadu dalších údajů právě k zajištění možnosti takovéhle prohledávání uskutečňovat.
Obecně je zde nutné říci, že metriky vyžadují korektní spolupráci mezi oběma (třemi, včetně ChM) procesy v tom smyslu, že je zde nutné vytvářet vazby na záznamy – např. 1 PRB na několik INC nebo u INC definovat odkaz na KE. Bez tohoto opatření, které bude systémově dodržováno, si můžeme definovat metriky jaké chceme, ale v praxi je nelze uskutečnit, resp. budou ukazovat ptákoviny.
22. - 23. 1. 2025