W zespole naukowym Katedry Automatyki AGH w początkowych latach XXI wieku zostały zainicjowane badania dotyczące możliwości automatycznego rozumienia obrazów. Szeroko znane były już w tym czasie metody automatycznego rozpoznawania obrazów, których ogólną ideę przedstawia rysunek.
W procesie rozpoznawania obrazów ważną rolę odgrywa powiązanie obrazu z punktem w tak zwanej przestrzeni cech a także proces uczenia, dzięki któremu system rozpoznający nabywa umiejętności klasyfikacji rozpoznawanych obrazów. W szczegóły tych zagadnień nie będziemy wchodzić, ponieważ celem tej publikacji jest opisanie innowacji, jaką w latach 2000 – 2005 była koncepcja automatycznego rozumienia obrazów – czynności o wiele bardziej zaawansowanej, niż zwykłe rozpoznawanie.
Żeby pokazać, na czym polega innowacyjność koncepcji automatycznego rozumienia obrazu uświadommy sobie najpierw, że proces rozpoznawania polegał na wyborze klasy, do której można zaliczyć aktualnie analizowany obraz . Takie przyporządkowanie obrazu do wzorca nie zawsze jednak wystarczało. Rozważmy przykład przedstawiony na rysunku .
Algorytm rozpoznający zidentyfikuje widoczne na zdjęciu obiekty, być może nawet policzy rozrzucone kontenery i rozbite butelki, ale nie dotrze do istoty rzeczy – to znaczy do zrozumienia tego, że zdarzył się wypadek i na leśnej drodze rozbił się samochód przewożący jakieś napoje.
A zatem rozumienie to coś więcej, niż tylko klasyfikacja. Rozumienie zakłada, że będziemy w stanie dotrzeć do sensu, czyli semantycznej treści obrazu, a nie zatrzymamy się na samej tylko jego formie. Rozumienie oznacza wydobycie z obrazu tych wszystkich znaczeń, które są w nim implicite zawarte, ale nie są explicite widoczne. Dla człowieka rozumienie jest naturalną reakcją na kontakt z określoną informacją wizualną. Natomiast dla typowego systemu komputerowego takim naturalnym działaniem jest rozpoznawanie elementów obrazu – ale bez refleksji na temat ich znaczenia. Różnicę tę można prześledzić na rysunku .
Jednym z zadań, do których stosowaliśmy nasze podejście oparte na automatycznym rozumieniu obrazów, związane było z nadzorem nad chronionymi obiektami. Przykładowy system takiej ochrony przedstawiony jest na rysunku. Ze względu na rosnący poziom różnych zagrożeń systemy ochrony są obecnie bardzo często stosowane i odgrywają coraz ważniejszą rolę. W systemach takich pozyskuje się obrazy nadzorowanego obiektu (co jest łatwe ze względu na dostępność stosunkowo tanich kamer pozwalających na permanentną obserwację), następnie stosuje się różne metody komputerowej filtracji obrazów, żeby uwidocznić na nich intersujące obiekty (na przykład sylwetki ludzi i pojazdów), a następnie udostępnia się te obrazy grupie wyszkolonych obserwatorów, którzy mają wykryć zagrożenia i ewentualnie spowodować interwencję.
I tu mieści się słaby punkt omawianych systemów. Obserwatorzy muszą śledzić sytuację równocześnie na wielu monitorach, co powoduje, że mogą czasem coś przeoczyć. Co gorsza, praca obserwatora polega głównie na śledzeniu obrazów na których z reguły nic się nie dzieje, więc ich czujność zostaje osłabiona (tzw. zjawisko deprywacji sensorycznej). W efekcie może się zdarzyć, że nastąpi jakiejś zdarzenie wymagające interwencji – a nie zostanie ono wykryte.
Radą na to jest wspomaganie obserwatorów przez system komputerowy, który ustawicznie kontroluje wszystkie obrazy z kamer i w razie wykrycia jakichś nietypowych sytuacji ostrzega obserwatorów. Sam komputer alarmu nie zarządzi, bo tu niezbędna jest ocena operatora, ale może wykryć, że „coś się dzieje”. Problem polega jednak na tym, że nie można zastosować podejścia opartego na rozpoznawaniu obrazów, bo rodzących zagrożenie sytuacji jest potencjalnie nieskończenie wiele i niepodobna maszyny nauczyć, jaki zestaw wartości cech obrazu powinien wywołać alarm.
I dlatego do tego celu zastosować trzeba opracowaną przez nas metodę automatycznego rozumienia obrazów. Rozumienie dostarcza wielu wartościowych informacji i gwarantuje (w rozważanym w tej pracy zadaniu ochrony) poprawną ocenę sytuacji – wymaga jednak automatyzacji procesów kognitywnych, zachodzących oryginalnie w korze mózgowej człowieka podczas działań związanych z interpretacją rejestrowanych przez oczy obrazów, co powoduje w ogólnym przypadku spore trudności. W szczególności w odróżnieniu od rozpoznawania, dla którego zbiór odpowiedzi systemu jest z góry zdeterminowany, w przypadku rozumienia sposób interpretacji obrazu jest nieprzewidywalny i z tego powodu zbiór możliwych opisów obrazu jest potencjalnie nieskończony.
Jest to poważna trudność, gdyż tę potencjalnie nieskończoną różnorodność musi wytworzyć narzędzie o bezspornie skończonych możliwościach – komputer. Z wcześniejszych badań prowadzonych przez autorów na nieco innym obszarze (automatycznego rozumienia obrazów medycznych) wynikał następujący wniosek:
Przy automatycznym rozumieniu obrazów pomocniczym narzędziem, którego użycie może wnieść istotny postęp w tej dziedzinie, jest lingwistyka matematyczna i obszar języków grafowych, opisujących obrazy w kategoriach pewnych wybranych elementów składowych (tak zwanych prymitywów graficznych) i ich wzajemnych relacji .
Wybór podejścia lingwistycznego podyktowany jest faktem, że język jest właśnie takim narzędziem, które pozwala na generowanie nieskończenie różnorodnych kombinacji, bazujących na skończonej liczbie elementów. Na przykład język polski składa się ze skończonej liczby słów i oparty jest na gramatyce mającej skończoną liczbę reguł – a jednak można w nim napisać nieskończoną liczbę artykułów, powieści, poematów, pism urzędowych itp. Również języki sztuczne (na przykład C++) cechują się tym, że mając skończoną liczbę składników oraz reguł (łatwą do opanowania przez komputerowy kompilator) – mogą służyć do wytworzenia nieograniczonej liczby programów, potencjalnie nieskończonej, po napisaniu dowolnej liczby programów zawsze możliwe jest napisanie jeszcze jednego, kolejnego.
Obok procesu przetwarzania i analizy obrazu, ukierunkowanego na przedstawienie zawartości obrazu w postaci zapisu w odpowiednim języku grafowym, drugą cechą wyróżniającą technikę automatycznego rozumienia obrazu jest fakt, że proces wnioskowania, prowadzony w takim systemie, oparty jest na dwóch źródłach informacji .
Jak widać na rysunku 8, jednym ze tych dwóch źródeł informacji jest analizowany obraz przedstawiający scenę, która musi być zrozumiana, żeby można było rozstrzygnąć, czy sytuacja rejestrowana przez kamery, mieści się jeszcze w granicach tego, co można uznać za akceptowalne, nie budzące wątpliwości i nie zmuszające do podejmowania kontroli na miejscu lub/i interwencji, czy też są podstawy do niepokoju i należy zaalarmować personel ochrony. Odpowiedni strumień danych zewnętrznych, podobnie jak systemach tradycyjnych, zaczyna się od sensorów (na przykład kamer) i biegnie przez kolejne etapy przetwarzania, segmentacji i analizy sygnałów. Nie kończy się on jednak – jak było wyżej zapowiedziane – na identyfikacji czy kategoryzacji obiektów i przejawianych przez nie aktywności, tylko jest próbą ich scharakteryzowania za pomocą formuł specjalnie zaprojektowanego języka, o którym była mowa wyżej. Język ten aktualnie jeszcze nie istnieje, ale będzie trzeba taki język stworzyć na podstawie oceny wyników dostarczanych przez moduły przetwarzania i analizy obrazów oraz na podstawie wiedzy ekspertów.
Ta wiedza, którą posiadają doświadczenie policjanci i strażnicy, a której nie posiadają z reguły systemy automatycznie analizujące dane z sensorów systemu monitorującego. Doświadczony policjant czy strażnik potrafi zrozumieć, co robi obserwowana osoba, ponieważ ma tę wiedzę, doświadczenie i mądrość. Dzięki temu może odkryć w pozornie niewinnym zachowaniu obserwowanej osoby jej rzeczywiste intencje, cele i przewidywane niebezpieczne skutki działania. I odwrotnie, może zignorować zachowania pozornie niebezpieczne, prowokujące ewentualną interwencję sił porządkowych, która będzie chybiona, bo w istocie nic poważnego nie zaszło. Taki fałszywy alarm może być źródłem chorej satysfakcji dla nieodpowiedzialnych żartownisiów, lub może być źródłem informacji dla rzeczywistych złodziei lub terrorystów, którzy przez takie fałszywe alarmy i pilną obserwację sposobu interwencji sił porządkowych próbują dotrzeć do nieosiągalnych dla nich w inny sposób informacji o organizacji ochrony i jej słabych punktach.
Jak pokazano na rysunku, centralnym elementem podsystemu automatycznego rozumienia musi być zasób wiedzy pozyskanej od ekspertów, którymi są w tym przypadku doświadczeni pracownicy ochrony i ewentualnie funkcjonariusze służb specjalistycznych (policjantów, strażaków, saperów itp.). Taką wiedzę trzeba będzie pozyskać i we właściwy sposób odwzorować w budowanym systemie.
Ważny w opisanej koncepcji jest blok opisany na powyższym rysunku jako Rezonans kognitywny. W bloku tym generowane są automatycznie hipotezy na temat tego, jak można interpretować obraz podlegający w danym momencie analizie i opisany przez formuły języka budowanego na bazie wskazywanych przez ekspertów przesłanek. Hipotezy związane są z wnioskami podawanymi (na etapie gromadzenia wiedzy) przez ekspertów. Hipoteza może polegać na wyborze jednego z zarejestrowanych wniosków, może opierać się na równoczesnym wysunięciu kilku wniosków, albo może wyrażać się poprzez zaprzeczenie wniosku (ewentualność wyrażona pewnym wnioskiem zostaje wtedy wykluczona z dalszych rozważań).
Na każdym etapie pracy systemu generowanych jest od kilku do kilkunastu hipotez, które następnie będą konkurowały ze sobą, wykorzystując odpowiednio gromadzoną „moc”. Proces generacji hipotez jest bowiem częścią inicjującą procedury rezonansu kognitywnego, ale nie jest częścią finalną. Dla każdej wygenerowanej hipotezy przeszukuje się bazę wiedzy i wybiera się wszystkie te elementarne składniki wiedzy ekspertów, w których ta hipoteza występowała jako wniosek. Korzystającz odpowiednich reguł poszukuje się następnie tych przesłanek, które mogłyby rozważaną hipotezę potwierdzić, a znalazłszy je – odwołuje się do semantycznego (lingwistycznego) opisu aktualnego obrazu (czy też rozważanej sceny dynamicznej), w którym te przesłanki powinny dać się zidentyfikować. Każda przesłanka odnaleziona w opisie aktualnego obrazu będzie zwiększała „moc” rozważanej hipotezy. Każda nie znaleziona przesłanka (która powinna być, jeśli hipoteza ma być prawdziwa) – będzie tę „moc” zmniejszała. Działanie to będzie przeprowadzane równocześnie dla wszystkich rozważanych hipotez, dla wszystkich reguł, które się z nimi wiążą oraz dla wszystkich warunków określających, kiedy takiej czy innej reguły można użyć.
Prowadząc opisany wyżej proces obserwujemy, że „moc” pewnych hipotez maleje, innych wrasta w niewielkim stopniu, ale może się tak zdarzyć (chociaż nie musi), że „moc” pewnej hipotezy gwałtownie wzrośnie, majoryzując wszystkie inne hipotezy. Utworzy się swoisty „pik rezonansowy” będący następstwem wzajemnego dopasowania oczekiwań wynikających z rozważanej hipotezy i rzeczywistych cech i atrybutów obrazu, wykrytych na etapie jego przetwarzania i analizy. Wystąpienie takiego rezonansu upoważnia do tego, żeby tę hipotezę, która rezonans wywołała, podać na wyjściu systemu jako domyślne (domniemane) znaczenie obrazu czy sceny, który był przedmiotem próby semantycznej interpretacji.
Zjawisko rezonansu kognitywnego jest rzadkie, więc system nie będzie zbyt skory do tego, żeby ferować wyroki na temat sposobu rozumienia obserwowanej sceny. W większości przypadków odpowiedzią systemu automatycznego rozumienia będzie … brak odpowiedzi. Jeśli jednak dojdzie do rezonansu kognitywnego, to wykryta interpretacja semantyczna rozważanej sceny (pochodząca – przypomnijmy to – ze zbioru możliwych wniosków podanych przez ekspertów na etapie akwizycji ich wiedzy w celu jej implementacji w systemie) może być traktowana jako poważna propozycja sposobu rozumienia aktualnie analizowanego obrazu.
prof. Ryszard Tadeusiewicz, AGH