Könnyű becsapni a képfelismerést

Excursus: Mesterséges intelligencia és mély tanulás

Az intelligens arcfelismerés mögött a mesterséges intelligencia és a mély tanulás áll. Ahhoz, hogy megismerje az elismerés működését, először meg kell értenie a mögötte lévő technológiát.

A mesterséges intelligencia a gépi tanuláson alapul, amely alapvetően az adatok vezérelt, irányított, majd egy algoritmus automatikus továbbfejlesztése. A mély tanulás egyre jobb: a mesterséges intelligencia e formája az emberi agy folyamatain alapszik. A mesterséges idegi hálózatok kapcsolatot létesítenek vagy törölnek, ha a hamis besorolásúak. Mint minden tanulási folyamatban, minél nagyobb és átfogóbb az adatbázis az algoritmusok kiképzéséhez, annál pontosabbak lesznek.

A mély tanulás korszakának kezdetével a képfelismerés pontossága drámaian javult. Ez látható például a Nemzeti Szabványügyi és Technológiai Intézet (NIST) rendszeres vizsgáin.
2011-ig a képfelismerés átlagos hibaaránya továbbra is 28 százalék volt. Ez azt jelenti, hogy minden negyedik képet nem lehetett pontosan elrendezni. A technológia nem más, mint megbízható.

kijelző

Alig három évvel később a Googlenet a legnagyobb versenyén, az ImageNet Large Scale Regognition Challenge (ILSVRC) hét százalékra csökkentette ezt az arányt. 2017-ben a mély tanulás sikere végre nyilvánvalóvá vált, és az arány 2,3 százalékra esett vissza – csökkenő tendenciával.

A tiszta felismerésen kívül az algoritmusok az arckifejezések alapján az érzelmeket is értelmezhetik. A mély tanulás tehát minden erőfeszítést megtesz az emberi érzékek felülmúlására. Ennek ellenére a technológia nem hibátlan, és néhány trükkövel megtéveszthető.

Csak játssza a bajkeverőt

Összefoglalva, két alapvető módszer létezik a mély tanulás felülmúlására: egyrészt a zavaró technológiákkal, másrészt a jelenet tényleges, haptikus beavatkozási forrásaival.

A perturbáció nem más, mint “zavart” vagy “rendellenességet” jelent – és pontosan ezt teszi ez a technika. Hozzáteszi a háttérzajt a képekhez, kavarog, vagy hasonlókat, hogy megzavarja és kikapcsolja az észlelést. Ezeket az intézkedéseket “Versenyképes támadásoknak” is hívják. Különösen hatékonyak, mivel a változások szabad szemmel alig észlelhetők.

Például, ha egy AI-t arra terveztek, hogy észlelje a szem széleit mint rögzítési pontot, akkor a zavaró hatások kissé elmosódnak. Számos ilyen versenytársi támadás létezik, például a Momentum Difference, a Fast Feature Gradient vagy a Deepfool módszer. A lista tovább folytatódhat egy darabig. Ezeknek a módszereknek az a közös, hogy szándékosan módosították a neurális hálózatokat, alárendelték a külső adatokat annak érdekében, hogy legalább az észlelés nehezebbé váljon.

A perturbációs technológiák további felosztásai a black box és a whitebox módszerek. A blackbox verzió sokkal könnyebben megvalósítható. Használatukhoz csak a tényleges képhez, azaz a bemenethez kell hozzáférni. A whitebox egy lépéssel tovább megy. Itt kell hozzáférnünk az észlelést végző neurális hálózathoz.

Ennek a technikának a példáját a Toronto Egyetem Parham Aarabi professzor vezette kutatócsoport fejlesztette ki. A kapott algoritmus annyira képes megtéveszteni az ideghálózatokat, hogy a 100 százalékos biztonságos észlelést 0,5 százalékra lehet csökkenteni. Több vizsgálat után a kutatók kifejlesztettek egy szűrőt, amint azt Instagramból ismerjük. Ezt fel lehet helyezni a képekre az észlelés megakadályozása érdekében.

Szintén érdekes: mesterséges intelligencia Németországban

Az AI leválasztja a medvét

A kép zavaró forrásai kissé másképp működnek, mint a zavaró technológiák. Tegyük fel, hogy normál jelenetet látunk egy osztályteremben. A tanuló a székben, egy tanár az asztal elején. Eddig olyan jó. Most egy vastag, színes kartonmackót helyezünk ebbe a normál jelenetbe.

Ilyen helyzetben mi, emberek, automatikusan elvégezzük a hitelesség ellenőrzését. Azt kérdezzük magunktól: Medve az osztályteremben? Aztán másodszor visszatekintünk a helyzet megértésére és osztályozására. A neurális hálózatokat viszont továbbra is túlterheltek ezek a helyzetek, és az állatok beavatkozásának forrása teljesen elriaszthatja őket.

Ugyanezen elv alapján egy matrica működik, amelyet néhány Google kutató együtt dolgozott ki. Az arc közelében, mint a kabát gallérján viselt színes matrica elvonhatja az AI figyelmét. Ezután csak az izzó zavarra összpontosít, és figyelmen kívül hagyja az arcot, megakadályozva az észlelést.

Ahova az út megy

Egy dolog biztos: az algoritmusok fejlesztése nem áll le. Ami elképzelhetetlen ma, vagy legalábbis megvalósíthatatlan, holnap valósággá válhat. Nem csak a Google, például a Google, hanem az olyan óriások is, mint a Microsoft, keményen dolgoznak a technológia fejlesztésén. Mindazonáltal nem szabad elfelejteni, hogy az intelligens arc- és arcfelismerésnek is vannak előnyei.

Így a valós idejű intelligens videóelemzés segíthet életmentésen. Például, ha egy személy megsérül egy metróállomáson, akkor a sürgősségi hívást automatikusan el lehet küldeni, hogy a lehető leggyorsabban segítsen. A saját eszközök egyszerű biztonsági másolatának készítéséhez a felhasználók arcszkennelést használhatnak dekódolásként jelszó vagy ujjlenyomat helyett, a vállalkozások pedig a beolvasás révén zárolhatják vagy feloldhatják az épületek különböző biztonságos területeit.

Természetesen sok más lehetséges felhasználási forgatókönyv is létezik. Végső soron attól függ, hogy használunk-e mesterséges intelligenciát mindenki hozzáadott értékéhez, vagy fenyegetésnek tekintjük-e.

Szintén érdekes: Miért vannak az okostelefon-kamerák valóban olyan jók?

A szerzőről: A mesterséges intelligencia szakértője és osztályvezetőjeként Frank Schönefeld több mint 20 éve a T-Systems Multimedia Solutions munkatársa. Doktori fokozat megszerzése után korábban a Siemens Nixdorf Advanced Technologies szoftverfejlesztési vezetője volt.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük