Novi rad studenata sa Univerziteta u Hong Kongu opisuje do sada neispitano korišćenje neuronskih mreža, kolekcije veštačkih neurona ili čvorova koji mogu biti obučeni za obavljanje raznih zadataka, koji su ranije korišćeni samo za raspoznavanje slika.
Studenti su koristili konvolucionu mrežu da „nauči“ karakteristike kao što su tempo i usklađenost iz baze podataka pesama čiji je opseg preko 10 žanrova. Rezultat je bio skup neuronskih mreža koje ispravno mogu identifikovati žanr pesme, sa tačnošću većom od 87%, što se u računarskim naukama smatra veoma teškim problemom. U martu je grupa osvojila nagradu za najbolji rad na International MultiConference of Engineers and Computer Scientists.
Ono što je omogućilo ovaj poduhvat bila je dubina studentske konvolucione neuronske mreže. Konvencionalni kerneli neuronskih mreža su plitki, rekao je Yashua Bengio sa Univerziteta u Montrealu. Ove mreže imaju premalo slojeva čvorova – analogno slojevima neurona u moždanoj kori – da bi izvukle korisne količine informacija iz složenih prirodnih obrazaca.
U svojim eksperimenitma, studenti, pod vođstvom profesora Tom Li, otkrili su da je optimalan broj slojeva za prepoznavanje muzičkog žanra bio tri konvoluciona (ili „misleća“) sloja, pri čemu se sa prvog sloja uzimaju sirovi ulazni podaci, dok treći sloj očitava žanr podataka.
U svojim eksperimenitma, studenti, pod vođstvom profesora Tom Li, otkrili su da je optimalan broj slojeva za prepoznavanje muzičkog žanra bio tri konvoluciona (ili „misleća“) sloja, pri čemu se sa prvog sloja uzimaju sirovi ulazni podaci, dok treći sloj očitava žanr podataka.
U svakom sloju jedan čvor,ili neuron „čuje“ samo mali deo pesme,oko 23ms. Svaki čvor se 50% preklapa sa svojim susedima tako da sveukupno mnogi čvorovi u neuronskoj mreži čuju nešto više od 2s pesme.
Dok čoveku može biti veliki napor da identifikuje žanr pesme u tako kratkom vremenskom periodu, ovaj algoritam radi to veoma lako kada se primeni na pesme iz standardne biblioteke korišćene za testiranje automatskog prepoznavanja žanra. Međutim, algoritam nije dobio prolaznu ocenu u narednim testovima u kojima su ga studenti izložili muzici izvan biblioteke na kojoj je trenirao.
Oni neuspeh svog algoritma pri radu „u divljini“ pripisuju nedovoljno velikoj biblioteci na kojoj se mreža obučavala. Zbog toga što je njihov algoritam u mogućnosti da savlada preko 240 pesama za samo 2 sata, studenti Hong Konga kažu da ima potencijal da bude veoma skalabilan.
Zanimljivo, konvoluciona neuronska mreža na kojoj se temelji ovaj rad izvorno je bila inspirisana ispitivanjem vizuelnog korteksa mačke. Mačke, budući da su sisari, imaju vizuelne kortekse koji se ne razlikuju od naših. Eksperimenti rađeni na srodnoj vrsti, lasici, pokazali su da, za razliku od onoga što je rađeno u ovom radu gde je vizuelna neuronska mreža primenjena na problem u slušanju, moguće je da se „prespoji“ mozak sisara kako bi mogao da vidi sa svojim slušnim korteksom.
Ako su konvolucione neuronske mreže tako fleksibilne kao percepcija sistema sisara na kojima su zasnovane, zašto se ne primenjuju na sve vrste drugih problema percepcije u veštačkoj inteligenciji?