Paz 'vamo... to sto zelis je citava oblast industrije i zove se digital signal processing...
Prvo bi ti preporucio da procitas neku knjigu koja je uvod u Audio DSP:
http://www.amazon.com/exec/obi...4-4786369?v=glance&s=books
http://www.amazon.com/exec/obi...?%5Fencoding=UTF8&v=glance
DSP teorija ce ti pomoci da shvatis sta je zapravo PCM WAV fajl (nekomprmovani wav fajl) i koje su osobine digitalnog audio signala i kako se on predstavlja u raznim domenima (vremenski i frekventni) i neophodne matematicke transformacije za manipulaciju sa signalom u vremenskom i frekventnom domenu.
Onda, mozes da predjes na identifikaciju glasa - ali tek kad ovladas sa osnovnim "alatima" (Vremensko/Frekventne transformacije: DFT/FFT, DCT, MDCT, digitalni filteri (FIR/IIR), konvolucije, autokorelacija, medjukorelacija, linearno prediktivno kodiranje (LPC) [autokorelacija + levinson durbin algoritam], skalarna i vektorska kvantizacija, SNR, itd..) jer je prepoznavanje glasa "framework" koji koristi ove osnovne alate da bi se iz signala izvukle odredjene osobine koje su nam bitne za analizu.
Recimo ovo:
http://www.amazon.com/exec/obi...?%5Fencoding=UTF8&v=glance
ili ovo:
http://www.amazon.com/exec/obi...?%5Fencoding=UTF8&v=glance
Takodje, pogledaj i open-source speech recognition projekte:
http://cmusphinx.sourceforge.net/html/cmusphinx.php
Ali bez razumevanja teorije tesko da ces moci da se snadjes u kodu koji moze biti vrlo kompleksan ljudima koji nisu strucni.
Puno srece :)
DigiCortex (ex. SpikeFun) - Cortical Neural Network Simulator:
http://www.digicortex.net/node/1 Videos:
http://www.digicortex.net/node/17 Gallery:
http://www.digicortex.net/node/25
PowerMonkey - Redyce CPU Power Waste and gain performance! -
https://github.com/psyq321/PowerMonkey