Calling All Cars: The Corpse Without a Face / Bull in the China Shop / Young Dillinger
mržnja pri telefonskom razgovoru automatiziranim sustavima prepoznavanja govora može se utješiti u činjenici da znanstvenici rade kako bi takvi sustavi bili više življi i manje dosadni za upotrebu. "Iz iskustva potrošača, ljudi to čine vrlo frustrirajućim", rekao je James Allen, koji je predsjednik računarstva na Sveučilištu u Rochesteru, koji je govorio prije konferencije SpeechTEK 2010. održanog u New Yorku ovaj tjedan.
Većina kompjuteriziranih sustava prepoznavanja govora može razumjeti ono što čovjek kaže do 98 posto vremena, a ipak se ljudi još uvijek suočavaju s korištenjem automatiziranih telefonskih help-desk sustava. Ključ da bi ti sustavi bili manje frustrirajući za korištenje bio bi dajući im dublje razumijevanje jezika i njihovu interaktivnost, rekao je Allen.
[Daljnje čitanje: Vaše novo računalo treba tih 15 besplatnih, izvrsnih programa]
Do sada službe za korisničku službu većine velikih organizacija nude automatizirane telefonske sustave pomoći. Korisnik naziva broj za pomoć, a umjetni glas pita pozivatelja niz pitanja. Većina tih sustava temelji se na okvirima koji su u osnovi velike stabla odlučivanja. S takvim sustavima, "ne saznate što osoba želi, slijedite skriptu", rekao je.Sustavi su zapravo kompozitni od nekoliko različitih tehnologija. Jedno je prepoznavanje govora ili sposobnost da računalo razumije ili uspješno prevede u tekst, što govori govornik.
Druga tehnologija, obrada prirodnog jezika (NLP), pokušava ili pretvoriti poruku govornika u naredbu da se računalo može izvršiti ili da se može sažeti za operatera.
U posljednjih nekoliko desetljeća napravljeni su veliki napori u prepoznavanju glasa i NLP-u, ali su naizgled doveli uglavnom frustracije svojim korisnicima. "Zovem banku samo kada imam problem i borim se s tim sustavima. [Pitam] ono o čemu mogu odgovoriti kako bih se osobi što prije prenio", rekao je Allen.
Allenov akademski istraživački rad bio je u pronalaženju načina na koje možemo "razgovarati s strojem na isti način na koji možemo razgovarati s nekom osobom", rekao je.
Razgovori između dvije osobe mogu biti precizni na način na koji računala imaju poteškoća s podudaranjem. Allen je ukazao na neki rani rad koji je radio kao diplomski student, u kojem je snimio razgovore na informativnom stolu željezničke stanice. U jednoj interakciji, putnik prolazi do štanda i kaže: "8:50 do Windsora", a polaznik odgovara "Gate 10, kasno 20 minuta". Dok je polaznik točno znao koje podatke tražio, kompjuterski sustavi bi pronašli prvu izjavu putnika zbunjujući.
Način na koji Allen vidi, nedostaju dva elementa iz suvremenih sustava: sposobnost analize govornika i sposobnost razgovora s govornikom kako bi saznali više o onome što govornik namjerava reći.
"Mnogo NLP-a na stolu nastoji biti plitko. Nemamo tehnologiju koja vam daje značenje rečenica" On je rekao. Stručni alati za obradu i služba za definiranje riječi kao što je WordNet mogu pomoći u definiranju riječi ali i odnosima riječi, pa će sustav znati da je, primjerice, "podružnica" dio "tvrtke".
Više također je potrebno dvosmjerno komuniciranje između korisnika i računala. Kada govorimo o svojim potrebama, ljudi mogu pružiti informacije bez određenog reda. Na računalu bi trebalo sastaviti ove informacije, a ne opterećivati korisnika pitanja čiji su odgovori već dani.
"Ovo je budućnost, to je ono što želite da sustavi učiniti, a mi možemo izgraditi dijalog sustavi koji mogu poduprijeti ovaj raspon složenosti ", rekao je.
Da bi ilustrirali ovu ideju, Allen i tim istraživača osmislili su program nazvan Cardiac koji bi mogao oponašati pitanja koja bi medicinska sestra tražila od pacijenta s srčanim bolestima. Program je nastao financiranjem iz američkih National Institutes of Health. S ovim sustavom, kada korisnik pošalje informacije, sustav to više ne bi tražio, rekao je Allen. Sustav bi razmišljao o tome koji je materijal već bio osiguran i ono što je još bilo potrebnoDrugi program koji su dizajnirali Allen i njegov tim, nazvani Plough, mogu naučiti kako provesti uobičajene zadatke na računalu. "Ovo je sustav koji vam omogućuje da u suštini koristite dijalog kako biste osposobili vaš sustav kako raditi stvari za vas", rekao je.
Kao primjer, Allen je pokazao program kako naučiti kako pronaći obližnje restorane pomoću preglednika. Korisnik bi otvorio preglednik, krenuo do lokacije lokacije restorana, upišite traženi restoran i lokaciju, a zatim rezati i zalijepite rezultate na praznu stranicu. Korisnik je opisao svaki korak kao što je bio izveden.
U tom će postupku Plough zabilježiti svaki korak i jasno odgovoriti kada se korak razumije. Kasnije, kada bi korisnik želio potražiti drugi restoran, program će proći kroz sve te poteze, automatski proizvodnjom drugog popisa restorana. Agencija za napredne istraživačke projekte SAD-a financirala je razvoj ovog programa.
Više podataka je ključ za više ljudskih sustava za obradu jezika, zaključio je glavni znanstvenik za govor Microsofta Larry Heck, u još jednom razgovoru na konferenciji. "Ako nemate podatke, nije bitno koliko su algoritmi sofisticirani", rekao je.
Jedno mjesto za pronalaženje više podataka bilo bi upiti u tražilicama, predlaže. Usluge tražilice dobivaju ogroman broj upita, a sve se povezuje s odgovorima. "Pogledam pretraživanje kao bliski rođak u tehnologiji za obradu jezika", rekao je Heck.
Ovih dana ljudi se obučavaju za strukturiranje svojih upita kao skup ključnih riječi. Umjesto toga, ako bi korisnici trebali upisati pune rečenice koje opisuju ono što im trebaju, rezultatni skup podataka može dugo putovati u pomaganju sustavu da bolje razumiju što ljudi traže.
Heck je predvidio da što veći broj ljudi koristi uslugu pretraživanja s glasom od tvrtke Microsoft i Google, postat će naviknut strukturirati svoje upite kao cjelovite rečenice koje bi s vremenom mogle pomoći NLP sustavima da bolje predvide potrebe korisnika.
Joab Jackson pokriva softverske programe i opće tehnološke vijesti za
IDG News usluga
. Slijedite Joab na cvrkut na @Joab_Jackson. Joabova adresa e-pošte je [email protected]
Nook hakiran; Ima skrivenu podršku za prepoznavanje govora i govora
Barnes & Nobleov novi e-čitač ima neke intrigantne skrivene osobine. MMS i prepoznavanje govora, bilo tko?
Softver za prepoznavanje govora Agnitio: Navigacija sustavom Windows pomoću Glasovnog
Agnitio Program prepoznavanja govora čini zadatak lakšeg navigiranja kroz Windows dodjeljivanjem naredbi za različite radnje poput isključivanja, ponovnog pokretanja itd.
Upotrijebite Microsoft TellMe prepoznavanje glasa i govora u sustavu Windows Phone
Windows Telefon omogućuje vam upotrebu glasa za rad i izvođenje jednostavnih, ali korisnih zadataka na vašem Windows Telefon. Pomoću ove značajke možete uputiti poziv, ponovno birati, poslati SMS poruke, nazvati vašu govornu poštu, otvoriti aplikaciju i pretraživati web.