//

Susan Bennett: ženska, ki je Siri posodila glas

Skoraj milijarda Zemljanov pozna Siri, “inteligentnega osebnega pomočnika”, ki uporabnika posluša in mu (bolj ali manj uspešno) ponudi odgovor v 17 jezikih. Trenuten glas v ameriški angleščini je glas Susan Bennett, ki je pred-nastavljeni asistent od iPhone 4S dalje. Bennett prihaja iz New Yorka in svoj glas ponuja že 42 let. Delala je za mnoge multinacionalke kot so Ford, Coca Cola, McDonald’s Goodyear in Visa.

siri-ios-7

Siri je postala čisto po naključju, ko je že naročena igralka zbolela. Podjetje Scansoft je poleti 2005 namreč sestavljalo podatkovno bazo za “izgradnjo govora”. Bennett je snemala dober mesec po pet ur na dan in brala različne besede, stavke in odstavke, iz katerih so na podlagi glasov (in ne besed) ustvarili Siri. (The Verge ima zanimiv članek o programu, ki te glasove povezuje.) Ti glasovi so večinoma stavki, ki ne pomenijo nič, vsebujejo pa vse glasove, ki jih potrebujemo za govorjenje angleškega jezika. Stavki kot je na primer “oil your mills jewel weed today”, Susan pa jim pravi “poezija digitalnega glasu”. Za Vox je prebrala nekaj takšnih stavkov.

Cilj takšnega snemanja je ujeti vse možne tipe zvokov. Susan zato ne more posneti le zvoka “s”, ampak mora zajeti vse oblike. Besede hiss, snakes in rose imajo različne oblike zvoka s, zgoraj omenjeni program pa te zvoke poveže v vedno bolj naravno zveneč govor. A Susan doda, da se Siri neprestano posodablja (zaradi novih izrazov in ukazov), kar pomeni, da je Siri Frankensteinova pošast, sestavljena iz glasov različnih igralcev. Zanimivo pa je, da je Susan gradbene enote za Siri posnela že leta 2005, torej takrat, ko je bil iPhone šele iskrica v očeh Steva Jobsa.

Kot rečeno, Siri mora biti sposobna odgovoriti na vsako vprašanje, ki si ga izmislimo, kar pomeni, da mora v svojem besednjaku imeti dober milijon angleških besed. Ker bi snemanje trajalo celo večnost, so morala podjetja, ki se ukvarjajo s tem, najti bližnjico. Stavki, ki jih morajo igralci prebrati, so sestavljeni posebej za ta namen. Stavki, kot je na primer tale.

Scratching the collar of my neck, where humans once had gills.

Ta stavek sicer nekaj pomeni, a večina jih ne. Med izbranimi je predvsem zaradi fonetične bogatosti, saj vsebuje mnogo različnih fonemov. Fonemi so, mimogrede, zvočni gradniki jezika (na primer K v cat). Kakorkoli, če hočejo strokovnjaki čim bolj naraven umetni govor, morajo posneti čim več fonetično bogatih stavkov. Te nato posebej ustvarjena programska oprema analizira, razvrsti in jih označi. To lahko traja več mesecev. Proces je neverjetno zapleten, saj je tudi sam jezik zapleten.

Vzemimo na primer fonem A iz besede cat. Če iz besede tvorimo pridevnik catty, se fonem spremeni in sredi zloga zveni drugače kot na začetku (na primer v besedi alligator). Taisti fonem poleg tega zveni drugače v poudarjenem zlogu (catty) kot v v nepoudarjenem (androgynous). Če dodamo še dejstvo, da v določenih primerih Siri postavi vprašanje vam, mora biti program sposoben dvigniti višino tona na koncu vprašanja.

siri-emotional

Ko je podatkovna baza postavljena, lahko program kot je Siri iz nje črpa glasove in jih sproti sestavlja v besede in fraze, ki jih igralec sicer ni nikoli posnel. A če je podatkovna baza velika in bogata z materialom, bo govor iz vašega pametnega telefona zvenel izredno naravno. In z napredkom tehnologije kmalu ne bomo več ločili med strojem in človekom.

Susan je oktobra 2013 svoje delo opisala tudi na CNN.

Komentirajte

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.