Prosynt: Prosodia e
sintassi
Il progetto prevede la creazione
di un corpus di italiano parlato registrato in condizioni che permettano
l’analisi spettrografica, che servirà come base per una annotazione (tagging) di tipo prosodico, la quale verrà correlata poi ad
un tagging sintattico. Il corpus con la duplice
annotazione sarà inserito all’interno di un data base accessibile tramite
internet.
Il progetto si configura come uno
studio pilota per un futuro lavoro più ampio sulla relazione tra intonazione e
struttura della frase, e quindi si ritiene opportuno delimitare lo studio ad
enunciati in cui la relazione tra prosodia e sintassi sia particolarmente
evidente, come le costruzioni che coinvolgono la cosiddetta “periferia
sinistra” della frase (cioè l’inizio dell’enunciato). Da studi già pubblicati è
emerso che esiste una relazione tra pattern prosodici e particolari casi di
dislocazione o di focalizzazione di elementi della frase all’inizio
dell’enunciato. Questi particolari pattern prosodici costituiscono un indizio
fondamentale in base al quale il parlato viene processato dal cervello umano.
Visto che l’industria ha mostrato negli ultimi anni un interesse crescente per
lo sviluppo di programmi automatici di riconoscimento vocale, che siano in
grado di interagire con parlanti di tutte le varietà dell’italiano, esiste un
mercato potenziale per studi che forniscano corpora
di parlato annotati.
Sappiamo che in Italia i pattern
intonativi variano moltissimo da regione a regione, e che anche quando i
parlanti utilizzano la varietà standard, essi mantengono il pattern intonativo (e il sistema fonologico) delle varietà locali.
E’ dunque necessario indagare quali siano i vari schemi intonativi usati dai
parlanti di varie regioni, in modo da poter “allenare” i programmi di
riconoscimento automatico a capirli. Visto che esiste già in parte un corpus di
parlato di italiano toscano, il nostro lavoro si concentra sul parlato veneto,
che si differenzia in molti casi in maniera rilevante dal toscano. Le due
varietà verranno messe a confronto per stabilire le diversità prosodiche
mantenendo costanti le stesse strutture sintattiche.
Obiettivi
del progetto
Lo scopo del lavoro è sia teorico
che applicativo. Da punto di vista applicativo, il corpus annotato avrà valore
pratico per l’industria che si occupa del riconoscimento vocale automatico e
che realizza sistemi artificiali di interazione con l’utente. Una delle più
evidenti carenze dei programmi attuali riguarda proprio il riconoscimento del
parlato spontaneo di utenti provenienti da regioni diverse. Visto che la
fonologia e l’intonazione sono uno dei componenti più stabili della lingua, e
che vengono chiaramente trasferiti anche quando il parlante utilizza la varietà
standard (o anche nel caso di parlanti che ignorano la varietà dialettale
regionale), è necessario creare dei programmi che siano allenati a riconoscere
il parlato di utenti di provenienze diverse. Un programma allenato a
riconoscere i pattern accentuali del toscano fallisce
in una consistente percentuale dei casi se messo a confronto con quelli del
veneto (o di altre regioni). Inoltre, al momento anche le applicazioni che
producono linguaggio sintetico (dalla lingua artificiale dei cellulari, a
quella degli annunci, ai programmi di lettura per ciechi) non hanno un
componente che generi pattern prosodici, e il parlato prodotto risulta spesso
incomprensibile agli utenti.
La creazione di un corpus di
parlato con una notazione sia prosodica che sintattica servirà quindi come base
per lavori applicativi che permettano di migliorare in maniera consistente i
sistemi sintetici di produzione e riconoscimento del parlato. Il fatto che il
corpus sia basato sul parlato della varietà veneta (che mantiene lo stesso
andamento prosodico anche quando il parlante utilizza lo standard), e che
questa venga comparata con corpora già presenti per
il toscano ci sembra un punto di forza del progetto, perché affronta per la
prima volta l’enorme problema della variazione linguistica dal punto di vista
dell’utilità per applicazioni industriali.
Dal punto di vista teorico, il
progetto fornirà una idea più precisa di quali siano le relazioni tra pattern
prosodici e particolari strutture sintattiche. Non sembra che esista una
semplice corrispondenza uno a uno tra strutture sintattiche e prosodiche, ma
uno studio che prenda in considerazione la relazione sistematica tra le due
permetterà di capire se ci siano delle sottounità prosodiche correlate a
sintagmi o se ci siano delle “regole di interfaccia” tra un componente e
l’altro della grammatica che traducono la struttura sintattica in un pattern
prosodico. Trattandosi di uno studio pilota si è ritenuto di dover restringere
il campo alla varietà parlata di Venezia e alle costruzioni che coinvolgono la periferia
sinistra della frase, sulle quali è stata già fatta ed è in corso (anche da
parte di componenti del progetto) una serie di studi di sintassi. Questi studi
costituiranno la base sulla quale verrà poi innestata l’analisi del componente
prosodico, che permetterà di capire quali patter
prosodici si associano a quali strutture sintattiche.
Visto che il lavoro si configura
come un progetto interdisciplinare, che richiede il lavoro di sintatticisti, fonetisti, ed esperti di creazione di data
base e di applicazioni informatiche, il gruppo di ricerca coinvolto non vede
solo studiosi della sede veneziana, ma anche studiosi della sezione di Fonetica
dell’ISTC (Istituto di Scienze della Cognizione http://www.pd.istc.cnr.it/rc-tag/13.html)
del CNR, dove è presente un laboratorio fonetico, e della Fondazione Bruno
Kessler (ex-IRST http://www.fbk.eu/) di Trento, i cui
ricercatori si occupano di creazione di data base e di applicazioni
informatiche del linguaggio.
Il gruppo di ricerca si avvarrà
anche della collaborazione di studiosi di UCL (University
College di Londra), che già da anni si occupano dell’interazione tra prosodia e
sintassi.
Gli studiosi della sede di Venezia
si occuperanno di organizzare tutto il progetto, e della parte di sintassi.
Inoltre il data base avrà fisicamente sede presso la sede di Venezia.
Una volta realizzato questo progetto pilota si prevede di ampliare il campo di indagine a progetti più ampi, che estenderanno l’analisi ad altre varietà (prima venete e poi di altre regioni) e ad altri tipi di strutture sintattiche. Inoltre sarà possibile, sulla base del corpus già creato, prevedere progetti più applicativi (in collaborazione con le summenzionate sedi trentina e padovana) che portino alla creazione di software applicativo per programmi interattivi.