Alessandro Lenci
Quando il testo e il computer si incontrano. Alcune riflessioni sulla linguistica computazionale oggi

 

Torna all'indice completo del numero Mostra indice delle sezioni Inserisci testata


Sommario
I.
II.
III.
Lo sviluppo della disciplina
Lo stato attuale
Bibliografia



§ II. Lo stato attuale

I. Lo sviluppo della disciplina

Nata come disciplina di frontiera, di fatto ai margini sia del mondo umanistico che delle applicazioni informatiche più tradizionali, la linguistica computazionale in poco più di 50 anni è riuscita a conquistare una posizione di indiscussa centralità nel panorama scientifico internazionale. In Italia, alla storica culla pisana rappresentata dall'Istituto di Linguistica Computazionale del CNR – fondato e diretto per lunghi anni dal compianto Antonio Zampolli – si sono affiancati numerosi centri e gruppi di ricerca attivi su tutto il territorio nazionale. Sul versante applicativo, le numerose iniziative imprenditoriali nel settore delle “tecnologie della lingua” testimoniano l'impatto crescente della disciplina (seppur con ritmi molto più lenti che nel resto dell'Europa) al di fuori dello specifico ambito accademico, prova del fatto che i tempi sono diventati maturi perché molti dei suoi risultati lascino i laboratori alla volta del mercato. A questo si deve anche aggiungere – dato per molti aspetti ancor più significativo – la presenza ormai affermata della linguistica computazionale presso molti curricula universitari umanistici e scientifici. Un esempio importante è rappresentato dal nuovo corso di studi in Informatica Umanistica attivato presso la Facoltà di Lettere e Filosofia dell'Università di Pisa, all'interno del quale l'insegnamento di linguistica computazionale occupa una posizione centrale nell'ambito di un percorso formativo genuinamente interdisciplinare.
Quali i motivi di questa crescita esponenziale? Sebbene facilitato dai progressi nel settore informatico e telematico, unitamente all'effetto catalizzante di Internet, sarebbe improprio spiegare lo sviluppo della disciplina solo in termini di fattori meramente tecnologici. In realtà, la linguistica computazionale possiede oggi una sua maturità metodologica nata dalla conquista di un preciso spazio di autonomia disciplinare anche rispetto alle sue anime originarie, l'indagine umanistico-letteraria e la ricerca informatica. Questa autonomia si contraddistingue per un nuovo e delicato equilibrio tra testo e computer. Le elaborazioni computazionali sono chiamate a rispettare la complessità, articolazione, e multidimensionalità del testo, e al tempo stesso quest'ultimo emerge come una risorsa di conoscenza che può essere gestita ed elaborata con le stesse tecniche, metodologie e strumenti che rappresentano lo stato dell'arte nella tecnologia dell'informazione.
A tale proposito è utile ricordare come la linguistica computazionale sia nata nel secolo scorso da due distinti paradigmi di ricerca. Da un lato troviamo i temi caratteristici dell'applicazione allo studio dei testi letterari di metodi statistico-matematici e delle prime elaborazioni informatiche, di cui Padre Roberto Busa e Antonio Zampolli rappresentano i pionieri nazionali. Lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole e degli indicatori statistici fondamentali del testo, la compilazione di indici e concordanze di opere letterarie, la creazione di repertori lessicali elettronici (i cosiddetti “dizionari macchina”) sono tra i primi risultati della nascente disciplina. Il secondo paradigma fondante è rappresentato dall'Intelligenza Artificiale e in particolare dal mito delle “macchine parlanti”, che hanno promosso temi di ricerca rimasti “classici” per il settore, come la traduzione automatica, i sistemi di dialogo uomo-macchina, ecc. All'interno di questa stessa tradizione si è sviluppato il settore del “natural language processing” o trattamento automatico della lingua con le prime architetture per l'analisi sintattica automatica (“parsing”) e l'interpretazione semantica. Ai suoi esordi la linguistica computazionale ha sofferto però anche di una forte dicotomia tra queste due anime, riassumibile proprio in diverse e a tratti opposte concezioni della lingua e dei metodi per le sue elaborazioni computazionali. La lingua come prodotto storico e vivente realizzato nei testi letterari si è a lungo opposta alla lingua in vitro di esperimenti da laboratorio troppo spesso decontestualizzati e riduttivi rispetto alle sue reali forme ed usi. A questo si affianca anche la prevalenza dei metodi statistici per lo studio delle regolarità distribuzionali delle parole tipico di molta linguistica matematica applicata al testo, in forte contrasto col prevalere di tecniche simboliche, essenzialmente a base algebrica e logico deduttiva, che hanno costituito il paradigma dominante per la progettazione dei primi algoritmi per il trattamento automatico della lingua.
Il superamento di tale dicotomia è stato reso possibile grazie al radicale mutamento di paradigma avvenuto nel trattamento automatico della lingua a partire dalla seconda metà degli anni 80, caratterizzato dal diffondersi e poi dal netto prevalere di un'epistemologia essenzialmente neo-empirista. Questo cambiamento si è concretizzato nella diffusione dei metodi statistico-quantitativi per l'analisi computazionale del linguaggio, e nella rinnovata centralità del dato testuale. La disponibilità di corpora di grandi dimensioni è diventata una variabile fondamentale in ogni fase di sviluppo e valutazione degli strumenti per l'elaborazione dell'informazione linguistica. Gli strumenti per il trattamento automatico della lingua sono infatti ora chiamati a confrontarsi non con pseudolinguaggi di laboratorio ma con testi “reali” nella loro complessità linguistica e strutturale. Questo ha a sua volta portato al diffondersi di tecniche di elaborazione linguistica più “robuste” di quelle simboliche tradizionali, in grado di affrontare la variabilità lessicale e strutturale del linguaggio, e anche quel suo continuo resistere ai vincoli grammaticali che è così evidente in molte sue manifestazioni, prima fra tutte la lingua parlata. La crescente disponibilità di corpora testuali ha indubbiamente facilitato tale innovazione metodologica, fornendo i dati linguistici necessari per un uso intensivo dei metodi statistici, che hanno incominciato ad ibridare le architetture e gli algoritmi più tradizionali. Un ulteriore fattore di accelerazione è stato fornito dalla necessità della tecnologia della lingua di passare da prototipi di laboratorio a sistemi funzionanti in grado di offrirsi agli utenti come affidabili strumenti per la gestione dell'informazione linguistica. Il banco di prova di Internet, per sua natura risorsa testuale multiforme e magmatica, ha imposto ai sistemi per il trattamento automatico della lingua una capacità di adeguarsi alle complessità del testo reale prima impensabile.

 

§ III. Bibliografia Torna al sommario dell'articolo

II. Lo stato attuale

La grande potenzialità della linguistica computazionale oggi si basa sulla sua capacità di trasformare i dati testuali in risorse di informazione linguistica. Questo è reso possibile dal simultaneo realizzarsi di una serie di condizioni diverse ma strettamente correlate:
1. la rappresentazione dei dati testuali attraverso una codifica esplicita della loro struttura ed articolazione;
2. la standardizzazione della rappresentazione dei dati, necessaria per assicurare la loro interscambiabilità e la coerenza del trattamento dell'informazione;
3. l'annotazione esplicita del contenuto linguistico e metalinguistico dei dati testuali;
4. l'integrazione dell'informazione per consentire analisi multidimensionali dei dati testuali;
5. la disponibilità di tecnologie per l'analisi “robusta” del testo (analizzatori sintattici, tecniche statistiche, ecc.) che rende possibile l'applicazione degli strumenti di analisi automatica della lingua a grandi basi di dati testuali;
6. l'accessibilità e interrogabilità dei dati linguistici, per permettere di eseguire ricerche complesse.
Un punto di particolare importanza è il rapido affermarsi di linguaggi standard di “mark-up” testuale – XML, TEI , CES (Ide et al. 1996), ecc. – che permettono una descrizione esplicita del contenuto e della struttura dei documenti testuali, la loro rapida collocazione on-line, ed anche una più efficace interazione con gli strumenti di analisi linguistica automatica. Lo stato dell'arte attuale della ricerca permette dunque alla linguistica computazionale di avvicinarsi ancora di più alle esigenze della ricerca linguistica e letteraria, offrendo una larga gamma di tecnologie per l'analisi multidimensionale e multilivello (es. morfologica, sintattica, statistica, ecc.) di corpora di grandi dimensioni. L'impiego di strumenti di linguistica computazionale per l'annotazione (semi)automatica di corpora è ormai una pratica corrente. Già nel 1994 il parser a dipendenze ENGCG (Karlsson et al. 1994) è stato impiegato per l'analisi sintattica automatica del corpus “Bank of English” di 200 milioni di parole (Sinclair a cura di, 1995), e “taggers” e analizzatori morfologici sono correntemente usati per la lemmatizzazione di dati testuali.
Per la lingua italiana sono ormai disponibili importanti corpora testuali bilanciati, come PAROLE, sviluppato presso l'Istituto di Linguistica Computazionale del CNR, e CORIS/CODIS del CILTA di Bologna, oltre ad una quantità sempre crescente di basi di dati testuali letterarie e specialistiche interrogabili anche on-line. Inoltre, sebbene in ritardo rispetto all'inglese, anche la lingua italiana si è dotata di strumenti efficaci per il trattamento automatico del linguaggio che possono essere proficuamente applicati all'annotazione testuale per la ricerca linguistica. Molti di questi strumenti sono stati sviluppati nell'ambito di progetti internazionali finanziati dall'Unione Europea, e di progetti nazionali finanziati dal MIUR, come ad esempio il progetto SI-TAL (Sistema Integrato per il Trattamento Automatico del Linguaggio, ideato e diretto da Antonio Zampolli). In particolare voglio qui ricordare:
1. database linguistici – lessici computazionali, reti semantico-concettuali multilingui, corpora annotati sintatticamente e semanticamente per lo sviluppo e la valutazione di tecnologia del linguaggio (Montemagni et al. 2003, Lenci et al. 2000a)
2. processori per l'analisi linguistica di testi e l'acquisizione dinamica di conoscenza linguistica – analizzatori morfologici, segmentatori sintattici (“chunker”), analizzatori delle dipendenze grammatico-funzionali, acquisitori automatici di informazione sintattica e semantica da testo, ecc. (Allegrini et al. 2001, Bartolini et al. 2002)
3. modelli e standard di informazione linguistica – ontologie formali per il “knowledge sharing” e la codifica lessicale, modelli formali per la rappresentazione ed interscambio di dati linguistici (Lenci et al. 2000b).
Questi componenti permettono di costruire una rappresentazione avanzata del contenuto informativo dei testi attraverso analisi linguistiche a vari livelli di complessità: analisi morfologica e lemmatizzazione, segmentazione del testo in unità di costituenti non-ricorsive (“chunking”), analisi delle relazioni di dipendenza funzionale per ricostruire la struttura semantica delle frasi, identificazione di gruppi di parole semanticamente coese (“clustering” semantico), ecc. I moduli di elaborazione sono solitamente interfacciati con database linguistici, che rappresentano e codificano grandi quantità di informazione lessicale, morfologica, sintattica e semantica, e che ne permettono sofisticate modalità di analisi.
Molti di questi strumenti sono stati sviluppati seguendo metodologie consolidate della linguistica computazionale (come le tecnologie a stati finiti). Un ulteriore valore aggiunto viene dalla loro integrazione con strumenti per l'acquisizione dinamica di conoscenza linguistica lessico-grammaticale, basati sull'impiego di algoritmi di machine learning (apprendimento automatico)(Manning and Schütze 1999). Le tecnologie di machine learning sono estremamente promettenti nel garantire l'adattabilità dei sistemi che includono moduli di elaborazione del linguaggio naturale, permettendo l'aggiornamento e specializzazione delle risorse linguistiche, e garantendo una maggiore robustezza e portabilità degli strumenti di analisi del linguaggio su domini e registri linguistici diversi.
Un'altra interessante applicazione dell'ingegneria del linguaggio all'analisi linguistica dei corpora è rappresentata dal “Text Data Mining” con metodi di statistica esplorativa univariata e multivariata. All'ormai classico impiego della mutual information per misurare il grado di associazione tra parole si è infatti affiancata una vasta gamma di metodiche ben più sofisticate per l'analisi degli spazi di similarità semantica nel testo. I sistemi esistenti di “data mining” testuale si basano sulla capacità di individuare pattern associativi tra parole in documenti, così da fornire all'utente nuovi orientamenti ed indicazioni sull'organizzazione dell'informazione del testo. L'uso di moduli linguistici permette di ancorare la ricerca e scoperta di informazioni su un'analisi più profonda delle strutture documentarie, permettendo di ricavare associazioni rilevanti basate non solo sulla semplice distribuzione delle occorrenze di parole, ma anche su correlazioni semantico-concettuali o sull'analisi avanzata della struttura sintattico-testuale.
Gli sviluppi più recenti nella linguistica computazionale sembrano dunque aprire enormi opportunità di innovazione metodologica per la ricerca linguistica e letteraria. D'altro lato è necessario osservare come gli strumenti e le risorse per il trattamento automatico della lingua siano fino ad oggi a disposizione di una ristretta comunità di addetti ai lavori, e presentino in molti casi uno spiccato orientamento verso l'applicazione industriale. È dunque necessario incentivare l'osmosi tra la ricerca in linguistica computazionale e l'indagine umanistica più tradizionale. Un contributo importante in tale direzione è rappresentato dal nuovo portale Ricerca Linguistica (http://dante.di.unipi.it/ricerca), realizzato dal Dipartimento di Studi Italianistici dell'Università di Pisa, sotto la direzione di Mirko Tavoni. Il sito consente l'accesso a vari corpora letterari e linguistici on-line e a software linguistico-computazionale. Quest'ultimo è integrato in Italian NLP (http://foxdrake.ilc.cnr.it/webtools), un laboratorio virtuale di strumenti per il trattamento automatico della lingua italiana, realizzati dall'Istituto di Linguistica Computazionale del CNR e dal Dipartimento di Linguistica (Sezione di Linguistica Computazionale) dell'Università di Pisa.
Tali iniziative rappresentano solo nuclei iniziali di spazi virtuali in cui favorire la compenetrazione tra anime diverse della ricerca umanistica e sviluppare un confronto metodologico autentico sulla rappresentazione e gestione dell'informazione testuale. È infatti essenziale che gli umanisti da meri utenti della tecnologia informatica acquistino un ruolo sempre più attivo nella progettazione di strumenti e risorse che devono essere comunque in grado di rispettare la specificità e le articolazioni del dato umanistico. Un ruolo cruciale in questo complesso processo di integrazione culturale deve essere svolto anche dalla formazione universitaria, incentivando lo sviluppo di curricula con un preciso equilibrio tra contenuti umanistici e tecnologie informatiche.
L'elaborazione computazionale soffre spesso di una sindrome demiurgica, suscitando talvolta aspettative eccessive correlate ad altrettanto ingiustificate paure per una sua presunta velleità di espropriare o limitare la creatività del ricercatore umanistico. Il trattamento automatico della lingua non è stato immune da queste stesse tentazioni, ma le ha superate proponendo nuovi ed articolati rapporti tra dati testuali ed algoritmi per la loro elaborazione. Il testo e il computer sono indubbiamente molto più vicini di prima. Sta a noi riuscire a far maturare tutte le potenzialità offerte da questo incontro.

 

Vai alla fine dell'articolo Torna al sommario dell'articolo

III. Bibliografia

  • P. Allegrini, A. Lenci, S. Montemagni, V. Pirrelli, Modellizzazione ed induzione di conoscenza semantica, in Matemáticas Y Tratamiento De Corpus. Segundo Seminario, S. Millán de la Cogolla (Spagna), 2001, pp. 245-268.
  • R. Bartolini, A. Lenci, S. Montemagni, V. Pirrelli, Grammar and Lexicon in the Robust Parsing of Italian: Towards a Non-Naïve Interplay, in Proceedings of COLING 2002 Workshop on Grammar Engineering and Evaluation, Taipei, 2002.
  • N. Ide, G. Pirest-Norman, J. Veronis, Corpus Encoding Standard, EAGLES report, 1996.
  • F. Karlsson, A. Voutilainen, J. Heikkilä, A. Anttila (a cura di), Constraint Grammar: A Language-Independent System for Parsing Unrestricted Text, Berlin/New York, Mouton de Gruyter, 1994.
  • A. Lenci, N. Bel, F. Busa, N. Calzolari, E. Gola, M. Monachini, A. Ogonowsky, I. Peters, W. Peters, N. Ruimy, M. Villegas, A. Zampolli, SIMPLE: A General Framework for the Development of Multilingual Lexicons, in «International Journal of Lexicography», XIII (4), 2000a, pp. 249-263.
  • A. Lenci, S. Montemagni, V. Pirrelli, C. Soria, Where Opposite Meet. A Syntactic Meta-scheme for Corpus Annotation and Parsing Evaluation, in Proceedings of LREC 2000, Atene, 2000b.
  • C. Manning, H. Schütze, Foundations of Statistical Natural Processing, Cambridge, MIT Press, 1999.
  • S. Montemagni, F. Barsotti, M. Battista, N. Calzolari, O. Corazzari, A. Lenci, A. Zampolli, F. Fanciulli, M. Massetani, R. Raffaelli, R. Basili, M. T. Pazienza, D. Saracino, F. Zanzotto, N. Mana, F. Pianesi, R. Delmonte, Building the Italian Syntactic-Semantic Treebank, in Building and using Parsed Corpora, a cura di A. Abeillé, Kluwer, Dordrecht, («Language and Speech series»), 2003, pp. 189-210.
  • J. Sinclair (a cura di), Collins COBUILD English Dictionary, London, Harper Collins, 1995.

 

Precedente Successivo Scheda bibliografica Torna al sommario dell'articolo Torna all'indice completo del numero Mostra indice delle sezioni


Bollettino '900 - Electronic Newsletter of '900 Italian Literature - © 2003-2004

Dicembre 2003, n. 2