Nicoletta Calzolari
Antonio Zampolli. Una vita per la Linguistica Computazionale

Torna all'indice completo del numero Mostra indice delle sezioni Inserisci testata


Antonio Zampolli è stato uno dei pionieri della Linguistica Computazionale a livello internazionale, e con le sue innumerevoli iniziative la Linguistica Computazionale è nata, si è sviluppata e consolidata in Italia.

Dopo una tesi di laurea in statistica linguistica, Zampolli ha iniziato a lavorare nel 1960 con Padre R. Busa S.J. presso il Centro per l'Automazione dell'Analisi Linguistica (CAAL) di Gallarate, per la produzione degli spogli elettronici degli scritti di S. Tommaso di Aquino, circa 10 milioni di occorrenze. Per quei tempi, l'impresa era di dimensioni eccezionali.

Nel 1969 la Direzione del CNUCE di Pisa istituì la Divisione Linguistica, diretta da Zampolli. Il 1969 fu anche l'anno del suo primo corso di Linguistica Computazionale (il primo in assoluto in Italia e per molti anni l'unico). Nello stesso anno iniziò un progetto con la Camera dei Deputati per arricchire le procedure di information retrieval per la consultazione delle leggi, attraverso la creazione e l'uso di un "dizionario di macchina" - corredato di informazioni fonetiche, morfo-sintattiche e semantiche - per quei tempi avveniristico, che è stato successivamente il punto di partenza di importanti progetti europei quali ACQUILEX e ItalWordNet.

Negli anni '70 cominciano le molteplici attività internazionali. Sono rimaste famose le Scuole Estive di Pisa - International Summer Schools on Computational and Mathematical Linguistics -, "inventate" e organizzate da Zampolli, in anni in cui non erano di moda come oggi. Ha riunito a Pisa docenti di fama internazionale rappresentanti gli orientamenti più innovativi, fra cui M. Kay, B. Partee, B. Quemada, J. Lyons, C. Fillmore, E. Keenan, M. Gross, D.G. Hays, Ch. Muller, T. Winograd, I. Mel'cuk, Y. Wilks, E. Bach, W.A. Woods, M.A.K. Halliday. Queste scuole hanno messo in contatto ricercatori europei ed americani, e contribuito all'avanzamento dello stato dell'arte in settori cruciali della Linguistica Computazionale, della Linguistica, della Intelligenza Artificiale, della Lessicologia e Lessicografia Computazionale. Zampolli amava ricordare che la Lexical Functional Grammar è nata su una torre di San Gimignano, con J. Bresnan e R. Kaplan che disegnavano alberi (sintattici, ovviamente) su un foglio invece di ammirare lo splendido panorama! Alcuni anni dopo è stato l'incontro di C. Fillmore e S. Atkins in una scuola estiva che ha dato origine alla frame semantics. Praticamente tutta una generazione di linguisti computazionali (non solo in Italia ma in Europa) si è formata attraverso quelle scuole, e ancora oggi tanti le ricordano con entusiasmo.

Ha fondato l'Istituto di Linguistica Computazionale del CNR di Pisa nel 1980, e ne è sempre stato Direttore. Il CNR è stato, attraverso l'ILC e l'attività di Antonio Zampolli, il primo (e per lungo tempo il solo) organo pubblico a supportare in modo consistente il settore della Linguistica Computazionale in Italia, contribuendo in modo determinante al decollo di un settore di alta rilevanza strategica. Zampolli ha svolto un ruolo centrale nella creazione e partecipazione a "infrastrutture di coordinamento e programmazione", internazionali e nazionali (ELRA, ELSNET, ICCL, Forum per il TAL, ICCWLRE, TEI, EURALEX, ALLC, ecc.). Tale attività di tipo strategico, attraverso cui ha spesso indirizzato la comunità internazionale verso obiettivi da lui ritenuti prioritari, ha permesso all'ILC di diventare uno dei maggiori centri di eccellenza nel settore a livello internazionale.

Nella sua attività di Direzione ha sempre cercato di sviluppare congiuntamente ricerche nei due filoni della linguistica computazionale - il filone di Humanistic Text Processing (HTP), cioè procedure di elaborazione del testo (indici, concordanze, ecc.) per ricerche umanistiche, e quello di Natural Language Processing (NLP), volto ad applicare modelli formali per l'analisi di strutture linguistiche soggiacenti ai testi - che si erano progressivamente sempre più allontanati, affrontati di solito separatamente da comunità diverse. Pochissimi centri di ricerca al mondo hanno coniugato ricerche in entrambi i filoni, promuovendo e sostenendo la convergenza dei metodi basati su regole con quelli basati su dati quantitativi. Da un lato ha potenziato le ricerche per la creazione e adattamento di strumenti di NLP per applicazioni di HTP, per esempio attraverso la lemmatizzazione semiautomatica, l'etichettatura morfosintattica, l'uso di basi di conoscenza lessicale come supporto nella consultazione dei testi, ecc. D'altro lato, l'esperienza acquisita nel trattamento di grandi quantità di testi di tipo umanistico, ha spinto a estendere la copertura linguistica e la robustezza dei componenti di NLP, a utilizzare sofisticate tecniche di analisi quantitativa, e promuovere la consapevolezza della necessità di formulare degli standard di rappresentazione. Il ruolo pionieristico che ha ricoperto con questo modo di operare, e la sua efficacia nel promuovere paradigmi scientifici che corrispondessero alle esigenze strategiche della comunità nazionale e internazionale, sono dimostrati anche dal fatto che gli sviluppi successivi, a partire dagli anni '90, e soprattutto quelli attuali sul trattamento del digital content, hanno dato pienamente ragione a queste scelte strategiche.

Zampolli ha avuto un ruolo determinante nel promuovere il trattamento automatico della lingua (TAL) in Italia, e specifico rilievo ha dato all'inserimento dell'Italiano in una rete internazionale multilingue. Ha saputo creare le condizioni affinché si instaurasse all'interno dell'ILC un ciclo "virtuoso" - con un delicato equilibrio fra ricerca di base e applicata - che ha permesso di sviluppare conoscenze, metodi, tecnologie innovativi con risultati altamente competitivi sul "mercato" della ricerca internazionale e nazionale, di creare occupazione, e favorire il trasferimento tecnologico verso l'industria. Ha sempre fatto in modo che la programmazione strategica dell'ILC tenesse conto del fatto che è estremamente importante, per la produttività delle attività sia di ricerca sia di sviluppo, integrare i diversi aspetti della Linguistica Computazionale, considerandoli - sul piano scientifico, gestionale e organizzativo - come un settore disciplinare autonomo e unitario.

Era, non mi stanco di dirlo, uomo di grandi "visioni", come ne esistono pochi, capace più che di anticipare, di creare il futuro (che gli altri avrebbero visto solo dopo), con sempre nuove intuizioni e iniziative (difficile a volte stargli dietro), spesso lottando per far diventare realtà le sue intuizioni. Dotato di una straordinaria abilità nel mescolare persone provenienti da diversi settori e tendenze, per far nascere nuove idee (si veda il famoso Workshop di Grosseto dell'86, quando l'ultima mattina ci ha riuniti in quattro o cinque a colazione e da quella colazione è nata una serie di iniziative tendenti a creare raccomandazioni di standard e best practice). Con una capacità travolgente di trasmettere a tutti il suo entusiasmo e la sua "passione". È stato per tutti noi una guida, un maestro, living legend (così è stato definito), formidabile non solo professionalmente, ma come "persona", per la sua simpatia, umorismo, l'amore per le montagne, la musica, …

Solo alcuni esempi delle sue idee, e scelgo il settore a lui più caro.
Ha "inventato" il settore delle cosiddette Risorse Linguistiche (RL), e ha sostenuto il concetto di "riusabilità" delle RL, in tempi in cui per molti linguisti era considerata quasi una vergogna parlare di "dati". Oggi il cosiddetto data-driven approach è il paradigma fondamentale che caratterizza la Linguistica Computazionale, basato sull'utilizzo di estese raccolte di dati linguistici e relative descrizioni, le RL. Il termine RL fu da lui introdotto per sottolineare il ruolo infrastrutturale di questi componenti, simile a quello delle risorse di base (per es. acquedotti, elettricità, strade) necessarie per lo sviluppo industriale di un paese. Ora è per noi scontato parlare di RL, ma era necessario che qualcuno fondasse e promuovesse il settore. Usiamo oggi il termine RL in senso lato, intendendo insiemi (di solito molto estesi) di dati linguistici (corpora, lessici, terminologie, ontologie, grammatiche, documenti multimodali, ecc.) - accompagnati da annotazioni e rappresentazioni formalizzate, a diversi livelli di descrizione linguistica, e dai relativi strumenti software - usati per costruire, ampliare, rendere operativi, valutare modelli, algoritmi, componenti e sistemi per il TAL. Le RL includono dunque sia i dati sia gli strumenti di base che costituiscono la infrastruttura necessaria per rendere possibile lo sviluppo delle diverse applicazioni del TAL.

Il Workshop On automating the lexicon, da lui organizzato in collaborazione con D. Walker, J. Sager, L. Rolling, N. Calzolari, nel maggio 1986, è universalmente riconosciuto come il punto d'inizio del processo che ha portato a fondare il settore delle RL. Le raccomandazioni finali diedero origine a una serie di progetti europei (ACQUILEX, ET-7, MULTILEX, MULTEXT, GENELEX, DELIS, ecc.), e di varie attività organizzative e di ricerca.
La mancanza di RL adeguate viene oggi unanimemente riconosciuta come uno dei principali ostacoli al successo delle attività di ricerca e sviluppo nel TAL. Diverse agenzie governative statunitensi (NSF, DARPA, NSA, ecc.) e la CEE hanno indicato RL e standard come i temi di massima priorità. La loro produzione richiede uno sforzo cooperativo di competenze, finanziamenti, soggetti, e per questo Zampolli ha sempre promosso attività internazionali (progetti CEE e CEE-NSF) e nazionali (MIUR) attraverso cui potessero cooperare diversi soggetti pubblici e privati in Italia e all'estero (Europa, America, Giappone, paesi asiatici). Il ruolo infrastrutturale delle RL nell'ambito del TAL richiede che il disegno e lo sviluppo delle RL di base per una lingua vengano supportati da finanziamenti pubblici, così come sta avvenendo in diversi paesi europei attraverso una serie di progetti nazionali.

Zampolli ha sempre operato per promuovere la collaborazione tra le diverse comunità nelle quali si articola il panorama della Linguistica Computazionale.
Ha dato vita a una lunga serie di iniziative di standardizzazione e di creazione di RL (NERC, RELATOR, EAGLES, PAROLE, SIMPLE, ecc.), e queste attività sono culminate nell'ultimo progetto europeo da lui fortemente voluto, ENABLER, di chiara impronta strategica e politica oltre che scientifica. Il progetto ha creato un Network Europeo dei diversi progetti nazionali nell'ambito del TAL, per assicurare il coordinamento fra le diverse iniziative di interesse nazionale e la armonizzazione fra le RL create, anche in vista di iniziative future comuni, ad esempio per risorse multilingui e multimodali. Il Network mira ad attivare la progressiva realizzazione di un quadro cooperativo urgentemente necessario, supportando collegamenti, stabilendo meccanismi di scambio, incoraggiando la cooperazione e l'interoperabilità dei risultati di progetti e attività nazionali che, in un sostanziale sottoinsieme di paesi membri dell'Unione Europea, sono stati recentemente finanziati da rilevanti autorità nazionali per fornire RL di diversi tipi alle rispettive lingue.
In Italia hanno svolto un ruolo fondamentale nel creare una parte dell'infrastruttura di base di RL, necessaria per il trattamento automatico della lingua italiana, due recenti progetti di interesse nazionale, ambedue da lui coordinati. Come conseguenza del Network Nazionale nato in questi progetti, è stato fondato nel 2003, presso il Ministero delle Comunicazioni, il Forum permanente per il TAL.

Ha inventato LREC (Language Resources and Evaluation Conference): a Granada nel 1998, Atene 2000, Las Palmas 2002, Lisbona 2004, diventata probabilmente la più grande conferenza internazionale del settore. Ha intuito l'esigenza di una conferenza che radunasse esperti del settore delle RL e della valutazione, settori non coperti adeguatamente dalle conferenze internazionali esistenti. LREC è diventata anche la conferenza che riunisce le due comunità del "parlato" e dello "scritto" - che raramente hanno l'occasione di trovarsi per scambiare informazioni, esplorare sinergie e cooperazioni - in una visione integrata del nostro settore tipica di Zampolli. Nel 2006 vorremmo avere LREC in Italia in onore di Zampolli.

Sono appena usciti 2 volumi della rivista dell'ILC «Linguistica Computazionale a Pisa», in cui ha voluto raccogliere articoli di tutto il personale dell'ILC, preceduti da un articolo con il suo punto di vista sull'Istituto, che è anche testimonianza di tutta la sua attività lavorativa, e direi della sua vita.1

Ha avuto centinaia di riconoscimenti, in Italia e all'estero soprattutto, ha fondato associazioni, disegnato progetti, è stato presidente o vice-presidente delle più importanti associazioni, comitati, ecc., ma credo di poter dire che ciò a cui teneva di più era essere Direttore dell'ILC. Questo lascia a noi una eredità grande e impegnativa al tempo stesso. L'ILC intende portare avanti quello che Zampolli ha cominciato, proseguire per le strade che ha aperto, e continuare a svolgere un ruolo determinante per promuovere la consapevolezza della necessità di sostenere il TAL, e per definire e stimolare un insieme di azioni coordinate che rispondano ai bisogni prioritari del nostro paese nel settore: dalla promozione di strategie e programmi di interesse nazionale alla proposta di curricula autonomi di formazione universitaria, al collegamento tra comunità internazionale e nazionale, alla proposta e coordinamento di iniziative e progetti comunitari e internazionali, all'incentivazione del collegamento e del trasferimento tecnologico verso l'industria.
Credo che il modo migliore per farlo vivere con noi sia se, come comunità, riusciamo a guardare avanti, a unire le nostre forze per far nascere nuove idee, e lottare insieme per dare loro vita.

 

Precedente Successivo Scheda bibliografica Torna all'inizio dell'articolo Torna all'indice completo del numero Mostra indice delle sezioni


Bollettino '900 - Electronic Newsletter of '900 Italian Literature - © 2003-2004

Dicembre 2003, n. 2