**************************************************************

          BOLLETTINO '900 - Segnalazioni / C, febbraio 2001             Successivo

**************************************************************

Francesca Tomasi
La Letteratura Italiana on-line:
Il progetto TIL (Testi Italiani in Linea)

L'avvento di nuove tecnologie nel settore delle scienze umane
ha contribuito alla nascita di nuove forme di applicazione della
disciplina informatica nel trattamento ed nella gestione di dati
testuali. Il fenomeno Internet, cioe' un sistema di distribuzione
delle informazioni liberamente fruibile dalla collettivita' degli
utenti, ha concesso di ripensare alla metodologia di analisi, di
critica, di indagine dei dati di natura umanistica e di conseguenza
ai sistemi di diffusione dei risultati. Due sono le applicazioni
informatiche che nelle distribuzioni on-line hanno riscosso maggiore
riscontro: le monografie ipertestuali e le banche dati on-line.
Per monografie ipertestuali intendo i siti che trattano fenomeni
letterari specifici: un autore, un periodo storico, una corrente
letteraria. Sicuramente il maggior numero di pagine web e' dedicato
ai classici (Dante, Petrarca,Boccaccio, Machiavelli, Pirandello,
Ungaretti, Pasolini, solo per citarne alcuni);l'idea dominante e'
di fornire un elenco delle opere di ciascun autore, di dare una
biografia piu' o meno analitica, di integrare gli scrittori nel
loro contesto storico-socio-culturale e di riportare, quando
possibile, tutte o alcune opere. Il costrutto ipertestuale che
ne deriva e' un sistema di link che da un indice generale tratta
i fenomeni specifici e da ogni fenomeno tenta di istituire un
apparato di collegamenti con le altre informazioni contenute
nel sito. L'onnicomprensivita' e' garantita da costrutti
multimediali che uniscono testi ad immagini, audio e video,
in proposte variegate e complesse. Molto spesso pero' la
perplessita' deriva da due fattori: carenza sostanziale di
indicazioni bibliografiche di riferimento e dubbia
attendibilita' dei testi elettronici, cioe' delle versioni
digitali delle opere (delle quali spesso manca l'edizione
di riferimento l'HTML, il linguaggio usato nelle distribuzioni
sul web, orientato alla resa grafica delle pagine e non
all'interpretazione delle istanze informazionali, molto spesso
i contenuti ne risentono, a discapito di un layout invece
ineccepibile. Le banche dati on-line sono invece raccolte
di testi elettronici che tentano di fornire in modo piu'
o meno esaustivo raccolte di testi dalle origini all'epoca
contemporanea. Ne citero' solo alcune fra le piu' note, per
incentrare poi il discorso attorno ad una di esse, alla cui
realizzazione collabora anche l'Universita' di Bologna,
nel Dipartimento di Italianistica.
*Cibit* (<http://cibit.humnet.unipi.it/>) la piu' ricca collezione
di testi in formato elettronico. La banca dati, che raccoglie
testi dalle origini all'epoca contemporanea, consente la
lettura delle opere, l'interrogazione su singoli testi, su
corpora o la ricerca avanzata su collezioni. Il software
utilizzato per la strutturazione del databse e' il DBT,
creato presso l'Istituto di Linguistica Computazionale
del CNR di Pisa. La scheda bibliografica che accompagna
ogni opera e' dettagliata anche se e' quasi sempre dichiarata
la sola versione elettronica di riferimento (quella della LIZ)
e non l'edizione cartacea. *Liber Liber* (<http://www.liberliber.it>),
nata in seno al progetto Manuzio, contiene piu' di 400 testi
scaricabili in vari formati (la ricerca e' per autore e
per opere). Non e' provvista di un sistema di analisi testuale
quindi di ricerca delle occorrenze, integrato nel sistema.
Per ogni autore riporta una breve indicazione biografica.
*Digilander* (<http://digilander.iol.it/bepi/>), sito commerciale,
privo di dichiarazioni circa la provenienza (elettronica o
cartacea) dei testi, consente la sola lettura delle opere,
ma non e' corredata da alcuna informazione su autori e testi.
Interessante il sito sulla letteratura del Duecento
(<http://www.silab.it/frox/200/>), poesia italiana dalle
origini a Dante, in quanto oltre a consentire la lettura
delle opere, il download dei testi ed un sistema integrato
di ricerca delle occorrenze (consente anche di scaricare la
versione off-line del programma), ha strutturato gli autori
per scuole poetiche ed e' corredato da una sezione di apparato
dedicata alla critica, che riporta un'antologia letteraria,
di cui e' sempre dichiarato il riferimento bibliografico.
L'ultima banca dati, sulla quale intendo soffermarmi per la
novita' che rappresenta la concezione del database e dell'apparato
paratestuale, e' quella nata nel progetto TIL, Testi Italiani
in Linea, (<http://til.let.uniroma1.it/>), coordinato dall'Universita'
della "Sapienza" di Roma, ma alla cui realizzazione collaborano
diverse Universita' sul territorio. Il progetto innovativo
si riassume in:

1. codifica dei testi SGML/TEI;
2. apparato paratestuale;
3. metadata bibliografici;
4. sistema di analisi;
5. attendibilita' delle versioni elettroniche delle opere.

Per quanto riguarda il primo punto, a differenza di tutte
le altre banche dati, i testi sono codificati in formato
SGML (*Standard Generalized Mark up Language*) in base
allo schema di codifica messo a punto dalla TEI (*Text
Encoding Inititive*). SGML e' il linguaggio standard definito dalla
*International Organization for Standardization* (ISO) per la
descrizione e la formattazione dei testi su supporto informatico;
la TEI e' un progetto che si propone di definire uno standard
di codifica allo scopo di conseguire la possibilita' di
normalizzare i formati di memorizzazione di testi, per consentire
lo scambio di documenti e testi e che si basa sul linguaggio
SGML. Ragione della nascita della TEI e' la codifica dei dati di
natura umanistica con l'obiettivo di interpretare la natura
dei dati trasmessi da una fonte, assegnando un valore logico
e strutturale alle porzioni di testo. Questo consente di
produrre un testo elettronico il cui contenuto puo'
essere oggetto di indagine da parte di chi lo interroga, con
un *information retrieval* che esula dal mero reperimento
di stringhe di caratteri prive di contenuto ma che si
concentra sull'informazione trasmessa. I dati interpretati
vanno dalla strutturazione del testo (nel caso di un testo
in prosa la suddivisione in capitoli, paragrafi, sezioni)
alla individuazione dei nomi, dei riferimenti temporali,
fino all'indagine piu' specifica del testo in relazione
all'interesse della codifica (strutturazione dell'apparato,
individuazione delle figure retoriche, edizione diplomatica, ecc.).
La codifica si esprime, direttamente all'interno della versione
elettronica del testo, tramite l'uso di stringhe (caratteri ASCII,
cioe' formato "solo testo") denominate "marcatori" e costituite
da: nome dell'elemento, eventuale attributo, valore
associato all'attributo; per esempio una partizione
testuale identificabile come una sezione di dedica
potrebbe assumere questo aspetto: <div type="dedica">
dove "div" esplicita la presenza di una sezione strutturale,
"type" e' l'attributo che permette di specificare il tipo di
partizione e "dedica" e' il valore dell'attributo "type" che
associa la partizione ad un contenuto.Per quanto riguarda
l'apparato, ad ogni testo elettronico e' allegata una
serie di informazioni di corredo: una sintetica nota biografica,
una bibliografia strutturata per edizioni dell'opera, monografie
sull'opera e sull'autore, approfondimenti, una nota filologica
al testo, recuperata dall'edizione cartacea ritenuta la piu'
accreditata ed utilizzata in fase di trascrizione, un riassunto
commentato dell'opera in questione. Per quanto riguarda la
questione dei *metada*, ogni opera e' corredata dalla
menzione dell'edizione cartacea utilizzata ed e' associata
ad una descrizione dettagliata della versione elettronica,
secondo il formato ISBD (*International Standard Bibliographic
Description*), lo standard previsto per le descrizioni
bibliografiche. L'obiettivo e' quello di produrre una descrizione
distribuibile poi nel sistema SBN (Sistema Bibliotecario
Nazionale), nell'ambito dei progetti di catalogazione delle
risorse digitali, in un formato compatibile. La standardizzazione
della descrizione bibliografica consentirebbe anche la creazione
di un OPAC (*On Line Public Access Catalogue*), un catalogo
elettronico consultabile in linea, delle risorse cosi' descritte.
Per quanto riguarda il sistema di ricerca delle informazioni,
grazie alla codifica SGML/TEI e' possibile recuperare
informazioni sui contenuti e cioe' effettuare
interrogazioni all'interno dei marcatori (sugli elementi, sugli
attributi e sui valori degli attributi); questo significa
che ogni fenomeno codificato e' oggetto di reperimento
(per esempio se un nome proprio di persona e' dichiarato
come tale ne e' espressa anche la valenza). La ricerca
non avviene quindi solo su stringhe di caratteri
(occorrenze di un vocabolo) ma sul significato. La ricerca
fornisce in output le occorrenze *in-context* (cioe'
evidenziate direttamente all'interno del testo) quindi con
contesto esteso, e la frequenza per sezione strutturale
del testo (in quanto la codifica provvede anche alla
strutturazione del testo per partizioni logiche).
L'accuratezza filologica delle trascrizioni e' garantita
da un lavoro di verifica della versione elettronica dei
testi sull'edizione cartacea di riferimento utilizzata, edizione
ritenuta la piu' autorevole nella tradizione del testo.
L'attendibilita' dei testi in MRF e' quindi assicurata.
Tutte le opere non coperte dal diritto di autore sono
liberamente accessibili sul Web. La consultazione puo'
avvenire on-line, grazie al server SGML *Dynaweb*, oppure
off-line mediante trasferimento del file in formato
SGML sul computer dell'utente (che deve possedere un browser SGML).
Ancora il numero di testi a disposizione e' limitato, ma il
lavoro di codifica condurra' alla realizzazione di una banca
dati estremamente differente rispetto a quelle esistenti e di
sicuro aiuto per il lavoro di ogni studioso. Francesca Tomasi
La Letteratura Italiana on-line:
Il progetto TIL (Testi Italiani in Linea)


*****************************************************************

© Bollettino '900 - versione e-mail
Electronic Newsletter of '900 Italian Literature
SEGNALAZIONI / C, febbraio 2001. Anno VII - 2001

Direttore: Federico Pellizzi; Redazione: Michela Aveta,
Eleonora Conti, Marica Fantuzzi, Marco Giovanardi,
Hilenja Lari, Stefania Filippi, Anna Frabetti,
Ada Reggio, Cecilia Serradimigni.

Dipartimento di Italianistica
dell'Universita' di Bologna,
Via Zamboni 32, 40126 Bologna, Italy,
Fax +39 051 2098555; tel. +39 051 2098595/334294.
Reg. Trib. di Bologna n. 6436 del 19 aprile 1995.
ISSN 1124-1578

http://www.unibo.it/boll900/
http://www.unibo.it/boll900/archivio/
http://www.comune.bologna.it/iperbole/boll900/
http://www.brown.edu/Departments/Italian_Studies/boll900/

**************************************************************


Bollettino '900 - Electronic Newsletter of '900 Italian Literature - © 1995-2001