L'archivio storico del quotidiano «La Stampa»

| | TrackBack (0)

Quasi 150 anni di storia, 1.761.000 pagine, oltre 5 milioni di articoli di giornale e 4,5 milioni di immagini tra fotografie e negativi. Questi sono solo alcuni dei numeri che danno la dimensione dell'Archivio Storico de «La Stampa». Si tratta di un progetto di grande portata culturale il cui scopo è quello di creare una Biblioteca Digitale dell'Informazione Giornalistica accessibile liberamente al pubblico italiano e internazionale. Si potrà navigare attraverso tutte le pagine - giorno per giorno, anno dopo anno - del quotidiano «La Stampa». I lavori di digitalizzazione della collezione giornalistica sono durati 3 anni.
cbdig_carr.gif Inizia così il comunicato stampa ufficiale che ha annunciato alla fine dello scorso ottobre la messa in linea dell'intera collezione del quotidiano «La Stampa» di Torino. Si pensi che il primo numero del giornale risale al 9 febbraio 1867: la testata, fondata dallo scrittore Vittorio Bersezio, si chiamava allora «Gazzetta Piemontese», per poi passare ai nomi «La Nuova Stampa» e «La Stampa della Sera» e arrivare infine alla dizione attuale. L'intero processo è stato gestito da un organismo costituito ad hoc: il Comitato per la Biblioteca Digitale dell'Informazione Giornalistica, che ha organizzato la gara d'appalto per l'assegnazione dei lavori e ha sovrinteso alle varie fasi di attività [le immagini a fianco sono riprese dal sito del Comitato].

Dal punto di vista tecnologico il procedimento si è avvalso delle immagini delle pagine del giornale conservate in microfilm e trasformate in digitale con scanner professionali. Tali immagini sono poi state acquisite in formato testuale con un programma sofisticato di riconoscimento caratteri (OCR, Optical Character Recognition) e gli articoli sono stati codificati nelle informazioni essenziali (titolo, autore, sezione, data, ecc.) in formato XML per facilitarne la reperibilità. Si possono immaginare facilmente le difficoltà incontrate, che dipendono da fattori molteplici come la mole del materiale trattato, lo stato di conservazione e la diversità di formato o di impaginazione degli originali, i limiti stessi dei programmi di riconoscimento caratteri e così via.
La funzionalità di ricerca messa a disposizione degli utenti utilizza tre maschere diverse che procedono da un approccio semplice (inserimento di uno o più parole chiave da trovare), a una interrogazione per data o per intervalli di data, fino alla ricerca avanzata che incrocia le parole chiave con gli intervalli di data e altre informazioni di maggior dettaglio (o "granularità", come si dice nel gergo informatico). Riportiamo di seguito quest'ultima maschera.

La maschera di ricerca avanzata
I risultati di una ricerca permettono di ottenere un elenco degli articoli in cui sono state ritrovate le chiavi di interrogazione. Per ognuno di questi articoli è disponibile il testo in formato txt, oppure l'immagine della pagina con la collocazione dell'articolo evidenziata; quest'ultima funzionalità è chiaramente di notevole rilevanza per comprendere "come" è stata data la notizia. Nell'esempio riportato di seguito abbiamo chiesto alla banca dati di ricercare la parola "Internet" negli articoli pubblicati tra il 1° gennaio 1990 e il 1° gennaio 1992: sono stati trovati 5 risultati, nel primo dei quali si racconta di un pirata informatico che in America ha rubato dati significativi dai computer "immettendosi in una vasta rete nazionale di comunicazione, la Internet".

La pagina dei risultati di ricerca

In definitiva giunge a compimento un lavoro importante di alcuni anni, proprio nel momento in cui i giornali quotidiani vivono una stagione di messa in discussione e di crisi profonda. Ciononostante crediamo che l'archivio storico della «Stampa» rappresenti un importante contributo alla costruzione della memoria delle vicende italiane e che giunga in anticipo rispetto alle due grandi testate nazionali: sulla «Repubblica», infatti le ricerche possono cominciare dal 1 gennaio 1984 (poco meno di 10 anni dopo la fondazione del giornale); sul «Corriere della Sera» le ricerche possono iniziare dalla data del 1° gennaio 1992. Tutto questo è stato ottenuto anche con il contributo di un pool di enti patrocinanti: dalla Regione Piemonte alle due banche storiche di Torino (la San Paolo e la Cassa di Risparmio attraverso le loro fondazioni)

Categorie:

Post correlati

We are sorry! - 16 Lug 2011
«News of the World» - 10 Lug 2011
«New York Times» a pagamento - 19 Mar 2011


Benvenuti

Tra la carta e la rete è lo spazio web integrativo dei corsi di "Editing e tecniche di redazione" e di "Editoria multimediale" curati da Lucio D'Amelia fino al 2010: presenta riflessioni sul lavoro editoriale a cavallo tra il settore tradizionale e la nuova dimensione digitale.

Digitalizzazione e diritto d'autore è il post precedente.

Onde sismiche sul mercato editoriale/2 è il post successivo.

Login


Come registrarsi?

Ultimi commenti

Non ci sono commenti per questo post

Archivi per mese

Post recenti

Editing and Publishing
(Editing e tecniche di redazione)
Editoria multimediale