File pdf: cosa sono e come funzionano

L’acronimo PDF è entrato nel linguaggio comune, ma sappiamo veramente cosa è un file pdf e come funziona?

di Debora Zagami

Senza nessuna pretesa di esaustività ed evitando tecnicismi che potrebbero allontanare dall’argomento coloro che non possiedono particolare dimestichezza con l’informatica (ma possiedono un computer o uno smartphone) cercheremo di fornire alcune nozioni basilari per migliorare e rendere maggiormente consapevole l’utilizzo di questo formidabile strumento di archiviazione digitale dei dati.

Il formato PDF (Portable Document Format) è stato ideato e predisposto per conservare o trasmettere i documenti che contengono elementi di testo o immagini in formato digitale.
Questo tipo di formato è caratterizzato da una estrema facilità di lettura, poiché indipendentemente dal sistema operativo che è installato sul nostro dispositivo (sia esso un computer, un tablet o uno smartphone) utilizzando uno dei tanti programmi gratuiti presenti sul mercato (Adobe Acrobat Reader, Anteprima ecc.) saremo in grado di creare o visualizzare pressoché tutti i documenti informatici salvati in formato PDF.
Il file PDF non contiene informazioni specifiche e questo ne consente una visualizzazione sempre identica e conforme alla originaria, a prescindere dai programmi o sistemi operativi utilizzati. Motivo, questo, per cui nel corso degli anni il formato PDF si è conquistato il primato di “formato standard” con una diffusione di utilizzo davvero impressionante, sia per la trasmissione, che per la condivisione dei documenti informatici.

La distinzione tra documento informatico e copia informatica di un documento analogico è fondamentale per comprendere appieno il funzionamento del file PDF

Il documento informatico è quel documento che in temini tecnici viene definito “nativo digitale” in quanto viene generato direttamente in formato digitale (cioè informatico) e si differenzia dalla copia informatica di un documento analogico (cioé cartaceo) proprio perché esiste a prescindere da una sua versione cartacea.
Per fare un esempio pratico, pensiamo a un foglio di testo creato al computer con un programma di videoscrittura, ebbene se lo trasformiamo in formato PDF direttamente dal computer avremo un file PDF “nativo digitale”, mentre se lo stampiamo avremo un documento analogico (cartaceo) che potrà essere scansionato e diventare nuovamente digitale, in formato PDF non nativo, poiché frutto di scansione.
Nel primo caso avremo un documento informatico (digitale) nel secondo caso si tratterà di una copia informatica (digitale) di un documento analogico.
Questa distinzione è molto importante per capire se e come si possono effettuare delle modifiche sul file PDF.
Basti pensare infatti che il file PDF generato con una scansione non potrà essere modificato con gli strumenti normalmente utilizzati e quindi se avessimo necessità di trascriverne una parte in un documento di testo, non lo potremo fare con lo strumento del copia-incolla. Operazione che invece potrà effettuarsi – in linea di massima – nel caso di file PDF “nativo digitale”.

L’oscuramento dei dati contenuti nel documento PDF

Si tratta di uno strumento di grande utilità che viene in soccorso allorché si abbia la necessità di mantenere riservate alcune delle informazioni contenute nel documento destinato alla trasmissione, diffusione o condivisione.
Nel caso di file PDF generato mediante acquisizione tramite scanner, si può procedere fisicamente (con la “sbianchettatura” tradizionale) o tramite applicativi (editor) di libero accesso e utilizzo on-line che offrono una varia gamma di strumenti (il più semlice da utilizzare è PDFescape).
Il file PDF “nativo digitale” può essere modificato tramite le funzioni presenti nello stesso applicativo che utilizziamo come lettore sul nostro dispositivo (Adobe Acrobat Reader, Anteprima ecc.).
Per capire come funziona questa tecnica di protezione dei contenuti dobbiamo provare a immaginare la struttura di un file PDF come una molteplicità di fogli trasparenti sovrapposti – chiamiamoli “livelli” – ognuno dei quali porta un contenuto.
C’è il livello dello sfondo (generalmente bianco) con sopra un livello di testo, e poi magari sopra ancora un altro livello, con una immagine.
Ebbene, una volta che registriamo le modificazioni mediante la funzione “salva” tutti i livelli si fondono insieme e la modifica effettuata sarà definitiva, nel senso che il contenuto coperto da un oggetto in un livello superiore non è più recuperabile, proprio perché non è più possibile scavare tra i vari livelli.

Che cosa sono i metadati?

Come qualsiasi file digitale, anche il file PDF, contiene metadati (in gergo dati EXIF) attraverso i quali è possibile risalire a informazioni indispensabili nel caso in cui il documento informatico venga fatto oggetto di indagine forense.
Si pensi alla data di creazione e ultima apertura o modificazione del file, al nominativo dell’utente che lo ha creato o alle caratteristiche del dispositivo su cui è stato creato.
Ebbene, se non vogliamo che tali informazioni vadano perdute in vista di una utilizzazione processuale del documento informatico, dobbiamo evitare di trasformare il file (di immagine, di testo ecc.) incapsulandolo in un file PDF.
Il pensiero è rivolto alla prassi – ormai abbastanza comune – di procedere alla acquisizione della schermata del proprio dispositivo (scrennshot) creando file di immagine in formato JPEG: si eviti, una volta crato tale file, di operare trasformazioni (direttamente o tramite scanner) poiché ciò comporterebbe la perdita completa di ogni metadato, ossia ogni riferimento temporale/informativo certo rispetto al file originario.


Leggi altri articoli: