Differenze tra le versioni di "Scheletro - Progettazione e realizzazione di un servizio web per il trattamento dei dati personali contenuti in documenti OOXML complessi"
Da Wikis.
m (→Scelta dei formati da trattare) |
m (→Privacy by design) |
||
| Riga 50: | Riga 50: | ||
==Privacy by design== | ==Privacy by design== | ||
| − | #Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout etc.), gestione dei file temporanei e delle schermate di interazione con l'utente (ad esempio, per iniziare una nuova anonimizzazione viene aperta una nuova scheda del browser, nel momento in cui l'utente chiude la scheda il file da lui caricato e ogni dato connesso vengono rimossi. In questo modo, informando l'utente di tale procedura, esso potrà avere pieno controllo sui propri documenti) | + | #Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout etc.), gestione dei file temporanei e delle schermate di interazione con l'utente (ad esempio, per iniziare una nuova anonimizzazione viene aperta una nuova scheda del browser, nel momento in cui l'utente chiude la scheda il file da lui caricato e ogni dato connesso vengono rimossi. In questo modo, informando l'utente di tale procedura, esso potrà avere pieno controllo sui propri documenti e piena ''fiducia'' (trust) nel servizio). |
=Architettura LAMP= | =Architettura LAMP= | ||
Versione delle 12:18, 9 set 2019
Indice
Introduzione
La problematica del trattamento dei dati personali
- Introduzione all'argomento, con riferimenti alle vigenti normative sulla privacy (GDPR).
- Esempi di organizzazioni coinvolte (pubbliche amministrazioni, scuole, studi legali, aziende, etc.) e dei documenti che necessitano di anonimizzazione o pseudonimizzazione.
Scenario di lavoro
- Breve cenno al confronto e alla collaborazione con l'azienda.
- La specifica di massima come espressa in fase iniziale: web tool, destinato all'uso delle organizzazioni prima citate, tramite il quale anonimizzare o pseudonimizzare documenti. L'oggetto del trattamento saranno i nominativi (nome e cognome) che compaiono nei documento e che devono essere anonimizzati o pseudononimizzati. Si sottolinea che la definizione con maggiore precisione delle specifiche costituisce oggetto della tesi.
Definizione delle specifiche
Analisi dell'usabilità
Elenco dei nominativi da trattare come dati espressi in input
- Vantaggi e svantaggi nel caso in cui i nominativi siano forniti in input dall'utente.
Elenco dei nominativi da trattare dedotti automaticamente da dizionari
- Vantaggi e svantaggi nel caso in cui il documento venga trattato con l'ausilio di un dizionario
- valutazione sulla possibile struttura del dizionari: se contenente nomi, cognomi o entrambi, se contenente nomi e cognomi stranieri etc.
- valutazione sui criteri di ricerca: conviene ricercare i termini del documento nel dizionario o viceversa? etc.
- in particolare si argomenterà la scelta di usare un singolo dizionario contente soltanto nomi (anche stranieri).
Soluzione ibrida adottata
- Illustrazione di una soluzione ibrida che applica entrambe le strategie: vengono individuati i nominativi contenuti nel documento fornito in input, in seguito viene chiesto all'utente quali nominativi tra quelli individuati desidera trattare e se eventualmente vuole indicarne degli altri, infine il documento viene elaborato e i nominativi indicati anonimizzati o pseudonimizzati.
Analisi linguistica e strutturale dei documenti
Ambiguità linguistiche
- Esemplificazione delle ambiguità linguistiche (omonimia totale o parziale dei nominativi, nomi/cognomi identificabili anche come lessico comune, range di variabilità con il quale un nominativo può comparire etc.), commenti sul come sia difficile trattare con un automa queste ambiguità (caso limite: antinomie).
- Motivazione dell'adozione di un approccio pattern-based per il riconoscimento dei nominativi, con cenni ad una possibile alternativa basata su tecniche di Text Analysis e relativi vantaggi e svantaggi.
- Definizione del rapporto fra i pattern corrispondenti ai nominativi inseriti dall'utente e quelli dedotti dal dizionario, con valutazioni per il trattamento delle ambiguità.
Formattazione dei documenti
- Esempi di formattazioni possibili: grassetto, corsivo, tabelle, elenchi, titoli, note a pià pagina, etc.
- Definizione dei pattern corrispondenti ai nominativi sulla base degli elementi di formattazione del documento.
Scelta dei formati da trattare
- Introduzione: è buona prassi che il documento sia pseudonimizzato il prima possibile, per evitare che i dati in chiaro sfuggano in rete; quindi le persone alle quali è rivolto il servizio sono gli stessi autori (creatori) che redigono il documento: esse possono quindi scegliere il formato del documento. Risulta ragionevole quindi lavorare su un solo formato.
- Confronto formati di testo con approfondita argomentazione e scelta del formato OOXML Document (DOCX).
Privacy by design
- Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout etc.), gestione dei file temporanei e delle schermate di interazione con l'utente (ad esempio, per iniziare una nuova anonimizzazione viene aperta una nuova scheda del browser, nel momento in cui l'utente chiude la scheda il file da lui caricato e ogni dato connesso vengono rimossi. In questo modo, informando l'utente di tale procedura, esso potrà avere pieno controllo sui propri documenti e piena fiducia (trust) nel servizio).
Architettura LAMP
I componenti software
- Linux, Apache, MySql, Php e possibili varianti (ad es. Phyton, Perl etc.), confronti con tecnologie java per web
Single responsibility principle
- Suddivisione delle responsabilità: il programma java dovrà occuparsi della logica applicativa (logica di business) e della gestione dei dati, lo script php dovrà curare l'interazione con l'utente
- Vantaggio: libera realizzazione di nuove interfaccie indipendenti dalla logica di business (la quale fornisce delle API ben precise (?))
- Problematiche di rilievo: invocazioni concorrenti (nomi dei file) [vedere server apache quante script php lancia, modello di esecuzione]
Approfondimenti tecnologici
Ottimizzazione del dizionario
- Studio di un semplice algoritmo di machine learning per ottimizzazioni sulla base di criteri di frequenza e ultima apparizione rilevata dei nominativi e per l'apprendimento di nuovi nominativi.
- Valutazione sulle implicazioni relative agli accessi concorrenti in scrittura al dizionario e contromisure necessarie (ad es. semafori)
- Valutazioni sulle conseguenze portate dall'inserimento di nominativi errati [si può controllare che il documento lo contenga effettivamente] o di input malevoli
Analisi della struttura dei formati W3C OOXML
- Descrizione preliminare dei punti salienti del formato
- Ideazione di una navigazione ed elaborazione bottom-up del file xml principale del docx, valutazione e analisi della complessità introdotta dai vari nodi xml e traduzione dell'analisi svolta in nuove specifiche
La libreria in ambiente java open source Docx4j
- Potenzialità e astrazione della libreria
- Riferimenti allo standard W3C XPath e alcune altre osservazioni rilevanti su Docx4j
Curiosità
- Illustrazione di alcuni accorgimenti interessanti fatti durante lo sviluppo della tesi: wikis come piattaforma di revisione e documentazione, funzionalità meno note ai più di Github, semplici tool a riga di comando in ambiente linux per la velocizzazione dello sviluppo realizzati da me
Sviluppi futuri
Ulteriore ottimizzazione dei dizionari
- Valutazione sulla necessità di ottimizzazione del dizionario sulla base di caratteristiche dei documenti trattati (es. lunghezza, se contengono solo tabelle o solo testo o entrambe etc.) o sulla loro tipologia (elenchi di studenti, atti di tribunale etc.)
Valuazione di altri pattern
- Il rischio della re-identificazione, con valutazione di risultati scentifici sperimentali, ulteriore argomentazione a supporto di un dizionario di soli nomi (maggiore privacy)
- Altri dati personali trattabili: date e luoghi di nascita, indirizzi, email, numeri di telefono, sesso etc.
- introdurre funzionalità per la pseudonimizzazione dei documenti (es. Amorosa Lorenzo -> Amorosa L.)