Versione delle 11:48, 9 set 2019

Introduzione

La problematica del trattamento dei dati personali

Introduzione all'argomento, con riferimenti alle normative sulla privacy vigenti (GDPR)
Esemplificazione degli enti coinvolti (aziende, scuole, studi legali ect.) e dei documenti che necessitano di anonimizzazione o pseudonimizzazione

Scenario di lavoro

Breve accenno al confronto e alla collaborazione con AFA Systems
Descrizione di ciò che AFA Systems vorrebbe: web tool, destinato all'uso degli enti prima citati, tramite il quale anonimizzare o pseudonimizzare documenti. In particolare, verrà posta attenzione sul trattamento di nomi e cognomi, i quali saranno anonimizzati. Si sottolinea, in via preliminare, che le specifiche stesse risultano molto vaghe e dovranno essere opportunamente definite

Definizione delle specifiche

Analisi dell'usabilità

Nominativi forniti in input

Vantaggi e svantaggi nel caso in cui i nominativi siano forniti in input dall'utente

Impiego di dizionari

Vantaggi e svantaggi nel caso in cui il documento venga trattato con l'ausilio di un dizionario (valutazioni sulla possibila struttura del dizionari: se contenente nomi, cognomi o entrambi, se contenente nomi/cognomi stranieri ect.; valutazione sui criteri di ricerca (conviene ricercare i termini del documento nel dizionario o viceversa?) ect. ); in particolare si argomenterà la scelta di usare un singolo dizionario contente soltanto nomi (anche stranieri)

Soluzione ibrida adottata

Illustrazione di una soluzione ibrida che applica entrambe le strategie: vengono individuati i nominativi contenuti nel documento fornito in input, in seguito viene chiesto all'utente quali nominativi tra quelli individuati desidera trattare e se eventualmente vuole indicarne degli altri, infine il documento viene elaborato e i nominativi indicati anonimizzati

Analisi linguistica e della struttura dei documenti

Ambiguità linguistiche

Esemplificazione delle ambiguità linguistiche (omonimia totale o parziale dei nominativi, nomi/cognomi identificabili anche come lessico quotidiano, range di variabilita' con il quale un nominativo puo' comparire ect.), commenti sul come sia difficile trattare con un automa queste ambiguità (caso limite: antinomie)
Motivazione di adottare una soluzione pattern-based per il riconoscimento dei nominativi, con cenni su una possibile alternativa applicabile basata su tecniche di Text Analysis e relativi vantaggi e svantaggi
Definizione dei pattern associati dei nominativi, sottolineando le differenze tra i pattern corrispondenti ai nominativi inseriti dall'utente e quelli individuati dal dizionario, con accurate valutazioni per il trattamento delle ambiguità.

Formattazione dei documenti

Esemplificazioni di formattazioni possibili: grassetto, corsivo, tabelle, elenchi, titoli, note a pià pagina (ect.)
Definizione dei pattern dei nominativi sulla base degli elementi di formattazione del documento

Scelta dei formati da trattare

Introduzione: è buona prassi che il documento sia pseudonimizzato il prima possibile, per evitare che i dati in chiaro circolino in rete, quindi le persone alle quali è rivolto il servizio sono le stesse che si occupano di redigere il documento: esse possono quindi decidere il formato del documento. Risulta quindi ragionevole quindi lavorare su un unico formato
Confronto formati di testo con approfondita argomentazione e scelta del formato OOXML Document (DOCX)

Privacy by design

Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout ect.), gestione dei file temporanei e delle schermate di interazione con l'utente (ad esempio, per iniziare una nuova anonimizzazione viene aperta una nuova scheda del browser, nel momento in cui l'utente chiude la scheda il file da lui caricato e ogni dato connesso vengono rimossi. In questo modo, informando l'utente di tale procedura, esso potrà avere pieno controllo sui propri documenti)

Architettura LAMP

I componenti software

Linux, Apache, MySql, Php e possibili varianti (ad es. Phyton, Perl ect.), confronti con tecnologie java per web

Single responsability principle

Suddivisione delle responsabilità: il programma java dovrà occuparsi della logica applicativa (logica di business) e della gestione dei dati, lo script php dovrà curare l'interazione con l'utente
Vantaggio: libera realizzazione di nuove interfaccie indipendenti dalla logica di business (la quale fornisce delle API ben precise (?))
Problematiche di rilievo: invocazioni concorrenti (nomi dei file) [vedere server apache quante script php lancia, modello di esecuzione]

Approfondimenti tecnologici

Ottimizzazione del dizionario

Studio di un semplice algoritmo di machine learning per ottimizzazioni sulla base di criteri di frequenza e ultima apparizione rilevata dei nominativi e per l'apprendimento di nuovi nominativi.
Valutazione sulle implicazioni relative agli accessi concorrenti in scrittura al dizionario e contromisure necessarie (ad es. semafori)
Valutazioni sulle conseguenze portate dall'inserimento di nominativi errati [si può controllare che il documento lo contenga effettivamente] o di input malevoli

Analisi della struttura dei formati W3C OOXML

Descrizione preliminare dei punti salienti del formato
Ideazione di una navigazione ed elaborazione bottom-up del file xml principale del docx, valutazione e analisi della complessità introdotta dai vari nodi xml e traduzione dell'analisi svolta in nuove specifiche

La libreria in ambiente java open source Docx4j

Potenzialità e astrazione della libreria
Riferimenti allo standard W3C XPath e alcune altre osservazioni rilevanti su Docx4j

Curiosità

Illustrazione di alcuni accorgimenti interessanti fatti durante lo sviluppo della tesi: wikis come piattaforma di revisione e documentazione, funzionalità meno note ai più di Github, semplici tool a riga di comando in ambiente linux per la velocizzazione dello sviluppo realizzati da me

Sviluppi futuri

Ulteriore ottimizzazione dei dizionari

Valutazione sulla necessità di ottimizzazione del dizionario sulla base di caratteristiche dei documenti trattati (es. lunghezza, se contengono solo tabelle o solo testo o entrambe ect.) o sulla loro tipologia (elenchi di studenti, atti di tribunale ect.)

Valuazione di altri pattern

Il rischio della re-identificazione, con valutazione di risultati scentifici sperimentali, ulteriore argomentazione a supporto di un dizionario di soli nomi (maggiore privacy)
Altri dati personali trattabili: date e luoghi di nascita, indirizzi, email, numeri di telefono, sesso ect.
introdurre funzionalità per la pseudonimizzazione dei documenti (es. Amorosa Lorenzo -> Amorosa L.)

@@ Riga 3: / Riga 3: @@
 ==La problematica del trattamento dei dati personali==
-# Introduzione all'argomento, con riferimenti alle normative sulla privacy vigenti (GDPR)
+#Introduzione all'argomento, con riferimenti alle normative sulla privacy vigenti (GDPR)
-#2 Esemplificazione degli enti coinvolti (aziende, scuole, studi legali ect.) e dei documenti che necessitano di anonimizzazione o pseudonimizzazione
+#Esemplificazione degli enti coinvolti (aziende, scuole, studi legali ect.) e dei documenti che necessitano di anonimizzazione o pseudonimizzazione
 ==Scenario di lavoro==
-)Breve accenno al confronto e alla collaborazione con AFA Systems
+#Breve accenno al confronto e alla collaborazione con AFA Systems
-)Descrizione di ciò che AFA Systems vorrebbe: web tool, destinato all'uso degli enti prima citati, tramite il quale anonimizzare o pseudonimizzare documenti. In particolare, verra' posta attenzione sul trattamento di nomi e cognomi, i quali saranno anonimizzati
+#Descrizione di ciò che AFA Systems vorrebbe: web tool, destinato all'uso degli enti prima citati, tramite il quale anonimizzare o pseudonimizzare documenti. In particolare, verrà posta attenzione sul trattamento di nomi e cognomi, i quali saranno anonimizzati. Si sottolinea, in via preliminare, che le specifiche stesse risultano molto vaghe e dovranno essere opportunamente definite
 =Definizione delle specifiche=
-==Analisi dell'usabilita'==
+==Analisi dell'usabilità==
 ===Nominativi forniti in input===
-)vantaggi e svantaggi se l'input viene dato dall'utente
+#Vantaggi e svantaggi nel caso in cui i nominativi siano forniti in input dall'utente
 ===Impiego di dizionari===
-)vantaggi e svantaggi se il documento viene trattato da un dizionario (valutazioni sulle possibile struttura del dizionari: se contiene nomi, cognomi o entrambi, se contiene nomi/cognomi stranieri ect.; valutazione su criteri di ricerca (conviene ricercare i termini del documento nel dizionario o viceversa?) ect. )
+#Vantaggi e svantaggi nel caso in cui il documento venga trattato con l'ausilio di un dizionario (valutazioni sulla possibila struttura del dizionari: se contenente nomi, cognomi o entrambi, se contenente nomi/cognomi stranieri ect.; valutazione sui criteri di ricerca (conviene ricercare i termini del documento nel dizionario o viceversa?) ect. ); in particolare si argomenterà la scelta di usare un singolo dizionario contente soltanto nomi (anche stranieri)
 ===Soluzione ibrida adottata===
-)illustrazione di una soluzione ibrida che applica entrambe le strategie
+#Illustrazione di una soluzione ibrida che applica entrambe le strategie: vengono individuati i nominativi contenuti nel documento fornito in input, in seguito viene chiesto all'utente quali nominativi tra quelli individuati desidera trattare e se eventualmente vuole indicarne degli altri, infine il documento viene elaborato e i nominativi indicati anonimizzati
 ==Analisi linguistica e della struttura dei documenti==
-===Ambiguita' linguistiche===
+===Ambiguità linguistiche===
-) esemplificazione delle ambiguita' linguistiche (omonimia totale o parziale dei nominativi, nomi/cognomi identificabili anche come lessico quotidiano, range di variabilita' con il quale un nominativo puo' comparire ect.), commenti sul come sia difficile trattare con un automa queste ambiguita' (antinomie)
+#Esemplificazione delle ambiguità linguistiche (omonimia totale o parziale dei nominativi, nomi/cognomi identificabili anche come lessico quotidiano, range di variabilita' con il quale un nominativo puo' comparire ect.), commenti sul come sia difficile trattare con un automa queste ambiguità (caso limite: antinomie)
-)definizione dei pattern dei nominativi: (differenze tra quelli che sono inseriti dall'utente e presi dal dizionario)
+#Motivazione di adottare una soluzione pattern-based per il riconoscimento dei nominativi, con cenni su una possibile alternativa applicabile basata su tecniche di Text Analysis e relativi vantaggi e svantaggi
+#Definizione dei pattern associati dei nominativi, sottolineando le differenze tra i pattern corrispondenti ai nominativi inseriti dall'utente e quelli individuati dal dizionario, con accurate valutazioni per il trattamento delle ambiguità.
-===Formattazione===
+===Formattazione dei documenti===
-) esemplificazioni di formattazioni possibili: grassetto, corsivo, tabelle, elenchi, titoli, note a pie' pagina (ect.)
+#Esemplificazioni di formattazioni possibili: grassetto, corsivo, tabelle, elenchi, titoli, note a pià pagina (ect.)
-) definizione dei pattern dei nominativi sulla base degli elementi di formattazione del documento
+#Definizione dei pattern dei nominativi sulla base degli elementi di formattazione del documento
 ==Scelta dei formati da trattare==
-)Introduzione: è buona prassi che il documento sia pseudonimizzato il prima possibile, per evitare che i dati in chiaro circolino in rete, quindi le persone alle quali e' rivolto il servizio sono le stesse che si occupano di redigere il documento: esse possono quindi decidere il formato del documento. E' ragionevole quindi lavorare su un unico formato
+#Introduzione: è buona prassi che il documento sia pseudonimizzato il prima possibile, per evitare che i dati in chiaro circolino in rete, quindi le persone alle quali è rivolto il servizio sono le stesse che si occupano di redigere il documento: esse possono quindi decidere il formato del documento. Risulta quindi ragionevole quindi lavorare su un unico formato
-)Confronto formati di testo con approfondita argomentazione e scelta del formato OOXML Document (DOCX)
+#Confronto formati di testo con approfondita argomentazione e scelta del formato OOXML Document (DOCX)
 ==Privacy by design==
-)Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout ect.)
+#Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout ect.), gestione dei file temporanei e delle schermate di interazione con l'utente (ad esempio, per iniziare una nuova anonimizzazione viene aperta una nuova scheda del browser, nel momento in cui l'utente chiude la scheda il file da lui caricato e ogni dato connesso vengono rimossi. In questo modo, informando l'utente di tale procedura, esso potrà avere pieno controllo sui propri documenti)
-==Architettura web application== [A COME SOTTOCAPITOLO]
+=Architettura LAMP=
+==I componenti software==
+#Linux, Apache, MySql, Php e possibili varianti (ad es. Phyton, Perl ect.), confronti con tecnologie java per web
+==Single responsability principle==
+#Suddivisione delle responsabilità: il programma java dovrà occuparsi della logica applicativa (logica di business) e della gestione dei dati, lo script php dovrà curare l'interazione con l'utente
+#Vantaggio: libera realizzazione di nuove interfaccie indipendenti dalla logica di business (la quale fornisce delle API ben precise (?))
+#Problematiche di rilievo: invocazioni concorrenti (nomi dei file) [vedere server apache quante script php lancia, modello di esecuzione]
 =Approfondimenti tecnologici=
+==Ottimizzazione del dizionario==
+#Studio di un semplice algoritmo di machine learning per ottimizzazioni sulla base di criteri di frequenza e ultima apparizione rilevata dei nominativi e per l'apprendimento di nuovi nominativi.
+#Valutazione sulle implicazioni relative agli accessi concorrenti in scrittura al dizionario e contromisure necessarie (ad es. semafori)
+#Valutazioni sulle conseguenze portate dall'inserimento di nominativi errati [si può controllare che il documento lo contenga effettivamente] o di input malevoli
 ==Analisi della struttura dei formati W3C OOXML==
-) descrizione preliminare dei punti salienti del formato
+#Descrizione preliminare dei punti salienti del formato
-) ideazione di una navigazione ed elaborazione bottom-up del file xml principale del docx, valutazione e analisi della complessita' introdotta dai vari nodi xml e traduzione dell'analisi svolta in nuove specifiche
+#Ideazione di una navigazione ed elaborazione bottom-up del file xml principale del docx, valutazione e analisi della complessità introdotta dai vari nodi xml e traduzione dell'analisi svolta in nuove specifiche
 ==La libreria in ambiente java open source Docx4j==
-)Potenzialita' e astrazione della libreria
+#Potenzialità e astrazione della libreria
-)Riferimenti allo standard W3C XPath e alcune altre osservazioni rilevanti su Docx4j
+#Riferimenti allo standard W3C XPath e alcune altre osservazioni rilevanti su Docx4j
+==Curiosità==
-=Architettura web application= [B COME CAPITOLO]
+#Illustrazione di alcuni accorgimenti interessanti fatti durante lo sviluppo della tesi: wikis come piattaforma di revisione e documentazione, funzionalità meno note ai più di Github, semplici tool a riga di comando in ambiente linux per la velocizzazione dello sviluppo realizzati da me
 =Sviluppi futuri=
-==Ottimizzazione dei dizionari==
+==Ulteriore ottimizzazione dei dizionari==
-) Valutazione sulla necessita' di ottimizzazione del dizionario sulla base di caratteristiche dei documenti trattati (es. lunghezza, se contengono solo tabelle o solo testo o entrambe ect.) o sulla loro tipologia (elenchi di studenti, atti di tribunale ect.)
+#Valutazione sulla necessità di ottimizzazione del dizionario sulla base di caratteristiche dei documenti trattati (es. lunghezza, se contengono solo tabelle o solo testo o entrambe ect.) o sulla loro tipologia (elenchi di studenti, atti di tribunale ect.)
-)Studio di un semplice algoritmo di machine learning per ottimizzazioni sulla base di criteri di frequenza e ultima apparizione rilevata dei nominativi e per l'apprendimento di nuovi nominativi.
 ==Valuazione di altri pattern==
-)Il rischio della re-identificazione, con valutazione di risultati scentifici sperimentali
+#Il rischio della re-identificazione, con valutazione di risultati scentifici sperimentali, ulteriore argomentazione a supporto di un dizionario di soli nomi (maggiore privacy)
-)Altri dati personali trattabili: date e luoghi di nascita, indirizzi, email, numeri di telefono, sesso ect.
+#Altri dati personali trattabili: date e luoghi di nascita, indirizzi, email, numeri di telefono, sesso ect.
-)introdurre funzionalita' per la pseudonimizzazione dei documenti (es. Amorosa Lorenzo -> Amorosa L.)
+#introdurre funzionalità per la pseudonimizzazione dei documenti (es. Amorosa Lorenzo -> Amorosa L.)

Differenze tra le versioni di "Scheletro - Progettazione e realizzazione di un servizio web per il trattamento dei dati personali contenuti in documenti OOXML complessi"

Da Wikis.

Versione delle 11:48, 9 set 2019

Indice

Introduzione

La problematica del trattamento dei dati personali

Scenario di lavoro

Definizione delle specifiche

Analisi dell'usabilità

Nominativi forniti in input

Impiego di dizionari

Soluzione ibrida adottata

Analisi linguistica e della struttura dei documenti

Ambiguità linguistiche

Formattazione dei documenti

Scelta dei formati da trattare

Privacy by design

Architettura LAMP

I componenti software

Single responsability principle

Approfondimenti tecnologici

Ottimizzazione del dizionario

Analisi della struttura dei formati W3C OOXML

La libreria in ambiente java open source Docx4j

Curiosità

Sviluppi futuri

Ulteriore ottimizzazione dei dizionari

Valuazione di altri pattern