Azioni

Differenze tra le versioni di "Scheletro - Progettazione e realizzazione di un servizio web per il trattamento dei dati personali contenuti in documenti OOXML complessi"

Da Wikis.

Riga 9: Riga 9:
  
 
1)Breve accenno al confronto e alla collaborazione con AFA Systems
 
1)Breve accenno al confronto e alla collaborazione con AFA Systems
2)Descrizione di ciò che AFA Systems vorrebbe: web tool, destinato all'uso degli enti prima citati, tramite il quale anonimizzare o pseudonimizzare documenti. In particolare, verra' posta attenzione sul trattamento di nomi e cognomi e saranno anonimizzati
+
2)Descrizione di ciò che AFA Systems vorrebbe: web tool, destinato all'uso degli enti prima citati, tramite il quale anonimizzare o pseudonimizzare documenti. In particolare, verra' posta attenzione sul trattamento di nomi e cognomi, i quali saranno anonimizzati
  
 
=Definizione delle specifiche=
 
=Definizione delle specifiche=
Riga 17: Riga 17:
 
===Nominativi forniti in input===
 
===Nominativi forniti in input===
  
1)vantaggi e svantaggi se input viene dato da utente
+
1)vantaggi e svantaggi se l'input viene dato dall'utente
  
 
===Impiego di dizionari===
 
===Impiego di dizionari===
  
1)vantaggi e svantaggi se documento trattato da un dizionario (valutazioni sulle possibile struttura del dizionari: se contiene nomi, cognomi o entrambi, se contiene nomi/cognomi stranieri ect. )
+
1)vantaggi e svantaggi se il documento viene trattato da un dizionario (valutazioni sulle possibile struttura del dizionari: se contiene nomi, cognomi o entrambi, se contiene nomi/cognomi stranieri ect.; valutazione su criteri di ricerca (conviene ricercare i termini del documento nel dizionario o viceversa?) ect. )
  
 
===Soluzione ibrida adottata===
 
===Soluzione ibrida adottata===
Riga 31: Riga 31:
 
===Ambiguita' linguistiche===
 
===Ambiguita' linguistiche===
  
1) esemplificazione delle ambiguita' linguistiche (omonimia totale o parziale, nomi/cognomi identificabile anche come lessico quotidiano, range di variabilita' con il quale un nominativo puo' comparire ect.), commenti sul come sia difficile trattare con un automa queste ambiguita' (antinomie)
+
1) esemplificazione delle ambiguita' linguistiche (omonimia totale o parziale dei nominativi, nomi/cognomi identificabili anche come lessico quotidiano, range di variabilita' con il quale un nominativo puo' comparire ect.), commenti sul come sia difficile trattare con un automa queste ambiguita' (antinomie)
 
2)definizione dei pattern dei nominativi: (differenze tra quelli che sono inseriti dall'utente e presi dal dizionario)
 
2)definizione dei pattern dei nominativi: (differenze tra quelli che sono inseriti dall'utente e presi dal dizionario)
  
 
===Formattazione===
 
===Formattazione===
  
1) esemplificazioni di formattazioni possibili: grassetto, corsivo, tabelle, titoli, note a pie' pagina (ect.)
+
1) esemplificazioni di formattazioni possibili: grassetto, corsivo, tabelle, elenchi, titoli, note a pie' pagina (ect.)
 
2) definizione dei pattern dei nominativi sulla base degli elementi di formattazione del documento
 
2) definizione dei pattern dei nominativi sulla base degli elementi di formattazione del documento
  
Riga 48: Riga 48:
 
1)Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout ect.)
 
1)Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout ect.)
  
==Achitettura web application== [A COME SOTTOCAPITOLO]
+
==Architettura web application== [A COME SOTTOCAPITOLO]
  
 
=Approfondimenti tecnologici=
 
=Approfondimenti tecnologici=
Riga 55: Riga 55:
  
 
1) descrizione preliminare dei punti salienti del formato
 
1) descrizione preliminare dei punti salienti del formato
2) ideazione di una navigazione e elaborazione bottom-up della struttura
+
2) ideazione di una navigazione ed elaborazione bottom-up del file xml principale del docx, valutazione e analisi della complessita' introdotta dai vari nodi xml e traduzione dell'analisi svolta in nuove specifiche
  
 
==La libreria in ambiente java open source Docx4j==
 
==La libreria in ambiente java open source Docx4j==
  
 
1)Potenzialita' e astrazione della libreria
 
1)Potenzialita' e astrazione della libreria
2)Riferimenti allo standard W3C XPath e alcune altre osservazioni rilevanti
+
2)Riferimenti allo standard W3C XPath e alcune altre osservazioni rilevanti su Docx4j
  
=Achitettura web application= [B COME CAPITOLO]
+
=Architettura web application= [B COME CAPITOLO]
  
 
=Sviluppi futuri=
 
=Sviluppi futuri=
Riga 68: Riga 68:
 
==Ottimizzazione dei dizionari==
 
==Ottimizzazione dei dizionari==
  
1) Valutazione sulla necessita' di ottimizzazione del dizionario sulla base di caratteristiche dei documenti trattati (es. lunghezza, se contengono solo tabelle o solo testo o entrambe ect.) o sulla tipologia (elenchi di studenti, atti di tribunale ect.)
+
1) Valutazione sulla necessita' di ottimizzazione del dizionario sulla base di caratteristiche dei documenti trattati (es. lunghezza, se contengono solo tabelle o solo testo o entrambe ect.) o sulla loro tipologia (elenchi di studenti, atti di tribunale ect.)
2)Studio di un semplice algoritmo di machine learning per ottimizzazioni sulla base di criteri di frequenza e/o ultima apparizione rilevata dei nominativi, apprendimento di nuovi nominativi ect.
+
2)Studio di un semplice algoritmo di machine learning per ottimizzazioni sulla base di criteri di frequenza e ultima apparizione rilevata dei nominativi e per l'apprendimento di nuovi nominativi.
  
 
==Valuazione di altri pattern==
 
==Valuazione di altri pattern==

Versione delle 12:48, 6 set 2019

Introduzione

La problematica del trattamento dei dati personali

1) Introduzione all'argomento, con riferimenti alle normative sulla privacy vigenti (GDPR) 2) Esemplificazione degli enti coinvolti (aziende, scuole, studi legali ect.) e dei documenti che necessitano di anonimizzazione o pseudonimizzazione

Scenario di lavoro

1)Breve accenno al confronto e alla collaborazione con AFA Systems 2)Descrizione di ciò che AFA Systems vorrebbe: web tool, destinato all'uso degli enti prima citati, tramite il quale anonimizzare o pseudonimizzare documenti. In particolare, verra' posta attenzione sul trattamento di nomi e cognomi, i quali saranno anonimizzati

Definizione delle specifiche

Analisi dell'usabilita'

Nominativi forniti in input

1)vantaggi e svantaggi se l'input viene dato dall'utente

Impiego di dizionari

1)vantaggi e svantaggi se il documento viene trattato da un dizionario (valutazioni sulle possibile struttura del dizionari: se contiene nomi, cognomi o entrambi, se contiene nomi/cognomi stranieri ect.; valutazione su criteri di ricerca (conviene ricercare i termini del documento nel dizionario o viceversa?) ect. )

Soluzione ibrida adottata

1)illustrazione di una soluzione ibrida che applica entrambe le strategie

Analisi linguistica e della struttura dei documenti

Ambiguita' linguistiche

1) esemplificazione delle ambiguita' linguistiche (omonimia totale o parziale dei nominativi, nomi/cognomi identificabili anche come lessico quotidiano, range di variabilita' con il quale un nominativo puo' comparire ect.), commenti sul come sia difficile trattare con un automa queste ambiguita' (antinomie) 2)definizione dei pattern dei nominativi: (differenze tra quelli che sono inseriti dall'utente e presi dal dizionario)

Formattazione

1) esemplificazioni di formattazioni possibili: grassetto, corsivo, tabelle, elenchi, titoli, note a pie' pagina (ect.) 2) definizione dei pattern dei nominativi sulla base degli elementi di formattazione del documento

Scelta dei formati da trattare

1)Introduzione: è buona prassi che il documento sia pseudonimizzato il prima possibile, per evitare che i dati in chiaro circolino in rete, quindi le persone alle quali e' rivolto il servizio sono le stesse che si occupano di redigere il documento: esse possono quindi decidere il formato del documento. E' ragionevole quindi lavorare su un unico formato 2)Confronto formati di testo con approfondita argomentazione e scelta del formato OOXML Document (DOCX)

Privacy by design

1)Illustrazione di come il principio influenzi l'architettura dell'applicazione, con commenti su scenari critici (interruzione della comunicazione, blackout ect.)

==Architettura web application== [A COME SOTTOCAPITOLO]

Approfondimenti tecnologici

Analisi della struttura dei formati W3C OOXML

1) descrizione preliminare dei punti salienti del formato 2) ideazione di una navigazione ed elaborazione bottom-up del file xml principale del docx, valutazione e analisi della complessita' introdotta dai vari nodi xml e traduzione dell'analisi svolta in nuove specifiche

La libreria in ambiente java open source Docx4j

1)Potenzialita' e astrazione della libreria 2)Riferimenti allo standard W3C XPath e alcune altre osservazioni rilevanti su Docx4j

=Architettura web application= [B COME CAPITOLO]

Sviluppi futuri

Ottimizzazione dei dizionari

1) Valutazione sulla necessita' di ottimizzazione del dizionario sulla base di caratteristiche dei documenti trattati (es. lunghezza, se contengono solo tabelle o solo testo o entrambe ect.) o sulla loro tipologia (elenchi di studenti, atti di tribunale ect.) 2)Studio di un semplice algoritmo di machine learning per ottimizzazioni sulla base di criteri di frequenza e ultima apparizione rilevata dei nominativi e per l'apprendimento di nuovi nominativi.

Valuazione di altri pattern

1)Il rischio della re-identificazione, con valutazione di risultati scentifici sperimentali 2)Altri dati personali trattabili: date e luoghi di nascita, indirizzi, email, numeri di telefono, sesso ect. 3)introdurre funzionalita' per la pseudonimizzazione dei documenti (es. Amorosa Lorenzo -> Amorosa L.)