Addestramento degli algoritmi e dati personali
La recente rimozione del blocco a ChatGPT imposto dal Garante delle Privacy per tutti gli utenti di nazionalità italiana, ha riaperto il dibattito sull’utilizzo e sulle finalità dei dati raccolti.
L’Autorità competente ha infatti messo in luce l’assenza di una base giuridica che giustifichi la raccolta e l’archiviazione in massa di dati personali, allo scopo di “addestrare” gli algoritmi. Il famoso ChatGPT, ad esempio, funziona grazie a un modello definito LLM (Large Language Model) che necessita di enormi quantità di dati per funzionare e migliorarsi. Maggiore è il numero di dati su cui viene addestrato il programma, migliore sarà la generazione di testo in fase di risposta.
Come base dati, la società OpenAI ha dovuto fornire a ChatGPT l’accesso a circa 500 miliardi di Token. Si tratta, in altre parole, di 500 miliardi di parole acquisite in modo automatico con la tecnica dello scraping, che prevede l’estrazione di dati e metadati dai siti web attraverso software che riproducono in maniera verosimile la navigazione umana.
Questo significa che chiunque abbia scritto un post su un blog, un social network, fatto una recensione di un prodotto o commentato un articolo online, ha una buona probabilità che le proprie informazioni siano state in qualche modo analizzate da ChatGPT, che così alimenta la propria capacità di comprensione.
Su questo tema la sfida è appena incominciata. Da una parte il Garante della Privacy punta all’introduzione della possibilità per il singolo cittadino di negare il consenso dell’utilizzo dei propri dati per addestrare sistemi di machine learning e strumenti basati sull’intelligenza artificiale; dall’altra parte invece le varie società reclamano la necessità di avere un cluster di dati che sia il più ampio possibile, dal momento che dalla quantità di dati macinati e più volte processati, dipende la qualità non solo di tutte, ma anche della singola risposta specifica.
Leggi anche