skip to Main Content

La “memorizzazione” nei modelli linguistici: un nuovo terreno di frizione tra diritto d’autore e intelligenza artificiale

di Maria Letizia Bixio

 

L’11 novembre 2025 è una data importante che segna la prima puntata di una avvincente saga nella gigantomachia europea che vede opporsi, agli sviluppatori dei sistemi di AI, gli organismi di gestione collettiva in rappresentanza dei titolari di diritti d’autore sulle opere protette. Il caso all’attenzione del Tribunale regionale di Monaco di Baviera ha comportato un sostanziale accoglimento delle richieste di provvedimento inibitorio, divulgazione e risarcimento danni, avanzate dall’organismo di gestione collettiva tedesco GEMA, nei confronti di due società del gruppo Open AI.

La 42a Sezione civile del Tribunale regionale di Monaco di Baviera, specializzata in diritto d’autore, ha pubblicato una sentenza nella quale si afferma chiaramente che OpenAI ha violato il diritto d’autore sia memorizzando testi (di canzoni), che visualizzando parti dei testi nell’output. Il tribunale ha anche stabilito che non si applica la limitazione di text-and-data mining prevista ai sensi dell’art. 4 della direttiva 790/2019.

La decisione interviene in uno dei nodi più complessi e attuali del diritto d’autore applicato all’intelligenza artificiale: la qualificazione giuridica dei processi di addestramento dei modelli linguistici e la loro compatibilità con il sistema delle eccezioni previste per il text and data mining.

I testi di canzoni, infatti sono stati rinvenuti — secondo l’accertamento tecnico — in modo riproducibile all’interno dei modelli linguistici gestiti dalla OpenAI. Il Tribunale ha dunque ritenuto che tali testi, essendo contenuti nei parametri del modello e potendo essere restituiti come output, non siano semplicemente “utilizzati” a fini analitici, ma “memorizzati” in senso proprio, cioè incorporati in modo stabile e riutilizzabile. Tale fenomeno di “memorizzazione” segna, secondo la Corte, il punto di discrimine rispetto alla mera estrazione di testo e dati che caratterizza il text and data mining.

Tale memorizzazione si verifica quando, durante l’addestramento, i modelli linguistici non solo estraggono informazioni dal set di dati di addestramento, ma mostrano anche una completa incorporazione dei dati di addestramento nei parametri specificati dopo l’addestramento. Questa memorizzazione è stata confermata confrontando i testi delle canzoni contenuti nei dati di addestramento con la loro riproduzione negli output. Data la complessità e la lunghezza dei testi delle canzoni, si esclude che la causa della loro riproduzione sia casuale.

Il ragionamento del giudice si fonda quindi su una constatazione di fatto: durante il processo di addestramento, il modello non si limita ad estrarre regolarità statistiche dai dati di input, ma può conservare – nei propri parametri – segmenti di testo riconducibili alle opere originarie, rendendone possibile una successiva riproduzione. Poiché i testi delle canzoni in questione erano stati riprodotti negli output in modo corrispondente alle versioni originali, così come era avvenuto nel noto caso americano New York Times vs OpenAI, il Tribunale ha escluso il carattere casuale della coincidenza, riconoscendo così la presenza di una vera e propria “riproduzione” ai sensi dell’art. 2 della Direttiva 2001/29/CE (InfoSoc).

L’argomentazione tecnica secondo la quale la conservazione del dato avverrebbe sotto forma di valori probabilistici, parrebbe secondo i giudici tedeschi non rilevare, laddove anche una fissazione indiretta o mediata rientrerebbe nel concetto di riproduzione, alla luce dei principi consolidatesi nella giurisprudenza della Corte di giustizia dell’Unione europea.

L’aspetto più innovativo – e al tempo stesso più controverso – della decisione risiede tuttavia nell’esclusione dell’applicabilità delle limitazioni in materia di text and data mining (§ 44b UrhG). Il Tribunale distingue in modo netto tra le riproduzioni meramente preparatorie, necessarie per l’analisi dei dati, e quelle che danno luogo a un’incorporazione stabile dell’opera nel modello. Nel primo caso, la legge ammette la riproduzione temporanea in quanto funzionale alla successiva analisi; nel secondo, invece, la riproduzione permanente inciderebbe sui diritti di sfruttamento economico dell’autore.

In questo senso, la decisione tedesca segna una chiara linea di confine: laddove l’addestramento di un modello determini la possibilità di rigenerare l’opera o sue parti sostanziali, non si tratterebbe più di data mining, ma di una forma non autorizzata di riproduzione, con ciò ravvivandosi le teorie sul presupposto della legittimità dell’opera derivata ovvero la previa autorizzazione al titolare.

È interessante notare come la Corte escluda espressamente qualsiasi interpretazione estensiva o analogica della limitazione, pur riconoscendo che il legislatore non aveva probabilmente previsto fenomeni di “memorizzazione” così sofisticati. Anche di fronte a un potenziale vuoto normativo, il giudice respinge la possibilità di estendere la deroga, ritenendo che ciò comprometterebbe in modo irragionevole gli interessi economici degli autori. L’eventuale rischio di memorizzazione, sottolinea il Tribunale, appartiene integralmente alla sfera di controllo del soggetto che sviluppa o gestisce il modello, non potendo quindi essere trasferito sui titolari dei diritti.

La decisione assume particolare rilievo anche sotto il profilo soggettivo della responsabilità: gli imputati – e non gli utenti finali – sono stati ritenuti direttamente responsabili della riproduzione illecita, in quanto gestori dei modelli linguistici e autori delle scelte relative all’architettura e ai dati di addestramento. Tale impostazione ribadisce una visione “centralizzata” della responsabilità nell’ambito dei sistemi di intelligenza artificiale, che si discosta da talune tendenze dottrinali tese a frammentarla tra produttori, fornitori e utilizzatori.

Sullo sfondo di questa pronuncia si colloca un interrogativo più ampio, di portata sistematica: fino a che punto il diritto d’autore europeo, costruito su un paradigma di riproduzione materiale o percepibile, è in grado di adattarsi alla realtà della rappresentazione statistica delle opere nei modelli di machine learning?

La decisione di Monaco, pur mossa da un intento di tutela rigorosa degli autori, solleva il rischio di irrigidire il quadro normativo in un momento in cui la frontiera tecnologica avanza più rapidamente della capacità regolativa del diritto. Il confine tra estrazione di informazioni e riproduzione, così come quello tra analisi e sfruttamento, appare oggi più che mai mobile — e forse destinato a ridefinirsi solo attraverso un intervento legislativo europeo di secondo livello, capace di confrontarsi esplicitamente con le dinamiche proprie dell’intelligenza artificiale generativa.

Del resto il contesto europeo è ancora in evoluzione, laddove da un lato, la Direttiva InfoSoc aveva consolidato il principio di tutela ampia della riproduzione, anche indiretta, delle opere dell’ingegno; dall’altro, le direttive più recenti in materia di Copyright in the Digital Single Market Strategy,  le disposizioni sul Text and data mining e l’AI Act hanno tentato di bilanciare la protezione autoriale con l’interesse pubblico all’innovazione e alla ricerca.

La decisione tedesca, in questa prospettiva, riporta l’attenzione ad un’interpretazione rigorosa e restrittiva delle eccezioni. Tale approccio, se da un lato garantisce un elevato livello di tutela dei titolari dei diritti, dall’altro rischia di porre in tensione l’obiettivo di promozione dell’innovazione tecnologica che anima l’AI Act e, più in generale, la strategia europea per l’intelligenza artificiale.

Resta dunque aperta una questione di fondo: se la logica del fair balance – tra diritti di esclusiva e libertà di innovazione – debba essere meglio contemperata da sistemi di equa remunerazione ex ante o ex post. Come ovviare se l’opt-out è ignorato, carente, o tardivo? Come ovviare se l’output causa un pregiudizio economico, anche indiretto, ai titolari dei diritti?

La sentenza di Monaco, più che offrire risposte definitive, sembra porre le premesse per una futura ricomposizione sistematica del rapporto tra creatività umana, automazione e proprietà intellettuale, nel cuore della nuova economia algoritmica, che auspicabilmente dovrebbe ancora una volta trovare un punto di equilibrio nelle soglie definite dal Three step test.

Back To Top