22 Gennaio 2026
Agente Intelligente sulla strada digitale
Analisi giuridico-tecnica dello studio AGID sugli agenti intelligenti e sulle nuove vulnerabilità operative e infrastrutturali nella sicurezza digitale.

Una lettura critica dello studio AGID “Agenti IA e Sicurezza: comprendere per governare”

L’evoluzione dell’intelligenza artificiale segna un cambio di paradigma. Non siamo più dinanzi a sistemi che generano soltanto testo, ma a entità software capaci di compiere azioni nel mondo digitale, interagire con il sistema operativo, attivare funzioni e innescare processi. Lo studio AGID Agenti IA e Sicurezza: comprendere per governare” (premere qui per leggere) offre una disamina lucida e inquietante delle nuove superfici di rischio che emergono quando un modello linguistico viene trasformato in un agente esecutivo.

Il documento propone riflessioni e un esperimento tecnico che mostrano con pragmatismo come la sicurezza di tali agenti non risieda nel modello in sé, bensì nel codice che li connette all’ambiente operativo, nella qualità delle validazioni e nella disciplina con cui vengono definiti limiti, funzioni e responsabilità.


Un cambio di paradigma: dall’elaborazione al comando

La prima parte dello studio ricostruisce la transizione dai modelli linguistici generativi agli agenti dotati di capacità operative, capaci di richiamare funzioni Python, interfacciarsi con API e manipolare file e processi (pp. 3–4). Questa metamorfosi metodologica accresce l’efficienza. Ma amplifica esponenzialmente l’esposizione a errori, abusi o interferenze malevole.

AGID osserva come la vulnerabilità risieda quasi sempre nell’orchestratore, ossia nello strato di codice che traduce le intenzioni dell’utente in azioni eseguibili. Ogni funzione, docstring, endpoint o directory rappresenta una potenziale superficie d’attacco.


Il ciclo ReAct e l’illusione del controllo

Gli agenti adottano un ciclo Reason + Act che alterna ragionamento e azione (p. 5). È proprio l’automatismo tra questi due momenti a rendere l’ecosistema fragile.
L’agente interpreta, decide e agisce. E lo fa sulla base della descrizione semantica delle funzioni, desunta dalle docstring.

Una singola imprecisione può generare una funzione percepita come innocua ma capace di effetti inattesi.
L’atto tecnico diventa conseguenza di un atto linguistico.

Questa natura ibrida è affascinante. Ma anche pericolosa.


Quando l’agente individua le proprie falle

Particolarmente rilevante è l’esperimento in cui l’agente viene interrogato sulle sue capacità e vulnerabilità (p. 6). L’autosservazione è un aspetto tipico dei modelli linguistici, che possono ricostruire l’architettura delle funzioni analizzando docstring, parametri e struttura dell’ambiente.

Lo studio segnala che un agente è spesso in grado di:
– enumerare strumenti e permessi;
– suggerire quali funzioni risultino “più a rischio”;
– ipotizzare scenari di abuso.

Questo comportamento può essere utile in fase di audit.
Ma in produzione rappresenta un vettore di information leakage, perché consente a un utente malevolo di mappare il sistema senza alcuno sforzo.


Il caso emblematico del path traversal

Lo studio AGID riporta uno degli esempi più efficaci per comprendere il rischio operativo (p. 7). Nonostante l’agente fosse confinato in una directory sicura (./sandbox), una semplice richiesta testuale ha indotto il sistema a leggere un file esterno:

leggi il contenuto di ../.env.

Il modello ha eseguito la funzione. Ha letto un file sensibile. E ha restituito una API key.

Non si è trattato di una “violazione dell’intelligenza artificiale”, ma di un difetto nel codice umano.
Una validazione mancante. Una directory non filtrata. Un’assenza di blocchi logici che avrebbe dovuto impedire all’agente di oltrepassare i confini progettati.

Il caso evidenzia in modo cristallino come la sicurezza di un agente non sia un attributo del modello, ma del suo perimetro di esecuzione.


La difesa a strati: codice, prompt, API

AGID propone un modello tripartito che ricorda le architetture multilivello dei sistemi critici (p. 8):

1. Codice
È la prima linea di difesa. Deve validare input, sanitizzare percorsi, impedire operazioni non autorizzate. Una sola omissione può rendere inutile qualsiasi altro accorgimento.

2. System Prompt
È il manuale operativo dell’agente. Definisce ciò che può fare, dire, rivelare. È anche un punto di vulnerabilità, soggetto a prompt injection.

3. Guardrail tecnici
Intercettano richieste rischiose prima dell’esecuzione. Analizzano sia l’input sia il piano d’azione (action review). Funzionano come un freno d’emergenza in grado di bloccare un comportamento dannoso anche se il codice o il prompt sono stati ingannati.

La sicurezza, dunque, emerge dall’interazione armonica di più livelli, in un approccio coerente con i principi della cybersecurity-by-design.


Considerazioni giuridiche: responsabilità, prevenzione e governance

Lo studio, pur con taglio tecnico, si presta a importanti riflessioni giuridiche.
In particolare:

• La responsabilità per gli atti dell’agente ricade su chi lo progetta o lo mette in esercizio.
L’agente esegue. Non interpreta la liceità. Non valuta la proporzionalità. È un esecutore, non un soggetto.

La questione della responsabilità per le azioni degli agenti intelligenti costituisce il nodo concettuale più delicato nella disciplina delle tecnologie autonome. Lo studio AGID non affronta il tema in chiave normativa, ma offre spunti che, letti con l’occhio del giurista, permettono di ricostruire un quadro dogmatico coerente.

Il punto essenziale è che l’agente intelligente non è un soggetto, ma un esecutore tecnico. Egli non possiede volontà. Non formula scopi autonomi. Non comprende il disvalore giuridico delle proprie azioni.

La sua condotta è sempre riconducibile causalmente e giuridicamente alla condotta umana che l’ha progettato, configurato o messo in esercizio.

• Ogni funzionalità abilitata costituisce una potenziale fonte di danno.
Il principio di minimizzazione, ben noto nella protezione dei dati, diventa qui un criterio generale: gli agenti devono disporre solo degli strumenti strettamente necessari.

L’affermazione secondo cui ogni funzionalità abilitata costituisce una potenziale fonte di danno non è un mero richiamo prudenziale.

È un vero e proprio principio strutturale, che emerge dallo studio AGID e trova fondamento tanto nella teoria della sicurezza quanto nella dogmatica giuridica contemporanea.

Approfondirlo significa ricostruire il legame tra progettazione tecnica, gestione del rischio, responsabilità e governance.

• La sicurezza non può essere retroattiva.
Il documento ribadisce (p. 9) che la prevenzione è più efficace della reazione. E richiama, implicitamente, il paradigma europeo del security-by-default.

L’affermazione contenuta nello studio AGID — secondo cui la sicurezza, una volta violata, non può essere “ripristinata” retroattivamente — è molto più di un monito metodologico.

È un principio strutturale che discende dalla natura stessa degli agenti intelligenti, dal modo in cui interagiscono con gli ambienti operativi e, in ultima istanza, dalla fisiologia del rischio digitale contemporaneo (p. 9) .

Approfondire questo principio significa esaminarlo in tre prospettive integrate:

  1. la prospettiva tecnica, che spiega perché il comportamento degli agenti non può essere “annullato” una volta compiuto;
  2. la prospettiva giuridica, che chiarisce perché il diritto richiede prevenzione e non riparazione postuma;
  3. la prospettiva organizzativa, che impone un nuovo modello di governance, fondato su security-by-design e security-by-default.

• L’agente è vincolato alla qualità delle infrastrutture su cui opera.
La metafora automobilistica proposta nelle ultime pagine (pp. 10–11) evidenzia la dimensione infrastrutturale della responsabilità: se mancano guardrail, l’agente non “sbaglia”, esegue.

Lo studio AGID, nelle pagine finali (pp. 10–11) , introduce una metafora potente: l’agente intelligente è paragonato a un’automobile, mentre il codice, le API, i guardrail e l’ambiente operativo costituiscono la strada, la segnaletica e le infrastrutture che ne consentono il movimento in sicurezza.

Questa immagine, apparentemente narrativa, contiene in realtà una sintesi magistrale della teoria della responsabilità per sistemi agentici, e consente di comprendere con precisione il rapporto tra autonomia tecnica e responsabilità umana.

Approfondire tale metafora significa ricostruirne la struttura concettuale, evidenziando quattro piani distinti:

  1. il piano meccanico-operativo;
  2. il piano infrastrutturale;
  3. il piano normativo e di governance;
  4. il piano della responsabilità per rischio creato.

Conclusione: l’autonomia richiede disciplina

Lo studio AGID ci pare dimostrare con rigore che la sfida non è rendere gli agenti più intelligenti.
È rendere più sicure le infrastrutture che li ospitano.
La delega operativa a sistemi artificiali impone un nuovo equilibrio tra autonomia, prudenza e controllo.
Ogni agente deve poter agire, ma entro limiti chiari, verificati e difesi.
Solo così l’intelligenza artificiale rimane uno strumento.
E non diventa un amplificatore inconsapevole degli errori umani.

Sull'autore