Diverse Autorità per la Protezione dei Dati Personali, per un totale di 16 cofirmatari a livello globale, hanno partecipato – in collaborazione con alcune delle più grandi aziende di social media al mondo – alla raccolta delle principali osservazioni e linee guida su prassi e istruzioni relative al tema del data scraping e tutela della privacy. Il risultato di questo lavoro è riassunto, in continuità con quanto iniziato nell’estate del 2023, all’interno di una Dichiarazione Congiunta conclusiva. Nel documento, insieme ad alcune importanti raccomandazioni che integrano le politiche già divulgate di protezione dei dati personali dallo scraping non autorizzato, sono riportate linee guida e strumenti pratici per le aziende, con un’attenzione specifica per la posizione delle piccole e medie imprese (PMI) nella difesa contro l’estrazione massiva di dati dal web.
Indice
Cos’è il web scraping?
Il web scraping è il processo di raccolta automatizzata di dati da fonti online, come piattaforme e siti web. Si basa sull’utilizzo di bot – software che eseguono compiti ripetitivi su una rete, tentando di imitare il comportamento umano. E quando questi bot puntano a ottenere grandi moli di dati contenenti informazioni personali (data scraping), la pratica può chiaramente violare le normative sulla privacy.
Ma se un’informazione è già in rete, allora posso farne ciò che voglio, vero? La privacy non c’entra. Liberi tutti. In realtà, no. I principi di protezione dei dati si applicano anche ai dati personali raccolti da fonti pubbliche. Questo, per chi si occupa di GDPR e Data Protection nel contesto europeo, potrebbe sembrare banale. Tuttavia, sono ancora molto frequenti, anche nel nostro territorio, le incomprensioni su cosa sia lecito fare – e cosa no – con i dati disponibili sul web. Scolpiamolo nella pietra:
I dati personali accessibili al pubblico sono ancora soggetti alle leggi sulla protezione dei dati.
Non si pensi, poi, che questa sia una delle solite ossessioni dell’Unione Europea per la regolamentazione e i divieti. Con la dichiarazione congiunta, la prospettiva di tutela dei dati accessibili sul web è stata formalmente sancita come condivisa da molti paesi, anche extra europei. Australia, Canada, UK, Cina, Svizzera, Nuova Zelanda, Colombia, Marocco, Argentina, Messico, Israele.
Web scraping e adempimenti delle PMI
Insomma, il web scraping applicato all’acquisizione illecita di dati personali può violare la privacy in modi significativi. Attraverso software automatizzati, gli scrapers raccolgono dati personali senza consenso e li utilizzano per scopi commerciali o attività illecite tipiche della criminalità informatica. In che modo questo incide sulle PMI? Spesso si crede che il fenomeno del web scraping riguardi solo grandi piattaforme (es. YouTube, TikTok, Meta, LinkedIn, X – peraltro le prime a essere coinvolte dalle iniziative congiunte delle Autorità), ma anche le PMI sono potenzialmente esposte e coinvolte. Ogni azienda che raccolga e/o pubblichi informazioni personali online ha la responsabilità di proteggerle, implementando misure di sicurezza e prevenzione. L’esigenza, quindi, è quella di individuare delle soluzioni sostenibili per adempiere agli obblighi di protezione dei dati contro lo scraping illegale. Soluzioni che, alla luce di queste nuove linee guida, diventano fondamentali anche per evitare di esporsi a rischi legali e reputazionali.
Nella nuova dichiarazione congiunta delle Autorità, si parla infatti di un effettivo obbligo di protezione contro lo scraping, che va certamente rispettato – con grande responsabilità – dalle grandi aziende (pensiamo al ruolo chiave dei gestori delle piattaforme social), ma analogamente anche da tutte quelle PMI che operano attraverso siti web e piattaforme in cui si rendono più o meno pubblicamente disponibili dati. Il punto è proprio che molte piccole e medie imprese gestiscono, raccolgono e condividono informazioni sul web, per varie necessità, e anche in misura incidentale, come effetto dell’erogazione di servizi anche non direttamente incentrati sulla condivisione di dati. Al contempo, non dispongono delle stesse risorse per proteggersi al pari delle grandi aziende o delle big tech. Per proteggere i dati dallo scraping, andrebbe quindi ricercata l’assistenza di quei fornitori di servizi che, con dei costi relativamente accessibili, consentono di adottare o implementare misure idonee a soddisfare l’obbligo.
Quali misure adottare contro il data scraping?
Cattiva notizia: non ci sono misure definitive capaci di offrire una difesa assoluta contro lo scraping. Esistono operazioni di scraping molto sofisticate e a basso volume che, nascondendo quelle caratteristiche palesi di automatizzazione ed estrazione massiva, possono assomigliare in tutto e per tutto a un insieme di operazioni di accesso ed estrazione dati lecitamente effettuate da un utente umano. Ecco perché le Autorità promuovono soprattutto un approccio al rischio, focalizzato sulla protezione dagli scraping massivi e sulla prevenzione di quegli impatti su larga scala derivanti da azioni illecite su grandi volumi di interessati.
Come ormai siamo abituati a ragionare nel contesto dei processi di gestione dei rischi, le misure di sicurezza andranno riviste e aggiornate regolarmente. E una pratica essenziale è forse quella più generalista, che descrive un impegno costante per restare al passo con i progressi tecnologici, monitorando il panorama delle minacce e adattando di conseguenza le soluzioni di sicurezza già adottate. Pensiamo ad esempio al ruolo dell’AI. Da un lato, alcuni sistemi di Intelligenza Artificiale possono essere utilizzati per aggirare le misure di sicurezza ed estrarre i dati in modo più efficace (es. bot “intelligenti” che simulano l’attività di un utente reale). Allo stesso tempo, i sistemi basati su AI possono essere adottati anche per individuare i bot e proteggersi dallo scraping (andando a rilevare pattern anomali e comportamenti sospetti, distinguendo accuratamente tra utenti umani e bot sofisticati).
Ciò premesso, proviamo a entrare nel merito delle misure che possono essere messe in atto.
Minimizzazione
Le misure di prevenzione e protezione vanno commisurate alla sensibilità delle informazioni rese accessibili. Dati più “delicati” chiamano misure più certe (e investimenti più consistenti!). In ottica molto pragmatica, e in linea con i principi di protezione dei dati, ogni organizzazione dovrebbe innanzitutto ridurre al minimo la quantità di dati trattati. Nel caso specifico, è bene limitarsi a rendere accessibili sul web solo quelli che si è in grado di proteggere adeguatamente, anche dallo scraping illegale.
Governance
Senza arrivare necessariamente ad eccessi nell’assegnazione di titoli e funzioni specifiche, resta sempre una buona prassi quella di attribuire alle giuste persone il giusto ruolo. Se il tema è rilevante per l’organizzazione, potrebbe essere opportuno avere all’interno qualcuno con le giuste competenze in materia di sviluppo e implementazione di controlli per il monitoraggio e la tutela delle attività di scraping.
Monitoraggio del traffico e attività anomale
Passando a misure più tecniche, una delle più efficaci e accessibili è sicuramente il monitoraggio attivo del traffico sul proprio sito. Attraverso un’analisi delle connessioni, è possibile identificare attività sospette, come un numero elevato di richieste in un breve lasso di tempo da parte dello stesso utente o IP (spesso indicative di scraping). Se una piattaforma, poi, nasce con funzionalità pensate per gestire reti di contatti, magari offrendo l’accesso a dati di altre persone, è opportuno impostare un limite massimo al numero di visite all’ora o al giorno da parte di un account. Definire dei blocchi nella navigazione laddove si rilevino attività insolite (es. tipicamente, il superamento del numero massimo di richieste consentite per IP), non solo riduce il rischio di scraping, ma contribuisce a prevenire anche potenziali attacchi DDoS (Distributed Denial of Service) che mirano all’interruzione del servizio.
Difesa contro i bot
I CAPTCHA (Completely Automated Public Turing-test-to-tell Computers and Humans Apart) sono strumenti classici per distinguere tra utenti reali e bot. E nonostante siano sempre più diffuse notizie di sistemi di AI generativa specializzata nel riconoscimento di immagini, capaci di bypassare i classici test (es. riconosci la scritta, seleziona i semafori nella scena, ecc.), inserire CAPTCHA nei punti chiave del sito può tuttora aiutare a bloccare tentativi di scraping automatizzato. Oltretutto, il mercato offre soluzioni di vario tipo, facilmente integrabili nei siti web e molto accessibili a qualunque PMI.
Se l’obiettivo è contrastare le attività dei bot, inoltre, altri esempi sono gli interventi sul markup HTML (tramite forme di annidamento del codice o modifiche del codice in posizioni random, per ridurre l’efficacia delle azioni ripetitive dei bot), o l’incorporazione di dati all’interno di oggetti multimediali (es. testi brevi come contatti telefonici e email mostrati all’interno di immagini, più difficili da leggere per i bot).
Azioni legali
In caso di sospetto e/o conferma di scraping di dati, è possibile intraprendere le opportune azioni legali, a partire da lettere di diffida, richieste formali di cessazione dell’attività e di prove della cancellazione delle informazioni acquisite. Come suggerito dal Garante per la Protezione dei Dati Personali, tuttavia, l’inserimento di clausole ad hoc nei termini di servizio di un sito web o di una piattaforma online contenente un espresso divieto di utilizzare tecniche di web scraping costituisce una base per agire in giudizio in caso di inadempimento della controparte. Nonostante la misura sia di carattere puramente giuridico, è già ampiamente utilizzata e dimostratasi efficace nella protezione dei contenuti soggetti a diritto d’autore.
Lo scraping è sempre illecito?
Al di là dello scraping illecito, in quanto tale, la tecnologia che consente di metterlo in atto può essere utile o necessaria in situazioni di condivisione controllata di dati. In questo senso, la condivisione di dati esposti attraverso piattaforme digitali può talvolta essere consentita e avvenire in modo lecito, se non addirittura obbligatorio in precise circostanze. D’altronde, all’interno della strategia europea dei dati, ci troveremo sempre più spesso di fronte alla costruzione – resa possibile dall’acquisizione da varie fonti, pubbliche e private – di data-set destinati all’utilizzo per fini di ricerca o di utilità pubblica. Vi possono poi essere forme di condivisione dati su iniziativa commerciale di singole organizzazioni.
La messa a disposizione di dati personali a terzi, tuttavia, è un pratica molto delicata, che andrebbe sempre approcciata con grande cautela. Non a caso, l’Art. 167 bis del Codice Privacy punisce (con sanzioni di natura penale!) le pratiche illecite di comunicazione e diffusione di dati personali trattati su larga scala. Attenzione, quindi, alle condizioni di liceità (acquisire i consensi necessari!)… ad aderire correttamente al principio di trasparenza, assolutamente essenziale anche per la validità di qualsiasi consenso (informativa privacy e condizioni di servizio giocano un ruolo centrale). Attenzione, soprattutto, a svolgere le operazioni in sicurezza. A questo proposito, ricordano anche le Autorità nella Dichiarazione Congiunta, l’utilizzo di soluzioni di condivisione dati basate su API può rappresentare uno strumento molto vantaggioso… a patto di farne un utilizzo corretto: ved. Condividere dati personali tramite API: i suggerimenti per essere GDPR compliant).
Privacy e web scraping
In conclusione, la Dichiarazione delle Autorità Garanti evidenzia l’importanza di adottare misure per proteggere i dati personali dallo scraping, indipendentemente dalla dimensione dell’azienda. Anche le PMI, non solo le grandi società tecnologiche e gestori di social network, potranno trovarsi a dover gestire tematiche di monitoraggio delle attività sul web, e mitigazione dei rischi connessi alla condivisione di dati. I suggerimenti del lavoro congiunto delle Autorità (ma anche la nota informativa del Garante italiano, le linee guida dell’Autorità olandese, e le consultazioni di quella inglese sull’impatto dell’AI generativa) sono utili spunti per adeguarsi agli adempimenti di sicurezza. E preparare la propria organizzazione a un ruolo nel mercato digitale al passo coi tempi.