DISCLAIMER: Spesso si sente parlare di Deep Web o di Dark Web. Vorrei spiegare, spero in modo sufficientemente chiaro, il funzionamento di determinate dinamiche e di alcuni dei concetti informatici che vi sono dietro. Sia chiaro, non si tratta di una guida operativa per accedere al Deep o Dark Web, ma di un articolo divulgativo. Per la sua produzione non è stato impiegato olio di palma, e nessun IT Manager o Ethical Hacker è stato oggetto di maltrattamenti. Buona lettura.
Partiamo dalle basi
È importante conoscere le varie differenze, essendo in realtà concetti più semplici di quanto si creda. Fare le giuste distinzioni e un po' di chiarezza mi sembra il modo migliore per farti capire come funzionano le cose, per quanto in alcuni casi sia estremamente difficile.
La chiave primaria è l’indicizzazione, che è il fondamento della “ricercabilità” delle cose. Se un qualsiasi contenuto sul web è in qualche modo indicizzato, e tale indicizzazione è pubblica, posso trovarlo. Lo scopo dei motori di ricerca è esattamente questo: posta una domanda, fornire la migliore risposta possibile in base a quanto noto, ovvero indicizzato.
Il Surface Web: accessibile e indicizzato
È quella parte chiara e visibile che tutti conosciamo benissimo, a cui tutti siamo connessi, a cui accediamo ogni santo giorno dai nostri pc, smartphone, televisori, qualsiasi dispositivo ci permetta una connessione e un sistema o interfaccia di navigazione. Nella fattispecie, è tutta la parte di siti, contenuti e piattaforme di pubblico dominio, ovvero quello che viene anche definito come Surface Web.
È indicizzata e facilmente reperibile ed accessibile? Pensa solo a SEM (Search Engine Marketing), SEO (Search Engine Optimization), SEA (Search Engine Advertising) e SMO (Social Media Optimization) e tutto quello che società e professionisti del settore fanno per implorare una corretta scansione, indicizzazione e visualizzazione dei propri contenuti da parte dei motori di ricerca.
Il Deep Web: accessibile e non indicizzato
Non è altro che un sotto-insieme del Surface Web, o meglio quella parte di web che non è soggetta all'indicizzazione dei motori di ricerca comunemente usati e non.
Perché se l’obiettivo dei motori di ricerca è fornire la migliore risposta possibile ad una qualsiasi nostra domanda, per poterlo fare devono spazzolare costantemente tutta la mole di contenuti presenti nel Surface Web e indicizzarlo adeguatamente.
Ma quando i motori di ricerca bussano alla porta di casa, non è detto che tutti vogliano spalancare le porte e invitarli ad entrare. Pensa ad esempio a tutto quello che è protetto da una password e richiede un'autenticazione, salvo ovviamente rari casi di esplicita autorizzazione da parte nostra. Sarebbe indicizzata e ricercabile tutta la posta elettronica, tutto quello che la gente tiene nel cloud, le cartelle mediche ed esattoriali, le nostre dichiarazioni dei redditi, le intranet aziendali, i dati di home banking, i contenuti di molti forum, una mole infinita di dati di chiunque.
Parliamo di siti, portali o piattaforme che proteggono i dati e la privacy degli utenti nella loro “parte interna”, ma che sono totalmente visibili, indicizzati e comodamente reperibili e raggiungibili da chiunque nella “parte pubblica”. Un conto è cercare il sito cui accedere per controllare la mia posta elettronica, non ricordandomi mai la url corretta dove inserire le credenziali, un conto è la mia corrispondenza, che deve essere protetta e salvaguardata.
Quindi tutti i contenuti che tengo su Google Drive o su Dropbox, fanno parte del Deep Web? Se volessimo applicare la definizione “in purezza”, la risposta sarebbe sì, poiché non sono contenuti indicizzati, e in alcuni casi nemmeno “pubblicati” su internet. Pensa, ad esempio, alle pagine che compongono il sito della intranet aziendale di una società; è un sito internet a tutti gli effetti, ma accessibile solo ai dipendenti e solo dalla rete interna.
Per fare rapidamente qualche ulteriore esempio, abbiamo di che divertirci:
- contenuti “non linkati”, quindi ad accesso diretto. Sono tutti quei contenuti che non hanno un backlink (link entrante o collegamento entrante ovvero un collegamento ipertestuale che punta direttamente ad una determinata pagina web), che in parole semplici suona più o meno come “o sai l’indirizzo esatto o non trovi la porta; il navigatore non è tuo amico”.
- contenuti “no-robots”, quindi server e pagine web esplicitamente non indicizzabili, perchè settate con configurazione noindex o tramite codici captcha.
- contenuti “protetti”, ovvero tutto quello che richiede esplicitamente l’utilizzo di credenziali login/password per accedervi, o una qualsiasi forma di autenticazione.
- contenuti generati “dinamicamente” sulla base delle richieste degli utenti, quindi tramite QueryString o basati su variabili GET e POST (che in poche parole non fanno altro, lato server, che raccogliere gli input passati dall’utente per generare dinamicamente il contenuto con il risultato).
In realtà viene spesso fatta un’ulteriore sottile distinzione, aggiungendo un altro strato, che deriva dal livello tecnologico necessario per accedere ai contenuti. In poche parole non si considera solo se il contenuto è indicizzato o meno, ma anche il suo grado di reperibilità e accessibilità con strumenti comuni.
Si viene così a creare il Bergie Web, ovvero l'ultimo livello ancora faticosamente accessibile. Qui trovi tutti quei siti che, volutamente, non sono indicizzati o lo sono in parte veramente minimale, ma sono ancora navigabili, raggiungibili e consultabili (se sai come cercarli) con un qualsiasi web browser comunissimo. A questo livello si posizionano ad esempio i siti bloccati DMCA (Digital Millenium Copyright Act), piuttosto che alcuni portali che possono contenere maggiori informazioni per accedere al Deep Web (tra i più noti vengono generalmente menzionati come esempio Reddit e 4chan). Ma scendere ulteriormente ed andare oltre, è possibile. Quando nemmeno il comune browser è sufficiente, e servono altri strumenti, vuol dire che hai varcato la soglia e sei sceso nel livello successivo, il Dark Web.
E poi? Posso "scendere" ancora?
Certamente si, perché non finisce mica qui, abbiamo appena incominciato. Nel prossimo articolo scenderò più a fondo e cercherò di spiegarti meglio il concetto di Dark Web, ovvero il livello immediatamente successivo al Deep Web.
Stay Turned, sto arrivando.