03 - Termini tecnici generali di riferimento
di Michele Diodati, 03 Dicembre 2002
L'articolo proviene da Diodati.org ed è stato riprodotto per gentile concessione dell'autore.
- Caching
- Cookie
- DHCP, Dynamic Host Configuration Protocol
- DNS, domain name system
- IP address (indirizzo IP)
- Log file (file di registro)
- NAT, Network Address Translation
- Proxy server
- Redirect (reindirizzamento)
- Reverse DNS lookup
- Spider, o crawler o web bot
- Session timeout
- URL, Uniform Resource Locator
Caching
È l'operazione eseguita da un server (un proxy, ad esempio) o da un computer cliente,
consistente nel memorizzare una copia locale di una risorsa recuperata da
Internet, con lo scopo di servire all'utente che ne fa richiesta quella copia
locale, in luogo del documento originale presente su Internet.
L'attività di caching può contribuire a falsare
in notevole misura laveridicità dei dati di traffico rilevati
dai log file di un server web. (Secondo Martin
Filz di Red Sheriff, la percentuale delle page view mancanti,
dovuta all'attività di caching, può raggiungere il
60% del traffico totale che interessa un sito.) È possibile però prevenire
questa perdita di traffico, inserendo nel codice delle pagine del sito sottoposto
a rilevazione statistica un comando che, definendo la scadenza immediata
della validità di ogni pagina, costringa l'utente interessato a collegarsi
effettivamente alla risorsa richiesta, non potendola più recuperare
dalla cache. Questa soluzione ha però degli svantaggi: in
primo luogo una maggiore occupazione di banda, in secondo luogo un'attesa
più lunga per il caricamento delle pagine (rispetto all'attesa per
quelle recuperate direttamente dalla memoria del proxy) da parte
dell'utente, il quale potrebbe essere negativamente influenzato - per quanto
riguarda future visite - da un simile inconveniente.
Cookie
Letteralmente "biscotto". Si tratta di un file di testo che viene generato dal browser dell'utente in seguito ad un messaggio inviato dal server web in risposta alla richiesta di collegamento ricevuta. Il cookie viene memorizzato sul computer cliente. Esso contiene delle informazioni che identificano univocamente quell'utente rispetto al sito Internet che lo ha generato. Ad ogni successiva connessione, il server web richiederà al browser il cookie precedentemente memorizzato. Se questo viene trovato, il server potrà utilizzare le informazioni in esso contenute per vari scopi:
- per offrire contenuti personalizzati a quell'utente (ad esempio una pagina di benvenuto con il suo nome);
- per tracciare dei profili di comportamento basati sui percorsi di navigazione seguiti nel corso delle visite effettuate al sito;
- per aggiornare le statistiche che registrano le visite ricevute da utenti unici.
Tutte le rilevazioni statistiche di traffico-web originate dall'uso di cookie sono soggette principalmente a due variabili: a) che l'utente collegato abbia abilitato nel proprio browser il supporto per i cookie; b) che effettui i successivi collegamenti per mezzo dello stesso browser.
DHCP, Dynamic Host Configuration Protocol
È un protocollo di comunicazione che, installato su un server di
rete, consente di governare automaticamente e centralmente l'assegnazione
degli indirizzi IP a ciascuna macchina connessa
ad Internet all'interno della rete. DHCP è in grado sia di assegnare
IP statici, cioè indirizzi sempre uguali nel tempo, sia IP dinamici,
cioè indirizzi con scadenza a breve termine (generalmente la durata
di una sessione di connessione ad Internet). L'uso di DHCP con assegnazione
di IP dinamici è particolarmente utile per quegli enti, quali università e
provider, che hanno a disposizione un numero di indirizzi IP da distribuire inferiore al
numero delle macchine che potenzialmente possono accedere ad Internet tramite
i loro server.
Il fatto che moltissimi utenti si colleghino alla Rete per mezzo di IP dinamici
ricevuti automaticamente via server DHCP è un'ulteriore fonte
di incertezza per le rilevazioni statistiche del traffico generato da
un sito. Infatti l'indirizzo IP soggetto ad assegnazione dinamica è un'informazione
insufficiente per identificare nel tempo in modo non ambiguo un singolo visitatore
del sito (lo stesso IP potrebbe essere assegnato in successione ad x utenti
di una stessa rete).
DNS, domain name system
È il sistema che traduce i nomi di dominio in indirizzi IP. Un nome di dominio è un nome letterale, associato in modo univoco ad un indirizzo IP numerico, per identificare una risorsa su Internet. Ogni volta che un utente invia tramite il proprio browser una richiesta di collegamento specificando un nome di dominio (ad es. www.diodati.org), il server DNS competente intercetta la richiesta e trasforma la stringa letterale nel corrispondente indirizzo IP. Se quest'ultimo non è contenuto nella propria tabella di corrispondenze, la richiesta viene inoltrata ad un altro server DNS, e così via finché il nome letterale non viene risolto nella stringa numerica corrispondente. A questo punto, tutti i DNS interpellati si aggiornano automaticamente, inserendo nei rispettivi database la nuova corrispondenza trovata. Questo sistema di chiamate e aggiornamenti incrociati tra una serie di server DNS decentrati è più veloce, pratico e sicuro di un sistema basato su un unico server DNS centralizzato.
IP address (indirizzo IP)
La sigla IP sta per Internet Protocol. È un numero di 32 bit che rappresenta univocamente ogni mittente o ricevente di pacchetti di dati attraverso Internet. Nella sua forma più comune l'IP address è espresso come una serie di quattro numeri, separati tra loro da un punto. Ognuno dei quattro numeri può variare (con alcune limitazioni) tra 0 e 255. Qualsiasi comunicazione che avviene su reti appartenenti ad Internet deve comprendere necessariamente l'indirizzo IP del mittente e quello del destinatario, allo scopo di poter essere istradata correttamente.
Log file (file di registro)
Buona parte delle rilevazioni statistiche sul traffico generato dai siti
Internet sono effettuate da programmi che analizzano e presentano, in forma
comprensibile al lettore umano, i dati memorizzati momento per momento dai
server web nei propri file di log.
Usati originariamente come fonte primaria di informazioni per determinare i
carichi di lavoro dei server e studiare possibili migliorie nella distribuzione
di quei carichi, oggi i dati ricavati dai file di registro sono considerati
principalmente come strumenti commerciali, cioè:
- come informazioni sul successo di un sito Internet o di una sua parte,
- come mezzi per conoscere abitudini e preferenze di navigazione degli utenti che si collegano ad un sito,
- come credenziali per vendere servizi (ad esempio spazi pubblicitari).
È importante però tener presente che i dati ricavati dall'analisi
dei log non sono altro che registrazioni dell'attività del
server web e, solo in modo indiretto e con molta cautela, possono essere
considerati strumenti per conoscere il numero degli utenti collegati e le
loro abitudini di navigazione. Su questo equivoco poggiano molte
cattive interpretazioni dei dati di traffico generati dai server web.
I file di log possono assumere, a seconda dei sistemi, nomi e struttura
differenti. Pur nella variabilità delle configurazioni, possiamo suddividere
comunque i file di registro in quattro categorie principali:
- Transfer (o access) log - Registra tutte le richieste di trasferimento file pervenute ad un server tramite protocollo HTTP dagli utenti collegati via Internet. I dati in esso raccolti sono una buona misura del carico di lavoro a cui è sottoposto un server web.
- Error log - Memorizza tutte le richieste HTTP che non hanno prodotto il risultato atteso dall'utente. Rientrano in questa categoria il ben noto errore "404 File not found’", gli errori di timeout (= scadenza del tempo di attesa), le connessioni rifiutate, quelle interrotte, i messaggi di server "too busy" (= troppo occupato), ed altri ancora. L'analisi degli errori riportati in questo file di registro è utile per correggere possibili squilibri nella struttura di un sito, per scoprire la presenza di collegamenti interrotti, per verificare se la potenza di elaborazione della CPU o la banda di connessione ad Internet siano sufficienti rispetto al volume di traffico generato.
- Referrer log - Tiene traccia della provenienza delle richieste di trasferimento di file ricevute dal server. È in genere meno usato dei due log precedenti.
- Agent (o user agent) log -
Registra il tipo di software che invia una richiesta HTTP al server web.
Le informazioni fornite da questo file di registro riguardano il tipo e
la versione di browser utilizzato dall'utente, il sistema operativo usato,
la risoluzione video. Altri dati importanti sono quelli relativi agli accessi
effettuati da spider e robot utilizzati
da motori di ricerca per indicizzare le pagine di un sito (se
ne conoscono oltre una ventina).
Va detto a questo proposito che le visite effettuate dai software di indicizzazione dei motori di ricerca dovrebbero essere sottratte al numero complessivo di visite al sito risultante dai file di registro. Questo è un altro degli equivoci che possono nascere da un esame superficiale dei dati di traffico forniti dai file di log.
NAT, Network Address Translation
Letteralmente: traslazione dell'indirizzo di rete. È un meccanismo che consente, tramite appositi sistemi hardware e software, di far corrispondere una serie di indirizzi IP usati solo in rete locale ad una serie, generalmente meno numerosa, di indirizzi IP pubblici. Si ottengono così molteplici vantaggi:
- l'uso in rete locale di indirizzi IP già assegnati su Internet (la cosa non crea conflitto per il fatto, appunto, che tali IP sono usati solo per identificare i computer all'interno di una LAN);
- la possibilità di mascherare l'IP delle singole macchine agli utenti esterni, i quali "vedono" unicamente gli IP pubblici attribuiti al gateway di rete (in questo senso il natting, interponendosi tra l'interno e l'esterno della rete locale agisce anche da firewall)
- la possibilità di gestire in concreto una quantità di IP maggiore di quelli che sono stati acquistati come IP pubblici
L'uso di questa traslazione degli indirizzi IP da parte di molte reti rappresenta una perdita d'informazioni per la rilevazione statistica degli accessi ad un sito. Se, infatti, non si dispone della tabella di traduzione usata da un server NAT, non è possibile sapere se le richieste giunte da un certo IP fanno capo ad una o più macchine, né tantomeno a quali.
Proxyserver
È un server che agisce da filtro tra le richieste di connessione a siti Internet, provenienti in genere dall'interno della rete LAN o WAN a cui il proxy appartiene, ed i siti stessi. La richiesta di accedere ad una risorsa su Internet, proveniente da un computer appartenente ad una LAN o ad una WAN, viene intercettata dal proxy di rete in modo del tutto trasparente per l'utente. Se la pagina richiesta non è presente nella cache (= memoria tampone) del proxy, la richiesta viene inoltrata al sito che ospita la risorsa, così da recuperare la pagina ed inviarla all'utente. Se, viceversa, la pagina è già presente nella cache del proxy, questa viene inoltrata direttamente all'utente, senza che occorra inviare alcuna richiesta al sito Internet che ospita la risorsa. L'uso di un proxy server fornisce essenzialmente due vantaggi:
- La possibilità di filtrare le richieste provenienti dall'interno della propria rete, in modo da evitare, ad esempio, di soddisfare le richieste di connessione a determinati siti proibiti dalle regole aziendali.
- La possibilità di aumentare notevolmente le prestazioni, risparmiando tempo e banda di connessione: ciò avviene quando una stessa pagina, già presente nella cache del proxy, viene richiesta da più utenti e quindi inviata loro direttamente dal proxy stesso, che evita così di connettersi nuovamente al server remoto che ospita la risorsa.
Come si può comprendere, il fatto che molti accessi ad un sito provengano
da proxy di reti più o meno ampie può falsare
grandemente la valutazione del numero di pagine effettivamente viste
(page views), numero che potrebbe essere ben superiore a quello
rilevato tramite l'analisi dei
Redirect(reindirizzamento)
È un meccanismo per mezzo del quale un utente che ha richiesto di collegarsi ad un certo indirizzo Internet viene reindirizzato automaticamente ad un indirizzo differente. Capita spesso, così, che una medesima pagina web possa essere raggiunta, in virtù di appositi reindirizzamenti, da un certo numero di indirizzi diversi. Ai fini della rilevazione del numero effettivo di page view ottenuto in un certo periodo, occorre perciò tenere conto di tutti i redirect effettuati dal web server nel periodo considerato.
Reverse DNS lookup
Mentre la trasformazione da un indirizzo letterale al corrispondente indirizzo numerico è detta forward DNS lookup, l'operazione contraria - cioè il risalire da un indirizzo IP noto al corrispondente nome di dominio -è detta reverse DNS lookup. Appositi software sono in grado, interrogando dei server DNS, di ottenere il nome di dominio a partire dall'IP numerico. Un sistema di rilevazione dei dati di traffico ha più valore se è in grado di effettuare il reverse DNS lookup, dal momento che per l'interprete umano la lettura di una serie di IP numerici dice poco o nulla, mentre molto più utile risulta la corrispondente serie di indirizzi letterali: solo questa è in grado, infatti, di informare effettivamente gli amministratori di un sito sulla provenienza degli accessi registrati.
Spider, o crawler o web bot
Si tratta di programmi che automaticamente effettuano, in base a determinati
criteri, una serie di richieste di file ad un server web, allo scopo di indicizzare
i contenuti di quel sito per conto di un motore di ricerca.
Le richieste provenienti da spider possono incidere fortemente sulla
rilevazione del traffico generato da un sito. Per tale motivo, gli accessi
prodotti da spider vengono in genere evidenziati dai sistemi di
misurazione statistica, in modo che se ne possa tener conto e non risultino
così falsati i valori relativi alle visite ricevute da parte di utenti
umani.
Sessiontimeout
È la durata massima predefinita di una visita ad un sito da parte
di un utente unico. Non esiste uno standard per questa durata e neppure un
consistente accordo in proposito. La lunghezza di una sessione può variare
da un minimo di 10-15 minuti ad un massimo di un'ora. Nella maggior parte
dei casi essa è impostata su 20 o 30 minuti. Se dura 20 minuti, ciò significa
che ad un utente unico -
riconosciuto come tale perché ha il medesimo indirizzo
IP - vengono attribuite due visite al sito, nel caso in cui una sua richiesta
di pagina giunga oltre 20 minuti dopo la precedente richiesta registrata.
Viceversa, se l'intervallo trascorso tra questi due eventi è inferiore
a 20 minuti, allora viene conteggiata per quell'utente un'unica
visita.
Come è facile comprendere, la durata di sessione è un parametro
del tutto arbitrario, che nulla ha a che vedere con l'effettivo comportamento
degli utenti collegati ad un sito e che può tuttavia influenzare le
valutazioni del settore commerciale di un'azienda, circa la misura della
fedeltà degli utenti ai siti presi in considerazione. Poniamo ad esempio
che un sito, avendo un timeout di sessione impostato su 20 minuti,
registri molte visite di utenti unici nell'arco di un mese di rilevazione:
se ne potrebbe ricavare l'idea che dietro quelle visite ripetute si celino
utenti fidelizzati. Basterebbe però probabilmente aumentare di soli
dieci minuti il timeout di sessione, per scoprire che il numero
di visite al sito da parte di utenti unici è nettamente diminuito!
Ancora una volta è la conoscenza del significato e della reale
portata dei numeri offerti dalle statistiche di traffico che aiuta a
non commettere pericolosi errori di valutazione.
URL, Uniform Resource Locator
È l'indirizzo, unico e inequivocabile, di una risorsa su Internet.
Qualsiasi documento - sia esso un file immagine, un file di testo, una risorsa
multimediale, ecc. - è localizzabile precisamente per mezzo della
URL. Questa comprende:
- una parte relativa al protocollo di comunicazione invocato (es.:
http://); - una parte più generale, che identifica l'host, ovvero
il computer su cui è archiviata la risorsa (es.:
www.diodati.org); - una parte di dettaglio, che specifica il percorso e il nome del file
da recuperare (es.:
/scritti/2002/g_stat/index.htm).
Nel linguaggio tecnico delle Specifiche HTML 4, non si parla più di URL ma di URI (Uniform Resource Identifier = Identificatore Uniforme di Risorsa). Nel linguaggio comune di autori ed appassionati di Internet, però, l'uso della sigla URL è di fatto ancora largamente prevalente.
» Vai alla prossima lezione: Tipi
di informazioni ricavabili dalle statistiche di traffico
» Torna all'indice del corso
al top nei motori






