Quelle technologie de mesure de statistiques choisir ?

 

scale 

Outil de log serveur ? Outil d'analyse des tags ? Packet sniffing ?

Ce dossier vous présente les différentes solutions techniques du marché, leurs avantages et inconvénients.

Introduction

On s'étonne parfois de voir que deux outils de statistiques donnent des
résultats allant du simple au triple. Pour comprendre cette différence
il faut comprendre que tout réside dans la méthode de calcul des
visites des pages. Cette méthode diffère selon la technologie utilisée.

On distingue 3 moyens pour pouvoir étudier les visites sur un site internet : il suffit, sur le principe, d'observer l'activité à un endroit donné. Ainsi, on peut se situer au niveau du serveur (poste qui héberge le site web), au niveau du client (internaute) et au niveau du réseau.

Nous verrons chacun de ces cas de figures en explicitant les avantages et les inconvénients.

1/ Au niveau du serveur (système de log)

Historiquement, c'est le premier système d'analyse des statistiques des
sites; apparu dans les années 90, cette technologie était adaptée à
l'époque.

Sur le serveur s'installe un outil qui va étudier l'activité du serveur
et plus précisément du log serveur : il s'agit du journal des
connexions, généré par Apache, contenu dans un fichier (qui peut être
ouvert par un simple éditeur de texte). Ce fichier va inscrire
différents éléments : adresse IP, date de connexion, élément appelé,...

Lorsque l'analyse de fréquentation utilise le système des logs, on
utilise la notion de hit. On parle de hit lorsqu'il est fait un appel
sur le serveur: on sait qu'une page est constituée de différents
éléments : page html, feuille de style, fichier Javascript, images,... Chacun de ces éléments va être comptabilisé chaque fois comme un hit.

NOMBRE DE HITS ≠ NOMBRE DE VISITEURS

Prenons un exemple :

Un internaute visite une page composée de 3 éléments (1 fichier html, 2 images)
Nombre de hits = 3
Nombre de visiteurs = 1

Si maintenant chaque page contient un nombre d'éléments différents (ce qui arrive dans 99% des cas), il est impossible de tirer une information pertinente du seul indicateur de hit.

L’extraction des logs se base essentiellement sur l’analyse des
adresses IP se connectant au site. L’utilisation d’un router implique
que derrière 100 personnes connectées il n’y a, en fait, qu'une adresse
IP reconnue par l’analyse des logs.

Avantages Inconvénients

  • outil installé par défaut chez la plupart des hébergeurs

  • précision du nombre de téléchargement pour un fichier

  • précision de la bande passante utilisée

  • solution peu coûteuse

  • l'historique peut facilement être conservé et consulté

  • pas d'inquiétude quant aux firewall

  • détection immédiate des erreurs sur les pages
  • surveillance aisée des robots

  • les fichiers logs sont sur la proprié du responsable du site



mémoire cache des serveurs proxy et des navigateurs


multiplicité des serveurs (cluster)



adresses IP dynamiques



frames HTML



trafic artificiel généré par les robots et les outils de monitoring



format des informations statistiques difficilement lisible



pour les sites qui ont beaucoup de trafic, les fichiers Log sont plus lourds et plus compliqués.

 

2/ Au niveau du client (système de Tag)

Ce système aborde une approche différente car elle ne se concentre pas
sur le serveur mais sur l'utilisateur. Un code à insérer sur toute les
pages du site va servir de marqueur. Lorsque la page sera chargée, elle
envoie des informations sur la navigation de l'internaute.

L’analyse des Tags se base sur l’analyse des IP ainsi que sur
l’utilisation de cookies, installés dans le navigateur de chaque
ordinateur qui se connecte à un site. Par conséquent les firewall ne
sont pas pris en considération et ne gênent pas le tracking.

 

Avantages Inconvénients

pas de problèmes de proxy

informations sur la configuration matérielle des internautes

suivi du tracking en quasi temps réel

utilisation de cookies permettant d’analyser les visiteurs uniques sur l’ensemble des sites : « audience transversale »

les
données résultant d’une analyse par Tag sont lisibles et exploitables
au travers d’une console de consultation rapide et simple.

les tags ne peuvent pas être exécutés par les robots

certains firewall peuvent restreindre l'application

difficulté d'analyser les erreurs sur les pages



 

3/ Au niveau du réseau (packet sniffing)

Cette technologie est apparue vers 1996 mais n'a pas été reprise par
les acteurs du web analytique. Jugée comme coûteuse et peu fiable, elle
a vite été abandonnée.

Le principe était de surveiller le réseau et plus précisément les connexions entre le serveurs web et la machine client.

Avantages Inconvénients
surveillance possible des 'retour arrière' et des 'stop' lors de la navigation

surveillance de la vitesse de téléchargement des pages

surveillance des pages téléchargées incomplètes

peu paramétrable

peu de fiabilité

coût important

difficulté de déploiement

4/ Conclusion

On remarque que suivant les besoins de chacun on peut opter pour l'une
ou l'autre des solutions. L'enjeu est de choisir une technologie
adaptée au service recherché.

Pour connaître les différents outils disponibles, visitez la section des tests d'outils.

Découvrir les autres dossiers du web analytique.