Article invité | Image par www_slon_pics de Pixabay

Qu’est-ce qu’une anomalie ?

Assez simplement, c’est une valeur anormale dans un ensemble de données.

Comment trouver une anomalie ?

Il existe plusieurs moyens de détecter des anomalies. En voici une présentation, de la plus simple à la plus complexe :

Grâce à des règles simples : Comme la détection par seuil. Vous prenez une suite de chiffres (comme le nombre d’impressions) et vous décidez arbitrairement un seuil à partir duquel vous déclenchez une anomalie. Cette méthode a pour avantage d’être rapidement mise en place, mais n’est pas facilement applicable sur des données que l’on qualifie de saisonnières (variation selon l’heure de la journée, selon le jour de la semaine…).

Utiliser des règles de mathématiques simples : Se baser sur des règles mathématiques simples comme la moyenne et l’écart-type. La moyenne est un outil de calcul permettant de résumer une liste de valeurs numériques en un seul nombre réel. L’écart-type est une mesure de la dispersion des valeurs d’un échantillon statistique ou d’une distribution de probabilité.

Exploiter les lois de probabilités :

Utiliser des lois de probabilité sur des échantillons qu’on considéra comme statistiques. Une loi de probabilité décrit le comportement aléatoire d’un phénomène dépendant du hasard. Il existe beaucoup de lois de probabilité (Loi de poisson, Loi normale, Loi binomiale négative) et elles sont un bon entre-deux pour analyser des événements aléatoires sur des séries discrètes continues.  

Utiliser des algorithmes

Les algorithmes de machine learning ou de deep learning qui vont s’adapter en fonction de la saisonnalité et de votre donnée. Ils sont plus délicats à utiliser, car ils requièrent des connaissances poussées en algorithme et un très gros volume de données.

Image par Free-Photos de Pixabay

Exemple d’utilisation d’une loi de probabilité : 

Pour cet article d’introduction, nous couvrirons seulement la loi normale. En effet, elle permet une assez bonne approche pour la détection d’anomalies et est, dans beaucoup de cas, la base pour les algorithmes de deep learning de prédictions.

Loi normale

Définition de la loi normale : La loi normale intervient dans l’étude de phénomènes quantitatifs aléatoires continus soumis à de multiples causes (aucune d’entre elles n’étant prépondérante), agissant additivement et indépendamment l’une de l’autre et dont la répartition des valeurs s’étale autour de leur moyenne.

Utilisation : Cette loi va nous permettre de détecter une anomalie dans le nombre d’impressions faites par notre compte Google Ads. Nous allons étudier le nombre d’impressions heures par heures pour apporter un volume de données suffisant.

Pour ce faire, nous générons un rapport avec Google Ads sur les 30 derniers jours. Puis nous calculons la moyenne et l’écart-type pour l’ensemble de nos données nécessaires à l’application de notre loi de Poisson. Enfin, nous appliquons la loi normale pour obtenir la probabilité cumulée P de chacune de nos valeurs d’impressions. 

Lorsque nous avons P, nous définissons la règle de détection suivante : 

Si P > 0.995 ou inférieur à P < 0.005, alors nous décidons que c’est une anomalie. La définition des seuils de P est arbitraire, plus vous vous rapprochez de 0,1 ou de 0,9, plus vous allez qualifier l’événement de rare.

Ressource : Vous pouvez retrouver le Google Sheet que nous avons utilisé pour trouver les anomalies dans nos impressions ici.


Pour conclure :

Chaque méthode pour définir une anomalie est propre à chaque cas d’utilisation. Un seuil peut suffire sur des données simples. Mais il peut être nécessaire d’utiliser des lois de probabilité voire des algorithmes pour trouver les anomalies les plus complexes.

Il existe aussi des solutions no-code qui vous fourniront une interface graphique pour utiliser des algorithmes simple ou plus complexe tels que catchr.io. Vous pourrez alors choisir visuellement les métriques que vous souhaitez analyser et surtout avoir des retours en temps réel sur ce qui se passe sur vos comptes marketings. Vous évitez ainsi d’avoir à étudier les rapports fournis par les différents outils marketings.