La fraude en ligne, entre enjeux économiques et défis technologiques :
Quand on parle de fraude sur un site web, on a tendance à penser directement aux paiements en ligne. Or, il existe plusieurs utilisations possibles et frauduleuses d’un site web qui sont toutes aussi dangereuses et qui engrangent d’énormes pertes aux professionnels du web. Ces fraudes sont de nos jours automatisées au travers de robots qu’on appelle bots (malveillants) qui peuvent effectuer plusieurs actions sur un site internet.
Scrapers:
Le vol de contenu est la fraude la plus commune aujourd’hui.
Selon les dernières estimations, chaque année le vol de contenu s’élèverait aux environs de 3 milliards de dollars. En effet le contenu d’un site web est ce qui fait sa renommée. De plus, avec la digitalisation de la société, la création de contenu est devenue un véritable fond de commerce. La vente d’information est désormais numérisée, ce qui expose grandement les entreprises spécialisées dans ce domaine au risque de scrapping sur leurs plateformes. A titre d’exemple, les sites qui publient en continu les prix des matières premières, les sites sur l’actualité juridique, ou encore les plateformes qui proposent des analyses détaillées sur les marchés financiers sont des cibles faciles. En somme, tous ceux dont le contenu représente l’activité principale, c’est pour cela qu’ils veulent à tout prix préserver la propriété intellectuelle sur leur bien. Ce bien qui est parfois aussi facile à voler que de faire un “copier-coller”.
Ce genre de fraude a des conséquences très néfastes qui ne se voient pas de prime abord. En effet, hormis le fait que le contenu volé soit utilisé par un autre pour faire généralement de l’ombre au site en question et ainsi récupérer ses clients(visiteurs), la réputation du site se trouve entachée, et les visiteurs deviennent alors réticents pour confier leurs informations personnelles.
Spammers :
Les spammers sont des bots qui, généralement, essayent d’infiltrer l’espace membre d’un site. Ceci dans le but d’accéder à la rubrique commentaire ou au forum du site afin de poster des messages ou diffuser des liens de redirection vers un autre site concurrent, des liens publicitaires, ou même des liens vers des logiciels malveillants ou des escroqueries.
Trafic infecté et analyse faussée :
Les bots malveillants sont aujourd’hui programmés pour parcourir tout genre de sites en effectuant une quantité phénoménale de requêtes, ce qui non seulement nuit au bon fonctionnement du trafic et le ralentit, mais entraine une perte d’argent colossale par la même occasion. Toute requête égalant un coût, le site ciblé finance ses propres fraudeurs. Autrement dit, le traitement du trafic généré par ces bots consomme des ressources supplémentaires dans le cloud, d’où la nécessité d’investir plus dans les solutions d’hébergement comme Aws cloud ou Azure.
En outre, l’analyse du trafic d’un site sert généralement à améliorer les services proposés et à mieux comprendre les attentes des utilisateurs. Dans le cas d’un trafic partiellement ou majoritairement infecté par des bots malveillants, l’analyse peut être erronée et le site perdra en attractivité.
Fraude en ligne à la carte bancaire :
La fraude à la carte bancaire est le fléau du siècle actuel. Le montant des pertes causées par ce type de fraude ne cesse de croitre. En 2019, il était estimé à plus de 35 milliards de dollars dans le monde. Ce chiffre illustre le fait qu’elle est une des plus difficiles à contrer, et qu’elle ne vise pas un domaine en particulier. Elle est complètement aléatoire, tous les professionnels du web qui ont recourt aux paiements en ligne peuvent être visés à tout moment. D’autant plus que les bénéfices qu’en tirent les fraudeurs les poussent à faire toujours preuves d’ingéniosité pour arriver à leurs fins.
Les techniques pour lutter contre la fraude en ligne :
Le marché de la lutte contre la fraude en ligne est en constante évolution. Les entreprises concernées y consacrent une grande importance et un budget conséquent.
Il existe plusieurs techniques pour lutter contre la fraude en ligne ainsi que plusieurs outils à cet effet qui permettent de détecter les fraudeurs en ligne et de les bannir. Le but étant le même, cela dit la manière de faire diffère d’un outil à un autre, même si tous se basent sur l’un de ces principes :
Le moteur de règles
Cette technique consiste, comme son nom l’indique, à définir un ensemble de règles qui vont déterminer si un utilisateur est frauduleux ou pas.
Les modèles basés sur des règles génèrent un score final selon lequel le site va valider ou bannir l’utilisateur en question.
Ce score est obtenu en additionnant le résultat des règles énoncées. Prenons cet exemple : si le compte client date de plus 6 mois, cela correspond à -500 points, et +400 points si l’adresse IP correspond à un serveur proxy. Dans notre cas, plus le score est élevé plus l’utilisateur est susceptible d’être un fraudeur. A la fin, la décision de bannir ou valider dépend de la barre de points établie.
Ce genre de modèle est particulièrement efficace pour des cas de fraudes simplistes. Cela dit, ce système est plutôt facile à déjouer par les fraudeurs aujourd’hui qui s’assurent de pouvoir se conformer à toutes les règles possibles afin de ne pas être détectés.
En d’autres termes les moteurs de règles semblent insuffisants face à la créativité des fraudeurs actuels, d’où la nécessité d’introduire de nouveaux modèles plus performants.
Rôle du machine learning dans la lutte contre la fraude en ligne :
L’utilisation du machine learning dans le domaine de la lutte contre la fraude est devenu une évidence. La plupart des outils en ligne l’emploient. Explications :
Cela consiste à entrainer des algorithmes d’apprentissage à travers une grande quantité de données traitées au préalable afin de générer des modèles capables de prédire en temps réel si un utilisateur est frauduleux ou non.
Ces modèles représentent effectivement un énorme avantage par rapport aux moteurs de règles, car ils permettent d’identifier les corrélations cachées dans les données, et détectent automatiquement les scénarios possibles de fraude.
Il y a plusieurs étapes durant l’élaboration d’un modèle basé sur le ML, l’une des plus importante est évidement la récolte de données pour entrainer l’algorithme.
Il existe de nombreuses plateformes qui proposent des dataset afin d’entrainer des algorithmes. Cela dit, afin de mieux détecter les fraudeurs, il faut personnaliser au maximum le modèle au site cible. Autrement dit, utiliser une base de données spécifique au site qui comprend plusieurs données techniques (adresses IP, dates de connexion, requêtes, parcours…). Plus la base de données est riche et diversifiée plus le modèle final généré sera précis.
En somme, les détecteurs disponibles en ligne ont à peu près le même schéma de fonctionnement.
Un site client souscrit un abonnement, celui-ci doit fournir une base de données des logs comportant les données techniques de ses visiteurs.
L’outil va ensuite entrainer un modèle personnalisé au client et le déployer de sorte que le site client va pouvoir l’utiliser comme une API à chaque requête d’un visiteur.
Cette solution repose clairement sur les données fournies par le site client.
La solution CloudFilt : ou comment combiner les moteurs de règles et le ML :
Il est clair que la détection de fraude est un réel défi technologique.
Le machine learning est certainement le moyen le plus efficace pour lutter contre cette fraude, c’est pour cela qu’il faut optimiser au maximum les modèles de détection générés.
Cela passe évidemment par le traitement de la base de données pour entrainer le modèle.
A ce propos une solution est proposée par CloudFilt, une plateforme qui protège contre les bots malveillants.
Grace à l’analyse des requêtes clients en front et en back, une dataset pertinente est construite en procédant par filtrage ; on ne garde que les données utiles et susceptibles d’être des données discriminatoires entre un utilisateur frauduleux et un autre qui ne l’est pas, pour ensuite l’enrichir au travers d’autres données techniques qui représentent l’intention du visiteur comme l’utilisation d’un serveur proxy ou bien Tor, en détectant également la localisation de chaque utilisateur par l’adresse IP et bien plus encore….
Cette dataset sera constamment mise à jour afin de combler un maximum de scénarios possibles.
Pour renforcer encore plus la sécurité et prévoir des scénarios indétectables ou du moins pas encore détectables par notre modèle en ML, nous avons opté pour la combinaison d’un moteur et un moteur de règles basé sur l’analyse du comportement du visiteur.
En d’autres termes, nous analysons comment interagissent les visiteurs au travers de plusieurs critères :
La durée d’une session :
Une session se termine lorsque le visiteur reste inactif pendant une durée déterminée.
Le temps de connexion final va nous permettre ainsi de savoir si un visiteur est resté longtemps, ce qui correspondrait à un comportement inhumain.
La vitesse des requêtes :
Dans chaque session, un visiteur effectue un nombre de requêtes.
La vitesse de ces requêtes est un bon indicateur sur la crédibilité de l’utilisateur.
La Moyenne de requêtes par page :
Dans un site web classique, le parcours d’un visiteur est assez imprévisible parfois. Néanmoins, un visiteur exécute un nombre donné de requêtes sur chaque page. Le fait d’effectuer un grand nombre de requêtes sur une seule page serait alors considéré comme un comportement suspect.
La similarité dans les dates de connexion :
Les bots sont généralement programmés pour se connecter à une heure précise. CloudFilt inspecte alors s’il y a des similarités entre les dates de début de session d’un même visiteur.
Le fait de combiner les moteurs de règles et les modèles en ML semblent donner des résultats très prometteurs qui permettent de filtrer un maximum de fraudeurs sans bannir des faux positifs. Grâce à l’accès direct aux logs, la détection se perfectionne de plus en plus couvrant ainsi maints scénarios possibles.