Une longueur d'avance sur les cambrioleurs

Une nouvelle méthode de machine learning développée par des scientifiques de l'ETH permet de prévoir les cambriolages même dans les zones peu peuplées.

Intrusions
Différentes variables telles que le moment de la journée, le lieu, la densité de population aident à estimer qu'une parcelle de terrain donnée présente ou non un risque de cambriolage à un moment donné. (Image : ETH Zurich)

Les cambriolages ne se produisent pas partout et à tout moment. Il existe des communes, des quartiers et des rues ainsi que des périodes de l'année et de la journée où le risque est plus ou moins élevé. A partir des statistiques sur les cambriolages, le machine learning permet d'identifier des modèles et de prédire le risque de cambriolage à un endroit donné. Les programmes informatiques peuvent donc aider la police à identifier pour chaque jour ce que l'on appelle les hotspots - les lieux où le risque de cambriolage est particulièrement élevé - et à déployer des patrouilles en conséquence.

Le déséquilibre rend l'apprentissage difficile

Mais jusqu'à présent, de tels systèmes d'alerte ne fonctionnent que dans les zones densément peuplées, c'est-à-dire principalement dans les villes. En effet, pour pouvoir reconna?tre des modèles, les programmes informatiques ont besoin de suffisamment de données. Dans les zones rurales peu peuplées, les incidents criminels sont plus rares. Dans les statistiques, on parle d'un "déséquilibre de classe". Concrètement, cela signifie que pour un tron?on de route avec cambriolage, il y en a quelques centaines, voire 1000 sans.

Les algorithmes travaillent en parallèle

Cristina Kadar est informaticienne et doctorante au Département management, technologie et économie. Elle a développé une méthode qui permet de faire des prévisions fiables malgré des données inégalement réparties. Elle vient de présenter son travail dans la revue spécialisée page externeSystèmes d'aide à la décision avant. La chercheuse a testé de nombreuses méthodes d'apprentissage automatique sur un grand ensemble de données de cambriolages dans le canton d'Argovie, les a combinées entre elles et a comparé les taux de réussite. La méthode qui s'est révélée la plus précise est celle qui utilise l'intelligence de groupe et combine les analyses de différents algorithmes.

Dans l'apprentissage automatique, un algorithme s'entra?ne lui-même à classer correctement les données à l'aide de grands ensembles de données. Dans l'exemple actuel, il apprend, à partir de variables telles que le moment de la journée, le lieu, la densité de population et bien d'autres, à classer une parcelle de terrain donnée comme présentant un risque de cambriolage ou non à une heure donnée.

Le défi consistait à pouvoir entra?ner les algorithmes de classification malgré le faible nombre de cas de cambriolage dans le jeu de données. Pour ce faire, Kadar a traité le jeu de données : Des unités sans effractions ont été éliminées de manière aléatoire jusqu'à ce que les unités avec et sans effractions s'équilibrent. Cette méthode statistique s'appelle "Random Undersampling". Avec ce jeu de données réduit, Kadar a entra?né en parallèle de nombreux algorithmes de classification. Leurs prédictions agrégées ont permis de prédire les cambriolages. Kadar a utilisé comme unité de données des parcelles de 200 mètres par 200 mètres à une date donnée.

Alors que les systèmes d'alerte traditionnels utilisent surtout des données sur les cambriolages, Kadar a en outre alimenté les algorithmes de classification avec des données agrégées impersonnelles sur la population, par exemple sur la densité de la population.la densité de population, la structure d'?ge, le type de construction, l'infrastructure (présence d'écoles, de postes de police, d'h?pitaux, de routes), la proximité des frontières nationales ou avec des données temporelles comme les jours de la semaine, les jours fériés, la lumière du jour et même les phases de la lune.

Taux de réussite meilleur que dans les villes

Gr?ce à sa nouvelle méthode, Kadar a pu améliorer considérablement le taux de réussite par rapport aux méthodes traditionnelles. Elle a laissé l'ordinateur prédire, gr?ce à sa méthode, où des cambriolages se produiraient probablement sur le territoire du canton (hotspots). La vérification a montré qu'environ 60% des cambriolages effectifs ont eu lieu dans les hotspots prédits. En comparaison, si les hotspots ont été prédits avec la méthode traditionnelle utilisée par la police, seuls 53 pour cent des cambriolages effectifs ont eu lieu dans la région prédite. "Avec des données inégalement réparties, cette méthode obtient des taux de réussite au moins aussi bons et parfois meilleurs que les méthodes traditionnelles dans les zones urbaines, où les données sont plus denses et en outre réparties plus uniformément", explique Kadar.

Ces connaissances sont utiles en premier lieu à la police. La méthode permet de prédire les régions et les périodes où le risque de cambriolage est plus élevé, même dans les zones moins densément peuplées. Mais il serait également envisageable d'utiliser la méthode pour prédire d'autres risques : Les risques sanitaires par exemple ou la probabilité d'appels d'urgence des ambulances. Le secteur de l'immobilier pourrait également utiliser cette méthode pour prévoir l'évolution des prix de l'immobilier en fonction de facteurs spatiaux.

Référence bibliographique

Kadar C, Maculan R, Feuerriegel S : Aide à la décision publique pour les zones à faible densité de population : un hyper-ensemble imbalance-aware pour la prédiction spatio-temporelle des crimes. Decision Support Systems, 2019, doi : page externe10.1016/j.dss.2019.03.001

JavaScript a été désactivé sur votre navigateur.