Par Adrien 8 juin 2021

L’intelligence artificielle appliquée aux données temporelles – Partie 1/2

Nous rencontrons tous les jours des données temporelles dans nos environnements. Ce sont tout simplement des relevés, des mesures d’un même phénomène au cours du temps. Vous les observez au quotidien, et les rencontrerez sans nul doute dans votre environnement professionnel.

Quelles sont leurs spécificités? Comment pouvons-nous les intégrer et les stocker correctement afin d’analyser les comportements passés? Pouvons-nous prévoir le futur?

Nous répondrons à toutes ces questions dans cet article, puis nous présenterons comment l’intelligence artificielle peut s’intégrer et valoriser ces données.

Que sont les données temporelles?

En termes simples, les données temporelles font référence à un flux cohérent d’ensembles de données au cours d’une période donnée. L’analyse de ce type de données est devenue un domaine d’intérêt récent en intelligence artificielle, car des prévisions précises deviennent de plus en plus vitales dans tous les types d’industries afin de prendre des décisions plus éclairées.

Dans un langage plus technique, nous parlons de série chronologique qui sont des flux de données dans un domaine temporel d’un signal particulier, par exemple, votre fréquence cardiaque. Votre rythme cardiaque est un signal unique, avec un flux de données mesurant l’activité de votre fréquence cardiaque sur une période.

Aujourd’hui, pratiquement tous les secteurs peuvent bénéficier de l’intelligence artificielle pour automatiser ces prévisions, des finances aux activités commerciales, en passant par la production et la maintenance.

L’analyse de données temporelles

L’analyse des données temporelles comprend principalement le regroupement, la classification, la détection des anomalies et les prévisions, chacune étant particulièrement utile à l’entreprise.

Le défi du pré-traitement

Les données de séries temporelles sont une forme importante de données indexées, que l’on retrouve dans les marchés boursiers, les ensembles de données climatiques et de nombreux autres formulaires de données dépendant du temps. En raison de cette dépendance, les données temporelles sont susceptibles d’avoir des points manquants en raison de problèmes de lecture ou d’enregistrement des données.

Pour appliquer efficacement des futurs modèles d’intelligence artificielle, les séries de données doivent être continues, car la plupart des modèles IA ne sont pas conçus pour traiter les valeurs manquantes. Par conséquent, les lignes avec des données manquantes doivent être supprimées ou remplies avec les valeurs appropriées.

Une pratique courante consiste à combler les valeurs manquantes avec la valeur moyenne ou la médiane de la série. Cependant, cela n’est pas toujours applicable en fonction des données étudiées. Pour comprendre la raison, considérons un ensemble de données de température. La valeur de la température de février est très éloignée de sa valeur de juillet. Cela s’applique également à l’ensemble de données sur les ventes d’une entreprise qui a certaines saisons avec des ventes élevées et d’autres avec des ventes faibles ou régulières. La méthode d’imputation devrait donc dépendre du temps.

De ce fait, il est préférable d’imputer les valeurs avec la moyenne des heures aux intervalles de chacune des valeurs manquantes ou avec différentes moyennes mobiles quand cela est possible.

Afin de pouvoir mieux tenir compte de la saisonnalité, des imputations par interpolation avec différentes méthodes seront certainement plus adaptées. On parle de méthodes avec différents degrés comme l’interpolation Linéaire, Quadratique, Cubique, Akima, Polynomiale ou encore Spline.

Cependant, il devient compliqué de pouvoir sélectionner la méthode d’imputation la plus efficace du premier coup. Une méthode itérative consiste à isoler la plus grande partie propre de la série temporelle (sans valeur manquante) et de générer un «clone» de cette série en y intégrant de manière aléatoire des valeurs manquantes (5 et 20%). Il est ensuite possible de tester chacune des méthodes d’imputation afin de pouvoir comparer le degré de corrélation des séries imputées pour chaque méthode avec la série propre d’origine pour retenir la méthode la plus efficace.

Identifier les tendances et les saisonnalités

Les données temporelles sont étudiées à la fois pour interpréter un phénomène, identifier les composantes d’une tendance, de la cyclicité, de la saisonnalité et pour prédire ses valeurs futures.

Cela dit, avant de travailler sur la conception et le test de modèles de prévision, il est important de comprendre les étapes de base de l’analyse des données temporelles. En particulier, les étapes suivantes:

  • Analyse des tendances pour déterminer si elle est linéaire ou non, car la plupart des modèles nécessitent cette information comme entrée.
  • Détection des valeurs aberrantes pour comprendre comment les repérer et les gérer.
  • Test de stationnarité pour comprendre si l’on peut supposer, que la série chronologique est stationnaire ou non, de sorte que les données temporelles stationnaires sont plus faciles à prévoir.
  • Analyse de saisonnalité pour déterminer quel est le meilleur paramètre saisonnier à utiliser lors des futures modélisations (saisonnalité hebdomadaire si elle présente des fluctuations tous les sept jours, mensuelle si elle présente des fluctuations tous les 30 jours, etc.).

Sélectionner les bonnes données

La sélection des fonctionnalités est l’une des premières étapes importantes lors de l’exécution de toute tâche d’intelligence artificielle. Une fonctionnalité dans le cas d’un ensemble de données signifie simplement une colonne. Lorsque nous obtenons un ensemble de données, toutes les colonnes (caractéristiques) n’ont pas nécessairement un impact sur la variable de sortie. Si nous ajoutons ces fonctionnalités non-pertinentes dans le modèle, cela ne fera qu’aggraver le modèle. Cela donne lieu à la nécessité de faire la sélection des fonctionnalités.

Avec des données temporelles, la sélection des fonctionnalités peut être effectuée de plusieurs manières, mais il en existe trois principales:

  1. Méthode de filtrage
  2. Méthode d’emballage
  3. Méthode intégrée

Méthode de filtrage

Comme son nom l’indique, cette méthode consiste à filtrer et conserver uniquement le sous-ensemble des fonctionnalités pertinentes. Le filtrage peut être effectué à l’aide d’une matrice de corrélation. D’ailleurs, il est le plus souvent effectué à l’aide de la corrélation de Pearson qui permet de mesurer le degré de corrélation linéaire avec les fonctionnalités.

Méthode d’emballage

Cette méthode nécessite un algorithme d’apprentissage automatique et utilise ses performances comme critère d’évaluation. Cela signifie qu’il faut alimenter les fonctionnalités vers l’algorithme d’apprentissage et, en fonction des performances du modèle, ajouter/supprimer les fonctionnalités. Il s’agit d’un processus itératif et coûteux en calcul, mais il est plus précis que la méthode de filtrage.

Il existe différentes méthodes d’emballage telles que l’élimination vers l’arrière, la sélection vers l’avant, l’élimination bidirectionnelle ou encore la méthode RFE (Recursive Feature Elimination).

Méthode intégrée

Les méthodes intégrées nécessitent également un algorithme d’apprentissage automatique. Ces méthodes sont itératives et permettent à chaque itération du processus de formation du modèle, d’extraire soigneusement les fonctionnalités qui contribuent le plus à la formation pour une itération particulière. Les méthodes de régularisation sont les méthodes intégrées les plus couramment utilisées qui pénalisent une caractéristique en fonction d’un seuil de coefficient, telle que la régularisation Lasso.

Conclusion

Nous nous sommes familiarisés avec différentes méthodes et approches d’analyse de séries temporelle. Malheureusement, ou peut-être heureusement, il n’y a pas de solution miracle pour préparer et analyser les données avant l’étape clé de modélisation. Les méthodes développées dans les dernières années sont toujours populaires aujourd’hui.

Les données historiques ne sont que le point de départ du processus d’apprentissage, c’est pourquoi l’application de l’IA à l’analyse de données temporelles est l’une des innovations récentes les plus passionnantes. Avec la 5G et l’IoT, une multitude de données est sur le point d’être débloquée à travers le monde, et avec l’IA appliquée à ces types de données, des avantages significatifs peuvent être réalisés dans toutes sortes de secteurs verticaux à l’entreprise et pour tous les types d’usage.

Lors de la deuxième partie de cet article, nous parlerons des différents modèles d’intelligence artificielle adaptées aux séries temporelles, nous passerons en revue chaque modèle, détaillerons leurs différences et leurs domaines d’application.

Articles recommandés
Publié le 18 juin 2021

L’intelligence artificielle appliquée aux données temporelles – Partie 2/2

Il existe de nombreuses techniques de prévision de données temporelles, dont certaines sont très simples et d'autres beaucoup plus complexes.

En lire plus
Publié le 3 mars 2021

Google abandonne le support d’AngularJS fin 2021!

Si vos applications utilisent ce framework, il est temps d’envisager une migration rapide du code de vos projets vers Angular.

En lire plus
Partenaires
Rechercher sur le site
Partager sur