Après un rapide rappel des méthodes de prévision utilisées jusqu’à présent, cet article détaille l'utilisation qui peut être faite des processus ARIMA (AutoRegressive Integrated Moving Average) pour la prévision des consommations d’eau journalières. Il met en évidence que de telles méthodes, par leur caractère auto-adaptatif, permettent de reproduire fidèlement l’évolution des consommations, et peuvent donc être utilisées de manière opérationnelle pour la prévision des consommations d’eau.
Les méthodes de prévision des consommations
De nombreuses méthodes, essentiellement statistiques, ont été utilisées jusqu’ici pour prévoir les consommations en eau sur un réseau de distribution.
La plus simple d’entre elles est sans aucun doute celle qui consiste à considérer que la consommation du jour à venir est égale à la consommation du jour écoulé. Cette méthode, pour brutale qu’elle puisse paraître, est parfois suffisante. On a constaté ainsi que sur certains réseaux de la région parisienne, les variations journalières de la consommation sont faibles en période hivernale. Certaines années, les écarts entre les consommations et la moyenne
[Photo : Fig. 1 – Périodogramme des consommations d’eau pour 1988]
de celles-ci sont ainsi inférieurs à 3,6 % dans 90 % des cas ; autant dire que l'utilisation de la consommation écoulée pour la prévision peut alors être considérée comme un bon ordre de grandeur.
La plus lourde des méthodes de prévision (lourde à mettre initialement en œuvre et à utiliser en temps réel) est sans doute l’analyse factorielle de correspondance ; elle permet de décrire l'influence de variables explicatives, ou supposées telles, sur la variable à expliquer (ici la consommation). Les relations existant entre ces variables sont déterminées sur tout l’historique enregistré, et les variables non significatives sont éliminées. Pour ce faire, les valeurs prises par les variables sont réparties en plusieurs groupes (de manière à pouvoir traiter en même temps variables quantitatives et qualitatives), définis pour les variables quantitatives
* Une courbe peut toujours être décomposée en une somme infinie de fonctions périodiques (sinus ou cosinus). Le périodogramme indique les fréquences dominantes dans cette décomposition. Sur la figure, le pic important à la fréquence 0,14 montre que la consommation est formée essentiellement d'un signal de fréquence 0,14, donc d'une sinusoïde de période 7 jours (7 étant l’inverse de 0,14).
[Photo : Fig. 2 : Consommations d’eau observées et calculées.]
[Photo : Fig. 3 : Consommations d’eau observées et calculées.]
par des seuils significatifs. Pour examiner les relations, on construit un tableau de contingence qui consiste à compter combien de fois on a observé, parmi les observations disponibles, chaque modalité des variables explicatives en même temps que chaque modalité de la variable à expliquer. Les méthodes d’analyse factorielle permettent alors de déterminer les variables explicatives à conserver. L’utilisation en temps réel de cette méthode nécessite donc le traitement, à chaque prévision de l’ensemble de l’échantillon (plus grand est cet échantillon, meilleure est d’ailleurs la prévision). Elle demande donc des ressources informatiques puissantes et des temps de calcul importants. Elle a été employée sur de nombreux réseaux de la région parisienne, où les paramètres pris en compte ont été ainsi les températures passée et prévue, l’humidité résiduelle, les données calendaires (jour, mois, vacances, jours fériés, consommation des jours précédents),… Elle est cependant de plus en plus remise en cause par l’importance des moyens nécessaires à sa mise en œuvre.
Entre ces extrêmes se situent les processus ARIMA, présentés ci-après, qui sont facilement utilisables à l’issue d’un calage initial, et prennent en compte les évolutions tant conjoncturelles que structurelles des consommations. Leur construction même permet en effet de corriger rapidement (d’un jour à l’autre) les écarts sur les prévisions, et donc de suivre au mieux ces évolutions.
Les processus ARIMA
Le processus ARIMA est un processus stochastique permettant de reproduire les réalisations d’un échantillon C à partir des réalisations de ce même échantillon à des instants antérieurs, et d’un bruit blanc E. Il peut être considéré comme une généralisation du processus ARMA (AutoRegressive Moving Average), décrit lui-même sous la forme suivante :
P(A) C(i) = Q(A) E(i-1) (1)
où P et Q sont des fonctions polynomiales et A est un opérateur tel que :
A C(i) = C(i-1) et Aⁿ C(i) = C(i-n)
C(i) étant la valeur de la consommation à l’instant i.
Autrement dit, si P et Q, respectivement de degré p et q, sont décrits sous la forme :
P(A) = ∑ Pj A^j et Q(A) = ∑ Qj A^j
la formule (1) peut s’écrire :
∑ Pj C(i-j) = ∑ Qj E(i-j) (2)
Cette formulation (2) permet ainsi de décrire la valeur C(i), à prévoir, sous la forme :
C(i) = ∑ aj C(i-j) + ∑ Bj E(i-j)
Cette description d’un processus ARMA (p,q) peut être généralisée à un processus ARIMA (p,d,q), qui n’est autre qu’un processus ARMA (p,q) appliqué à la variable transformée AᵈC(i) où Aᵈ est l’opérateur dérivé :
ΔC(i) = C(i) − C(i-1)
AᵈC(i) = Δ(Δ(...Δ(C(i))))
Le processus ARMA (p,q) est ainsi un processus ARIMA (p,0,q).
Les paramètres de la méthode, Pj et Qj, se calculent à partir des autocorrélations de la variable étudiée (ici la consommation), en estimant dans un premier temps les paramètres Pj, puis les paramètres Qj.
Le processus ARIMA permet de reproduire les réalisations d’une variable aléatoire à partir des valeurs prises par cette même variable à des instants antérieurs. On obtient donc une description endogène de la consommation, la formulation retenue décrivant le fonctionnement propre de la série étudiée. Dans le cas des consommations en eau, il convient en outre d’étudier l’influence
des paramètres exogènes comme les paramètres climatiques (pluviométrie, température,...) et les paramètres conjoncturels (vacances scolaires, week-ends,...). L'introduction de ces variables peut être réalisée à l’issue de l'analyse décrite ci-dessus, en appliquant la formulation ARIMA à une série corrigée des termes prenant en compte l'environnement. Ce peut être le cas de régressions linéaires sur la température ou la pluviométrie, si ces indicateurs s'avèrent explicatifs. C’est ce que nous allons décrire.
Le cas de Essex Water Company
La société de distribution d'eau britannique Essex Water Company nous a confié le soin de mettre en place un outil temps réel d’aide à la décision pour la définition de la conduite optimale des pompages de manière à minimiser les coûts de production. Pour mettre en œuvre les algorithmes d’optimisation permettant de proposer à l'exploitant une stratégie optimale pour les vingt-quatre heures à venir, il importait d’être en mesure de prévoir la consommation en eau, de manière à ajuster les ressources aux besoins. Le premier pas était donc d’établir une prévision journalière des consommations.
Les données disponibles étaient les suivantes :
- * production journalière de 1986 à 1989,
- * pluviométrie journalière en un poste,
- * températures journalières minimum, maximum et moyenne.
La démarche suivie a été d’examiner l'influence éventuelle des variables exogènes, puis d’explorer le comportement interne de la série.
L’examen des données de pluviométrie a montré qu'il n’existe pas de relation simple entre pluviométrie et consommation. Ce résultat, d’ailleurs constaté généralement, est explicable par le fait que la pluie, ou son absence, n’est pas directement responsable de l’évolution de la consommation, mais bien plutôt sa présence ou son absence pendant une certaine durée, ou au-dessus de certains seuils. Plus que la pluviométrie, c’est l'état d'humidité qui apparaît ainsi plus caractéristique de l’évolution des consommations. En tout état de cause, le paramètre pluviométrie n’a pas été retenu ici dans l’analyse finale. La température moyenne, quant à elle, est apparue corrélée en partie à la consommation. Il apparaît même que ce paramètre explique 20 % de la consommation, puisque le coefficient de corrélation de la régression linéaire température du jour j-1 / consommation du jour j est de 0,2.
L’exploration interne de la série, effectuée pour établir la formulation ARIMA, a donc porté sur la série dite résiduelle :
C’(i) = C(i) – aΘ(i-1) – B
où Θ(i) est la température du jour i, et aΘ(i) + B est la droite de régression définie ci-dessus.
Cette exploration a permis dans un premier temps de mettre en évidence les phénomènes périodiques, qui traduisent les fluctuations cycliques internes à la série. L’établissement des périodogrammes (figure 1) a mis ainsi en évidence une variation périodique de période 7 jours, indiquant le fonctionnement hebdomadaire de la série de consommation, et donc l’influence du jour de la semaine sur la valeur de consommation. Dans un second temps, l’identification des ordres du processus ARIMA a montré que les valeurs suivantes pouvaient être retenues :
p = 7 d = 1 q = 7
Le calcul des coefficients a alors permis de définir une formule simple de prévision, utilisable de manière opérationnelle, et de la forme :
C′(i) = aΘ(i-1) + B + Σ γj C′(i-j) + Σ μk C″(i-k)
où C′(k) est la consommation résiduelle C(k) – aΘ(k) – B, et C″(k) est la différence entre consommation enregistrée le jour k et consommation prévue la veille pour ce même jour.
Résultats
La formulation mathématique décrite ci-dessus est finalement extrêmement simple. Elle peut donc être implantée sur tout système informatique et ne requiert quasiment pas de temps de calcul. Mais plus que cette formulation, ce sont les résultats qu’il convient d’examiner en détail et en particulier la fidélité avec laquelle la série observée est reproduite par la formule de prévision. De ce point de vue, les résultats obtenus sont excellents. On constate (figures 2 et 3) que la série des consommations prévues suit au plus près les variations de la consommation réelle. Même dans le cas où les variations journalières sont brutales (comme cela peut être le cas au moment des fins de semaine ou des départs en vacances), la formulation obtenue permet de s’adapter rapidement aux changements, et représente bien une formulation auto-adaptative.
L’analyse des écarts prouve d’ailleurs sans équivoque la bonne précision des résultats. Pour l’année 1988, l’écart moyen (moyenne des écarts journaliers entre prévision et observation) est ainsi de 3,1 %. L’écart maximal, quant à lui, est de 18 %, mais seuls sept jours voient l’écart dépasser 10 % de la consommation. La formulation retenue est donc tout à fait adaptée à une utilisation en temps réel au sein d’un outil de conduite optimisée des pompages.
Conclusion
Les processus ARIMA se sont avérés des outils puissants et performants pour la mise en œuvre de formulations simples et précises de prévision des consommations d’eau potable. Intégrés à des outils de conduite des installations en temps réel, ils reproduisent fidèlement l’évolution des besoins, et permettent d’évaluer ces besoins dans de bonnes conditions.
De plus, leurs résultats pourraient être encore améliorés par leur couplage avec des techniques de correction d’erreurs : ce pourrait être le cas, en particulier, du Filtre de Kalman, déjà utilisé avec succès en matière de prévision des débits de crue.
De belles perspectives de recherche s’offrent donc encore à nous pour améliorer les performances, déjà fort honorables, des méthodes de prévision, et permettre aux exploitants de réseaux d’eau de toujours mieux assurer la qualité du service.