Vincent CROMMELYNCK *, Charles DUQUESNE *, Claude MINIUSSI *, Michel MERCIER **
Le Syndicat des Eaux d'Ile-de-France regroupe 144 communes de la région parisienne et avec le concours de son régisseur, la Compagnie Générale des Eaux, il assure l’alimentation en eau potable de plus de 4 millions d’habitants grâce à un réseau de conduites d'une longueur de 8 500 kilomètres.
La ressource provient pour l’essentiel de trois usines de potabilisation : Choisy-le-Roi, sur la Seine, d'une capacité de 800 000 m³/j, Neuilly-sur-Marne, sur la Marne, de capacité bientôt équivalente, et Méry-sur-Oise, sur l’Oise, d'une capacité de 270 000 m³/j. Le complément pour 100 000 m³/j est fourni par les eaux souterraines issues de forages situés à Neuilly-sur-Seine, Pantin, Aulnay-sous-Bois et dans la région de Melun.
En raison de l'importance de la population desservie et de la nature des consommateurs (industries lourdes, important secteur d’activités économiques, nombreux grands hôpitaux), la sécurité d’approvisionnement et la qualité de l'eau distribuée doivent être garanties à tout moment et en toutes circonstances (figure 1). Il faut en effet répondre à la demande des consommateurs en répartissant dans le temps et dans l'espace la production et la distribution d’un volume d’eau quotidien représentant un million de mètres cubes d'eau en moyenne. Aussi, le Syndicat des Eaux d'Ile-de-France développe-t-il un ambitieux programme de sécurité dont les axes principaux sont la sécurité de la ressource, la sécurité de la production et la sécurité du transport.
Dans le cadre de ce programme, il a été mis en place un Centre des Mouvements de l’Eau (figure 2) qui a pour mission essentielle d’assurer la sécurité globale, tant au quotidien qu’en période de crise. Ce CME permet en effet de savoir, en temps réel, tout ce qui se passe dans les usines, les réservoirs et le réseau et il est donc capable de coordonner et de superviser les actions menées sur l'ensemble du réseau de production/distribution.
En ce qui concerne le problème complexe de répartition géographique et temporelle de la production/distribution avec la consommation, des outils de prévision de consommation, ou plus exactement de prévision du volume mis en distribution, sont utilisés depuis quelques années par les exploi-
* Compagnie Générale des Eaux ** Syndicat des Eaux d'Ile-de-France
Tableau I
Comparaison des résultats des modèles de prévision de consommation journalières globale, statistique et connexionniste.
Éléments | Modèle statistique | Modèle connexionniste |
---|---|---|
Erreur moyenne relative | 2,6 | 2,6 |
Écart type | 3,5 | 3,5 |
Pourcentage d’erreur < 5 % | 82,6 | 83,8 |
Pourcentage d’erreur < 10 % | 98,6 | 98,2 |
Ces résultats sont importants. Ils sont basés sur des techniques statistiques éprouvées et donnent de bons résultats. Une nouvelle technique informatique, les réseaux de neurones, a été également mise en œuvre pour ces modèles de prévision : elle doit permettre de combler certaines lacunes des modèles statistiques.
La réalisation de tels systèmes de prévisions de consommation s’inscrit bien dans la stratégie globale du Maître d’Ouvrage, le Syndicat des Eaux d’Île-de-France, et de l’exploitant, la Compagnie Générale des Eaux, qui se doivent tout à la fois d’assurer un triple rôle :
• celui d’innovateurs, qui en testant sans cesse les techniques nouvelles doivent devancer l’évolution technologique pour assurer aux consommateurs une qualité toujours meilleure du service rendu ;
• celui d’intégrateurs, qui en assemblant toutes les techniques, doivent sans cesse moderniser et automatiser les moyens de production et de distribution, de façon à faire face au développement de la Région Île-de-France ;
• celui de garants du service public, qui doivent, en restant très pragmatiques, assurer sans faille et sans droit à l’erreur la continuité de l’alimentation en eau potable.
La consommation du réseau
Le réseau du SEDIF est fort complexe ; en effet, cet ensemble compte une quarantaine de réseaux distincts, comportant chacun leurs réservoirs (42 réservoirs totalisant un volume de 650 000 m³), leurs usines de pompage propres (50 environ), qui constituent autant de cas particuliers (figure 3).
Le volume mis en distribution sur le réseau est en moyenne de 900 000 m³/j et peut varier de 700 000 m³/j à 1 200 000 m³/j. La variation de la consommation d’un jour à l’autre est importante puisqu’elle atteint souvent 100 000 m³ à 150 000 m³. Quatre types de variations peuvent être distinguées : annuelle, saisonnière, hebdomadaire et journalière.
De fait, les variations du volume d’eau mis en distribution semblent être essentiellement dues aux mouvements migratoires des populations et aux habitudes quotidiennes, à cycle hebdomadaire, ainsi qu’aux fluctuations météorologiques. Il ne faut cependant pas omettre les contraintes techniques, comme la rupture des canalisations, qui influent non pas sur la consommation mais bien sur le volume mis en distribution, objet de nos prévisions. Tout mouvement migratoire qui se traduit par une diminution (ou une augmentation) de la population, sur la zone considérée, entraîne une diminution (ou une augmentation) du volume d’eau consommé ; c’est le cas pour les départs en vacances, les jours fériés, les ponts et les fins de semaine… Les habitudes quotidiennes interviennent elles aussi et le rythme de travail entraîne une variation à cycle hebdomadaire de la consommation d’eau, où l’on peut remarquer généralement des fins de semaine moins consommatrices que les autres jours, mais aussi une variation au cours de la journée. Plusieurs facteurs météorologiques influencent également le volume mis en distribution : il s’agit aussi bien de la température, de la pluviométrie, du temps d’ensoleillement, que de la nébulosité du ciel. Cependant les explications précédentes ne permettent pas de rendre compte de l’ensemble des phénomènes observés. Pour cela, il faut faire intervenir les influences croisées que les facteurs explicatifs peuvent avoir entre eux et qui modifient le rôle joué initialement par l’un d’entre eux.
Les systèmes de prévision de consommation du CME
Le CME doit établir chaque jour une prévision de consommation de l’ensemble du réseau, et répartir la production correspondante entre les centres de production (usines de production, forages) en tenant compte à la fois des échanges occasionnels ou réguliers avec les distributeurs voisins, des capacités de production des usines principales, de l’état du réseau (connaissance des biefs principaux hors service), et de l’état des ressources (pollution éventuelle). Pour ce faire, un outil de prévision opérationnel a été développé et est utilisé par les exploitants du CME depuis le début de l’année 1990.
Le modèle statistique
Une étude statistique des données de consommation globale de la totalité des réseaux du SEDIF, de janvier 1981 à avril 1989, a permis de sélectionner les 40 paramètres explicatifs de la consommation. Ils expriment l'influence des congés, ponts, départs et retours de vacances, des conditions météorologiques et des évolutions lentes de la consommation globale.
Cette étude a abouti à un modèle statistique basé sur une régression linéaire : la consommation prévue est une simple combinaison linéaire des 40 paramètres calendaires, climatiques et historiques, de la forme :
Consommation prévue = k0 + k1 * paramètre 1 + ... + kn * paramètre n
(k0, ... , kn sont les coefficients constants calés à partir des données).
Ce modèle a été intégré dans un logiciel qui est utilisé chaque matin par les exploitants du CME pour obtenir une estimation de la consommation globale du réseau de la banlieue de Paris, pour la journée à venir. Il se présente sous la forme d'une application de logiciel tableur (« feuille de calcul ») sur micro-ordinateur. À partir des données météorologiques prévisionnelles du jour J et de la consommation du jour J−1, demandées de façon interactive à l'opérateur, le logiciel fournit sa prévision pour le jour J. La prévision personnelle de l'utilisateur, ainsi qu'un commentaire sont enregistrés et permettront une analyse a posteriori des erreurs. On peut visualiser pour toute période des graphiques représentant les consommations réelles et celles prévues ainsi que les erreurs de prévision (figures 4 et 5). Un module d’analyse des erreurs et intervalles de confiance y est intégré.
Le logiciel réalisé est exploité quotidiennement depuis plus d’un an par le CME et il donne satisfaction quant à sa précision. Au total il a été testé sur 8 années de calage (de 1981 à 1989 sauf 1987), une année de test (1987) et plus d'une année d’exploitation (1990). L’erreur relative moyenne est de 2,6 %, inférieure à 5 % dans 83 % des cas et inférieure à 10 % dans 99 % des cas. En période froide la plus forte erreur relative a atteint 9 %, et en période chaude on a enregistré une sous-estimation jusqu’à 18 %.
Compte tenu de la difficulté d’expliquer le problème et de la relative simplicité du modèle (une simple combinaison linéaire), les résultats sont de bonne qualité. En effet, la précision de tels modèles appliqués à des problèmes complexes atteint peu fréquemment ce niveau.
Cependant, certaines limitations du modèle sont apparues. On peut en effet s’apercevoir, depuis le début de son utilisation sur l’année 1990 caractérisée par la sécheresse, d’une dégradation minime mais progressive des résultats du modèle : augmentation de l'erreur moyenne, sous-estimation chronique, dégradation des intervalles de confiance. Il paraît inévitable que, plus on s’éloignera de la période de calage, plus les résultats se dégraderont. Il sera alors nécessaire de recaler le modèle régulièrement ou de mettre en œuvre des modèles à recalage automatique.
Le modèle neuromimétique
Afin de remédier aux quelques inconvénients des modèles précédemment cités, la réalisation de modèles utilisant les réseaux de neurones a été entreprise.
Cette technique, issue de recherches en neurophysiologie, consiste à simuler sur ordinateur des réseaux de cellules neuronales similaires dans leur fonctionnement aux neurones du cerveau humain.
Les techniques connexionnistes (à base de réseaux de neurones ou réseaux neuromimétiques) sont particulièrement adaptées à la résolution de problèmes pour lesquels les approches algorithmiques traditionnelles se sont révélées jusqu’ici peu efficaces ou inopérantes. Citons par exemple :
- — la reconnaissance de formes, qui nécessite une forte aptitude à la généralisation,
- — la classification et le traitement du signal, où l'on doit traiter de nombreuses données bruitées,
- — la commande de robots ou de procédés où il est nécessaire de trouver des réponses adaptées à des situations inconnues. Sur ces problèmes, la procédure classique où une équipe de spécialistes tente de définir un modèle mathématique, le formalise en programmes, puis passe à la simulation, s’avère alors souvent impossible sinon très complexe et coûteuse.
Pour résoudre cette classe de problèmes, les réseaux de neurones présentent plusieurs innovations :
- * un apport méthodologique, puisque le principe de base est l’apprentissage par l'exemple, qui s’inspire du mode d’apprentissage du cerveau humain et permet de s’adapter à des situations inconnues en ajustant sa réponse ;
- * une modélisation plus puissante, qui utilise le traitement parallèle d’informations, et donc augmente la rapidité des calculs ;
- * une capacité à représenter des relations non linéaires complexes et à résister aux données bruitées ce qui permet un fonctionnement en mode dégradé.
Un réseau de neurones constitue une sorte de « boîte noire », à laquelle on présente des entrées (les données calendaires, climatiques et historiques dans notre cas) et dont on veut obtenir une sortie (la prévision de consommation journalière par exemple).
L’apprentissage du réseau de neurones se fait en présentant un grand nombre de fois (plusieurs dizaines de milliers) les exemples d’apprentissage constitués par les données réelles de consommations des années passées. Lors de cette phase, le réseau de neurones modifie à chaque fois ses coef-
Les modèles neuromimétiques réalisés
Les premiers modèles ont été testés sur micro-ordinateur pour la période journalière de l’ensemble du réseau SEDIF : ils utilisent en entrée, comme les modèles statistiques, des informations calendaires, climatiques et historiques, dont le nombre varie de 10 à 50 en fonction de la précision désirée. Ils sont constitués par des réseaux à couches utilisant l’algorithme d’apprentissage par rétropropagation du gradient.
Les modèles ont été calés sur des périodes d’apprentissage variant de 50 jours à 9 ans et testés sur des périodes de 10 jours à 1 an. La meilleure précision est obtenue par les modèles journaliers de période froide calés et testés sur la plus longue durée : elle est de 1,9 % d’erreur moyenne relative ; 92 % des prévisions effectuées sur la période de test ayant moins de 5 % d’erreur relative par rapport à la valeur réelle et 100 % des erreurs inférieures à 10 %. Globalement, l’erreur moyenne relative, toutes saisons confondues, est de 2,6 % c’est-à-dire similaire aux résultats du modèle statistique. La comparaison entre le modèle de prévision statistique et un modèle connexionniste montre, tests à l’appui, que ce dernier offre des performances au moins comparables et présente certains avantages. En effet, un réseau de neurones à couches doit aboutir à des résultats au moins égaux à ceux d’une régression linéaire, car le modèle connexionniste le plus simple, l’associateur linéaire, réalise tout comme une régression, une correspondance linéaire maximale entre entrées et sorties.
Des tests ont été effectués sur les modèles globaux de prévision journalière. Les résultats obtenus par les techniques statistiques et réseaux de neurones sont statistiquement comparables. On ne peut pas déceler de différence significative à ce jour (tableau I).
Il faut cependant remarquer que la très bonne précision actuelle du modèle statistique correspond vraisemblablement au maximum que l’on peut atteindre compte tenu de la précision des données. D’autre part, la qualité des données utilisées est très bonne puisqu’elles ont préalablement été testées, analysées et triées manuellement afin d’en corriger les valeurs erronées : la résistance au bruit des réseaux de neurones n’a donc été que peu utilisée. Enfin, le grand nombre des données de calage (3 000 environ) et le fait qu’elles représentent le comportement d’une vaste population (4 000 000 de personnes) ont apporté un lissage tel qu’un modèle simple à base de régression linéaire peut effectuer une bonne prévision. Des premiers résultats de prévision horaire sur des réseaux d’eau plus restreints semblent en revanche être meilleurs pour les techniques connexionnistes : entre 5 et 10 % d’erreur relative moyenne contre 10 à 15 % pour la technique statistique.
Il paraît raisonnable de penser que les réseaux de neurones sont d’autant plus fiables, utiles et performants que :
- • la taille des réseaux étudiés diminuera rendant ainsi le comportement moins lissé ;
- • leurs comportements seront rapidement changeants ou influencés par quelques facteurs principaux (stations balnéaires, réseau rural comportant une industrie très consommatrice…), plutôt que par une multitude de facteurs de faible influence ;
- • les données seront de moins bonne qualité ou issues d’acquisitions automatiques sans contrôle de cohérence et de fiabilité ;
- • les pas de temps de la prévision seront plus fins (modèles horaires).
D’autre part, l’avantage majeur de ces modèles à réseaux de neurones, qui est de pouvoir s’adapter rapidement par apprentissage à des situations nouvelles, n’a pas encore été utilisé aujourd’hui, principalement à cause de la difficulté d’automatiser la période de recalage. Des études théoriques et pratiques de recalage automatique des modèles horaires en cours de journée sont en cours et devraient permettre une amélioration significative des résultats.
Conclusion
Les apports des réseaux de neurones
La prévision de consommation basée sur un modèle statistique donne des résultats probants ; cependant, un tel modèle est non adaptatif au cours du temps. En revanche, les réseaux de neurones ont l’avantage de pouvoir s’adapter rapidement par apprentissage à des situations nouvelles : des recalages périodiques ou à la demande peuvent être envisagés, permettant alors au modèle de suivre automatiquement l’évolution de la consommation du réseau. Cette possibilité semble particulièrement intéressante dans les périodes actuelles de sécheresse où les prévisions classiques montrent leurs limites.
Cette première mise en œuvre de la technique des réseaux de neurones pour la prévision des consommations semble donc prometteuse. Le travail restant à faire maintenant en vue d’atteindre l’objectif d’exploitation opérationnelle, est d’intégrer ces modèles aux moyens de gestion technique centralisée des réseaux de distribution. En premier lieu, il s’agit bien sûr de fiabiliser la technologie encore nouvelle des réseaux de neurones, mais il faut également accroître la qualité des données, élément-clé de toute prévision efficace, en améliorant la chaîne d’acquisition allant du capteur jusqu’à l’ordinateur de stockage.
Ces techniques informatiques avancées, qui sont de plus en plus utilisées dans nos métiers, ne peuvent se suffire à elles-mêmes. C’est leur intégration au sein des systèmes informatiques existants de supervision ou de gestion technique centralisée qui permet vraiment d’apporter la preuve de leur intérêt et qui est synonyme de progrès.
Bibliographie
MINIUSSI (C.), MOLLON (A.), DUQUESNE (C.), GAURIAU (G.), MERCIER (M.), CUNY (S.). Le Centre des Mouvements de l’Eau du SEDIF : un système informatique intégré de haut niveau, d’acquisition, de coordination et de gestion de données pour la banlieue de Paris (Textes de conférences du Congrès Hydrotop 92, Marseille, 7-10 avril 1992), p. 260-267.
DAMEZ (F.). L’automatisation des mesures de qualité des eaux brutes au service de la sécurité de l’approvisionnement en eau potable (Textes des conférences du Congrès Hydrotop 92, Marseille, 7-10 avril 1992), p. 328-337.
CEMBRANO (G.), RENALIAS (J.), SOLANAS (J.L.). Short-term modelling of water demand. Actes de l’atelier AIDE « Les besoins futurs en eau », Bâle, 6-7 février 1990, p. 155-169.