Observatoire ODR

De Wiki ODR
Révision datée du 4 janvier 2008 à 09:41 par Lemenager (discussion | contributions) (Nature des données)
Aller à : navigation, rechercher

L'observatoire du développement rural - ODR

DEFINITIONS, FONCTIONNEMENT, GUIDE D'UTILISATION



L'observatoire des programmes communautaires de développement rural (ODR) a pour objectifs de contribuer à la préparation au suivi et à l'évaluation en France des politiques communautaires du développement rural et plus particulièrement des mesures financées par les règlements de développement rural (RDR) de 1999 (programmation 2000-2006) et de 2005 (programmation 2007-2013) et de constituer un outil coopératif pour la recherches en Sciences Sociales sur les politiques agricoles, le Développement rural et l'agro-environnement.

C'est un système d'information partenarial au service de la préparation, du suivi et de l'évaluation des politiques publiques. Accessible par internet, il s'agit d'un SERVEUR DE DONNEES, complété d'une plateforme logicielle permettant diverses actions sur les données (importer/exporter, traiter, visualiser). L'observatoire est piloté par des PARTENAIRES, liés par une convention. Il est géré par une équipe d'ADMINISTRATION.

Le développement de l'observatoire s'effectue de façon COLLABORATIVE par des utilisateurs disposant de droits d'accès au serveur. Le fonctionnement de l'observatoire est régi par des règles.

Les données sont soit libres (données publiques), soit réservées avec un accès contrôlé par leur propriétaire. Les données disponibles sont rattachées à des codes géographiques, en particulier aux communes ou groupes de communes, mais aussi à d'autres types d'entités géographiques comme les zones Natura 2000, les programmes d'action territoriaux pour l'eau, les unités de distribution d'eau potable, etc. Par ailleurs l'observatoire donne accès à la documentation nécessaire à la compréhension des données utilisables ou consultables via le serveur (notamment via cartowiki).

Le serveur de données permet soit l'accès à des données pour en réaliser un traitement (calcul et cartographie), soit la simple visualisation de résultats (cartes et tableaux déjà préparés), qui sont des données traitées. Il s'agit d'une visualisation dynamique (actualisation des calculs à chaque affichage), avec de larges possibilités de navigation entre échelles et types de territoires.

Les principales notions utiles à la compréhension du fonctionnement et à l'utilisation de l'observatoire sont développées dans cet article et précisées dans les articles liés à celui-ci. Un guide d'utilisation de l'observatoire pour le visiteur est téléchargeable: guide visiteur. L'utilisateur titulaire se reportera aux articles : traitement, données, formules, etc. et aux notices figurant sur les interfaces (répérées par un point d'interrogation).

Principales règles de fonctionnement de l'observatoire

L'observatoire est régi par une convention cadre et un comité de pilotage. Les partenaires fondateurs sont le CNASEA; l'INRA et le Ministère de l'agriculture et de la pêche (MAP), et plus particulièrement la DGPEI et la DGFAR. Il peut acceuillier de nouveaux partenaires et des "tiers agréés", susceptibles de fournir ou d'utiliser des données. Il est administré et développé par un chef de projet et une équipe opérationnelle, situé à l'INRA (Toulouse), cette équipe sera désignée comme "ADMINISTRATION" dans la suite de l'article. Lire la convention cadre

Les règles de l'observatoire concernent l'accès à l'utilisation de l'observatoire, l'accès aux données (par agrément de projets), l'accès aux fonctionnalités de l'observatoire (selon le statut de l'utilisateur) et enfin la publication des résultats obtenus avec des données de l'observatoire.

Il y a deux types de règles. Les règles écrites, définies par les partenaires de l'observatoire, consignées dans la convention signée entre les partenaires fondateurs et précisées dans les décisions du comité de pilotage créé par cette convention. Ces règles concernent les rapports contractuels entre partenaires et l'activité de l'administration. Les règles procédurales qui conditionnent les interfaces informatiques disponibles (ressources informatiques) pour les utilisateurs, selon leurs droits.

Les utilisateurs sont désignés par les partenaires (membres fondateurs, nouveaux partenaires, tiers agréés). Les identifiants et mots de passe sont attribués par l'administration.

L'action des utilisateurs se déroule dans le cadre de projets. Un projet est créé par un utilisateur qui en devient responsable. Il peut y associer d'autres utilisateurs dont des propriétaires de données qui pourront donner un droit d'accès à certaines données. Tout utilisateur titulaire peut déposer des données, les traiter et les partager ou non avec d'autres utilisateurs. Les données gérées par les partenaires de l'observatoire peuvent être référencées (et donc utilisables) dans un projet créé par un utilisateur, pour cela les projets et la demande de données doivent être validés par le comité de pilotage.

La publication de résultats, sur l'observatoire (dans des "dossiers thématiques") ou hors de l'observatoire, doit respecter le secret statistique et mentionner les sources de données (article convention cadre).

Un système d'information collaboratif géré en partenariat

L'observatoire ODR est un système d'information, que l'on peut représenter par le schéma 1.

Les relations entre les entités du système sont :

- soit directement gérées par le système informatique et de façon collaborative par les utilisateurs via les interfaces mises à leur disposition, les possibilités d'action dépendant de leur statut,

- soit elles résultent de décisions prises par les partenaires (qui désignent des utilisateurs), le comité de pilotage (qui valide les projets et émet des demandes) ou l'administration (qui attribue les droits utilisateur et les mots de passe). Ces décisions sont mises en oeuvre par l'administration.

Administration.jpg

Les rectangles du schéma sont des ensembles ou classes d'entités, définies par des attributs listés dans les fiches d'identité associées à ces classes d'entités (en vert sur le schéma). Les rectangles rouges représentent les acteurs et les rectangles bleus les ressources. Les actions sont décrites en rouge. Les principales actions sont : enregistrement (import) de tables de données, référencement de données, traitement de données, publication de résultats.

Les partenaires sont représentés dans un comité de pilotage. L'administration est assurée par une équipe opérationnelle qui gère directement plusieurs projets préparatoires à l'évaluation du RDR1 ou au suivi du RDR2 (pour le compte du CNASEA et du MAP) et qui administre le serveur (hébergé par l'INRA), l'application "carto dynamique" et l'ensemble de la plateforme de logiciels.

Les bases de données sont deux types principaux :

- des données géographiques (géoréférencées) qui fournissent les contours de différents types de découpages géographiques,

- des données localisées (géocodées) qui sont des attributs des entités géographiques connues dans l'observatoire.

La mise à disposition et la mise à jour des données géographiques (géoréférencées) sont réservées à l'administration.

Les données (autres que les données géographiques)sont déposées (voir zone de dépôt) par les utilisateurs désignés et agréés par les partenaires. Ces données sont nécessairement des données localisées, au niveau des communes ou d'ensembles de communes, soit "agrégées" (voir agrégation), une valeur par entité géographique, soit "individuelles", plusieurs valeurs par entité géographique (il existe dans ce cas une ou plusieurs clés ou index, autres que géographiques, permettant de distinguer si nécessaire ces valeurs). Les comptes "utilisateur" des partenaires principaux fournisseurs de données (CNASEA notamment) sont gérés par l'équipe d'administration. Toutefois, tout utilisateur titulaire peut déposer des données dans des zones de dépôts réservées (sous sa seule administration) et peut référencer ces données dans tout projet dont il est membre ou inscrit comme donateur (voir schéma 2). Les règles de dépôt et de référencement sont les mêmes pour tous les utilisateurs. La création de projet est libre.

Une information sur les données (métadonnées) est mise à disposition des utilisateurs via des répertoires accessibles dans le menu accueil.

Le circuit détaillé des données et métadonnées est représenté dans le schéma 2. Les différentes classes d'entités et leurs attributs sont complètement décrits ci-après. Le principe général de traitement des données de l'observatoire et de construction d'indicateurs est présenté sur le schéma 3. Des indicateurs créés par un utilisateur dans un projet peuvent être référencés comme nouvelles variables (données secondaires).

Certaines ressources sont publiques (accessibles à tout utilisateur) et d'autres sont réservées. Les données "publiques" sont accessibles à tout titulaire dans tout projet créé par celui-ci. Les données réservées doivent être demandées au propriétaire via le comité de pilotage (demande d'agréément de projet). Certains "résultats" sont également publics, c'est-à-dire accessible à toute personne ayant un accès visiteur. Tout projet peut mettre à disposition des résultats pour des visiteurs autorisés en publiant des dossiers thématiques. La publication de résultats dans les parties publiques de l'observatoire (ouvertes à tout visiteur : projet "visite observatoire" et "zonages").

Tout utilisateur titulaire peut contribuer à la documentation de l'observatoire via le module Cartowiki

Les bases de données

Nature des données

Une base de données est un ensemble d'informations (ou données) entre lesquelles on peut établir des relations. Le concept est général : toute fraction de base de données est elle-même une base de données et des bases de données associées forment une base de données plus large. Un système d'information complexe, comme l'observatoire ODR, peut-être considéré comme un ensemble de base de données caractérisant toutes les entités du système.

Les données qui peuvent être déposées dans l'observatoire par un utilisateur, puis utilisées par lui-même ou par un autre (selon les règles établies pour la circulation des données dans l'observatoire), sont des données LOCALISEES, dites GEOCODEES. Elles se rapportent à une classe d'entité géographique, dont l'index est (par définition) un géocode.

L'observatoire reconnaît de nombreux types d'entités géographiques ou en d'autres termes dispose de nombreux référentiels géographiques appelés aussi fonds de carte (voir ci-après). Dans la version actuelle ces référentiels sont importés ou créés par l'administration.

L'accès aux données réservées (non déclarées publique par le dépositaire) et aux résultats est limité et contrôlé. Chaque projet dispose de son propre dictionnaire de données utilisables par les membres du projet pour des traitements (selon leurs droits). Il est constitué par les données référencées dans ce projet par les membres du projet ou par des donateurs qui ont préalablement été inscrits dans le projet par son responsable (voir schéma 2). Seul l'utilisateur qui a déposé des données peut les référencer dans un projet. Elles apparaissent alors dans le dictionnaire du projet (avec les métadonnées les concernant) et peuvent être utilisées dans des formules. Lors du premier référencement dans un projet, les données sont renseignées par le "créateur" (l'utilisateur qui les a déposées et qui les référence), elles sont alors référencées, avec les métadonnées les concernant, dans un dictionnaire global et affectées au projet à partir duquel elles sont référencées, éventuellement avec des restrictions spécifiques. Le référencement des mêmes données dans un autre projet s'effectue par une nouvelle affectation de ces données.


Donnees.jpg


Les résultats créés sont également des données disponibles pour les utilisateurs selon les droits. Ils comprennent :

o	les traitements (sauvegarde des "brouillons", à titre privé),
o	les indicateurs en tant que nouvelles variables 
o	les dossiers thématiques (ensembles de thèmes)
o	les thèmes (traitement validé ) 


Une interface de traitement permet aux membres titulaires d'effectuer des calculs sur les données et d'organiser les résultats du projet. Cette interface permet, aujourd'hui, de produire un indicateur, c'est-à-dire un résultat sous la forme d'une variable géocodée, à partir d'opérations arithmétiques et booléennes courantes effectuées sur des variables définies au niveau géographique voulu et d'en produire une carte. Si les variables entrant dans le calcul sont individuelles ou d'un niveau géographique inférieur à celui du calcul, elles sont agrégées, selon des modalités précisées dans la formule de calcul et par défaut lors de l'enregistrement des variables primaires. Une extension en cours de réalisation permettra de calculer en une seule opération plusieurs indicateurs. Voir schéma 3.


Construction indic.jpg



Les entités documentées dans les répertoires de l'observatoire (voir schéma 1) sont:

-	les partenaires,
-	les utilisateurs et leurs zones de dépôts,
-	les projets,
-	les bases de données localisées (voir détail ci-après),
-	les index secondaires, non géographiques 
-	les entités géographiques,
-	les résultats.

Remarque: les index définissent des domaines, ensembles de tables comprenant une même clé secondaire, ex: la base des données "CNASEA RDR1". NB: les tables CNASEA RDR1 sont aujourd'hui les seules tables de données individuelles dans l'observatoire (les tables anciennes ne sont pas répertoriées).

Les données géographiques" (géoréférencées)

La clé géographique universelle de l'observatoire est le référentiel communal INSEE/IGN 1999 (BD "GeoFLA" 1999, licence IGN INRA). Lors du dépôt de données par un utilisateur, la table importée est calée sur ce référentiel et si nécessaire re-indexée avant de pouvoir être référencée.

D'autres niveaux géographiques, formés par des ensembles de communes, peuvent être utilisés pour entrer des données, pour peu que ces zonages communaux soit référencés dans l'observatoire (voir : entité géographique). Dans ce cas, les traitements doivent être effectués au niveau de découpage géographique correspondant (ex le canton si ce sont des données cantonales) ; pour les communes qui appartiennent à un même découpage (géocode)de niveau supérieur (ex: département), les données de ce niveau peuvent être considérées comme des constantes.

On peut déposer dans l'observatoire des données se rapportant à d'autres entités géographiques que les communes pour peu qu'une table de correspondances existe entre les entités de la classe considérée (ex: les zones NATURA 2000) et les communes. Plusieurs types de correspondances peuvent être établis? Il s'agit d'une correspondance stricte si chaque entité de la classe considérée est rattachée à une commune (ou à un département) et à seule (une commune pouvant se voir rattacher aucune, une ou plusieurs entités). On a peut avoir une correspondance multiple en indiquant la surface des intersections entre les entitées considérées et les communes (ou les département). On a alors (dans les deux cas) un index géographique secondaire qui fonctionne comme un index de données individuelles par rapport au géocode commune. Ce système est mis en œuvre pour établir des statistiques relatives aux zones NATURA 2000. Voir Natura 2000 dans l'observatoire. A partir d'une table de correspondance multiple on peut construire un indicateur qui permet de classer les communes selon le degré de croisement avec l'autre classe d'entités géographiques (ex: les communes qui ont plus de 40% de leur superficie classée en zone Natura 2000).

La gestion des résultats

L'interface de traitement permet aussi de sauvegarder et d'exporter le résultat. Le traitement peut être simplement sauvegarder (comme un brouillon) à la disposition des membres du projet ou sauvegarder comme une "nouvelle variable" qui entrera dans le dictionnaire global des variables ou encore comme "thème" qui sera visible par les visiteurs du projet. Les thèmes sont classés dans un des dossiers thématiques ouverts (ou dans un nouveau) dans le projet, la liste de ces dossiers est visible dans le menu visiteur (les menus à gauche de l'écran). Au sens de la chartre créant l'observatoire ODR, les thèmes et dossiers thématiques sont des publications.

Les résultats et publications comprennent :

- les traitements (sauvegarde formule et paramètres carte), ce sont des brouillons, ils ne sont accessibles qu'aux membres des projets concernés, ce ne sont pas des publications ;

- les indicateurs sont des traitements sauvegardés en tant que nouvelles variables (la valeur pour un niveau géographique donné est sauvegardée dans une base de dépôt du créateur, le lien avec le traitement est conservé (actualisation possible) et notamment les sources de données utilisées, la sensibilité de l'indicateur au secret statistique en est déduite) (A METTRE EN ŒUVRE). Ce sont des données secondaires ;

- les dossiers thématiques, ceux-ci comprennent un ensemble de thèmes correspondant à la cartographie d'un indicateur et (le cas échéant) un "tableau de bord", c'est-à-dire un ensemble d'indicateurs présentés dans des tableaux statistiques géographiques ou des fiches descriptives ad hoc). Ce sont des publications (éventuellement confidentielles si peu de visiteurs inscrits au projet…), soumises notamment au secret statistique ;

- les thèmes (traitement validé comme thème avec les paramètres de contrôle affichage) (idem indicateur plus les paramètres d'affichage dans le dossier où cet indicateur est présent comme thème). Ce sont des publications.

Dans le cas des indicateurs sauvegardés comme thèmes ou comme nouvelles variables, plusieurs champs de métadonnées doivent être nécessairement renseignés par les créateurs de ces thèmes ou variables.

Dans le cas d'un indicateur devenant une nouvelle variable, celle-ci doit être référencée dans le dictionnaire du projet pour être réutilisable. Son créateur la déclare alors comme personnelle, privée, publiable ou non, ou encore publique (si la formule ne comprend que des données publiques, les propriétaires des données primaires réservées gardent leurs droits sur les données secondaires) ; voir référencement, la règle des 4 "P". Il doit fournir un minimum de renseignements méthodologiques sur l'indicateur, qui apparaîtront dans la fiche d'identité de la variable si celle-ci est "publiable" (répertoriée pour les visiteurs).

Dans le cas d'un thème, une documentation méthodologique peut (doit pour le projet "visite observatoire") aussi être attachée au thème (par un lien avec un article de cartowiki), la procédure d'enregistrement précise également les conditions d'application des règles de confidentialité (voir secret statistique). L'interface de visualisation des thèmes ne permet d'exporter les données. Toutefois une exportation des valeurs des indicateurs d'un dossier thématique est possible via la mise à disposition des visiteurs de tableaux géographiques et de tableaux de bord statistique par territoire (quelque soit le découpage). Actuellement un simple titulaire peut seulement créer des dossiers thématiques et y classer des thèmes (cartes). L'insertion d'un tableau géographique ou d'un tableau de bord nécessite l'intervention de l'administration.

L'ensemble des opérations d'enregistrement et de référencement des données primaires (déposées par les utilisateurs) et des indicateurs forme le circuit des métadonnées. Toutes les variables publiables sont référencées dans le répertoire des données, accessible sur la page d'accueil. La fiche d'identité des données rassemble les métadonnées, dont : les indicateurs statistiques habituels (moyenne, maxi, mini, nombre d'occurrences non null, etc.), le propriétaire dans l'observatoire (l'utilisateur qui a effectué le référencement), la date de création, son lien avec diverses entités (voir ci-après les entités secondaires auxquelles rattacher les données), son statut au regard des règles de diffusion (les 4 "P" : privées, personnelles, publiques, publiables), sa sensibilité au secret statistique.


Les entités documentées dans les répertoires de l'observatoire

les partenaires

A DEVELOPPER

les utilisateurs

A DEVELOPPER

les projets

A DEVELOPPER

les données localisées

A DEVELOPPER

Entités secondaires à renseigner pour décrire les bases de données localisées de l'observatoire

1- Les fournisseurs de données : Ils peuvent être : partenaires de l’observatoire, tiers agréés, ou simples utilisateurs titulaires.

Un fournisseur est le créateur primaire de la donnée. Le fournisseur (à renseigner lors du référencement) est distinct du propriétaire (utilisateur effectuant le référencement, qui en quelque sorte représente le fournisseur.) Ainsi, par exemple, quelque soit le nom de l'utilisateur qui a importé les données en provenance du CNASEA, celles-ci sont avec comme fournisseur "CNSAEA RDR1". Les données publiques (par exemple téléchargées du site de l'INSEE ou de SANDRE sont indiquées avec INSEE ou SANDRE comme fournisseurs. Les données fournies par des équipes de l'INRA sont répertoriées ainsi.

La liste des fournisseurs est la première entrée du répertoire de données.

2- Les ensembles de données correspondant à un même dispositif de recueil de données, à un même dispositif de gestion des mesures publiques (voir: RDR1, les dispositifs de mise en œuvre du RDR au sens du CNASEA), ou encore à une même enquête statistique. Cette rubrique est nommée "enquête", dans la procédure de référencement de carto dynamique.

Les enquêtes sont classées par fournisseurs de données et forme une deuxième entrée du répertoire des données. Chaque enquête est décrite dans un article de cartowiki, le lien étant fourni dans la fiche d'identité des variables correspondantes.

3- Les données sont présentes (physiquement) dans des tables, qui ont été enregistrées dans des zones de dépôt, c'est leur adresse dans le dictionnaire. Chaque zone de dépôt est administrée par l'utilisateur (unique) auquel elle est attachée, seul celui-ci peut référencer ces tables et les variables qu'elles contiennent. Il en est le créateur ou le propriétaire au sens de carto dynamique. Il pourra donner accès à ces données à divers projet en tant que donateur. La notion de propriétaire/créateur est à distinguer de celle de fournisseur.

Les tables de données localisées se rapportent à un niveau géographique, elles comprennent une ou plusieurs variables (attributs des entités géographiques de ce niveau en un ou plusieurs exemplaires). Si la table contient plusieurs variables celles-ci peuvent avoir des attributs de référencement propres (chaque variable de la table dispose de sa fiche d'identité). Si la table comprend plusieurs exemplaires (par exemple plusieurs dossiers d'aide publique par commune), la ou les clés secondaires sont référencées ainsi que les règles d'agrégation.

4. Les tables de données secondaires produites par l'application ("nouvelles variables") sont référencées comme les tables importées. Mais à chacune de ces variables sont associés une formule et les attributs correspondant aux variables de la formule. Les indicateurs présentés dans des thèmes ne sont nécessairement sauvegardés comme nouvelles variables.

5. Dans la mesure où plusieurs index peuvent concurremment servir à agréger des données, chaque clé "individuelle" fait l'objet d'une fiche documentaire (cartowiki). (A METTRE EN ŒUVRE)

les entités géographiques

A DEVELOPPER

les thèmes et dossiers thématiques

A DEVELOPPER