Fichiers longitudinaux des cotisants MSA
A partir des fichiers des non salariés agricoles et des salariés agricoles, nous utilisons les identifiants cryptés uniques et les numéros SIRET des exploitations pour créer des bases longitudinales permettant de suivre les exploitants, les exploitations et les salariés agricoles dans le temps. Ces bases servent ensuite à créer des « cohortes » par exemple une cohorte des exploitants agricoles installés ou des exploitants sortants sur la période dont nous disposons.
Description des bases créées
Bases sur individus
BASE_INDIV_NS : une ligne correspond à un id_cryp (identifiant crypté) des fichiers non salariés
Cette table est construite à partir des fichiers cotns_XXXX_ajour de façon à avoir une seule ligne par individu (id_cryp). Nous récupérons dans cette table les informations uniques sur les individus telles que le sexe, la date de naissance, l’année d’installation minimum et maximum apparaissant des les fichiers. Pour le sexe et la date de naissance, nous récupérons l’occurrence non nulle la plus fréquente. Pour les années d’installation, nous récupérons l’année minimum et maximum rencontrées si elles sont non nulles. Cette table a seulement pour utilité d’être référence pour la liste des identifiants cryptés et leurs informations immuables sur la période. Elle n’a pas vocation à être utilisée dans des projets mais les informations qu’elle contient seront réinjectées dans les différentes tables longitudinales construites.
Cette table a aujourd’hui 1 030 147 lignes.
BASE_IDCRYP : une ligne correspond à un id_cryp
Cette table est créée à partir de la table BASE_INDIV_NS et des bases cotns_XXXX_ajour. Nous avons également ici une ligne par identifiant (id_cryp) présent dans COTNS au moins une fois sur la période et contient les informations susceptibles de nous intéresser dans des projets sur la période. D’une part nous rapatrions les informations de BASE_INDIV_NS, et d’autre part nous rapatrions les informations liées à cet identifiant contenues dans cotns_XXXX_ajour. Par exemple nous récupérons chaque année la présence ou non de l’individu (PRES_2002, PRES_2003, …, PRES_2010), le numéro d’exploitation chaque année (NUM_EXP2_2002, …, NUM_EXP2_2010). Ces données sont stockées au format WIDE pour deux raisons : pour un problème de taille et pour pouvoir faire facilement des sélections dans SQL et dans CARTO.
Pour des sélections trop complexes sur ces tables, nous créons des fichiers de cohortes (par exemple pour récupérer les installés sur la période ainsi que leurs infos la première année).
Sur la table BASE_IDCRYP nous créons ensuite un certain nombre de variables concernant l’individu sur la période telles que la date de son entrée dans les fichiers COTNS, de sa sortie, s’il est cotisant solidaire au moins une fois sur la période ou toujours cotisant solidaire, …
Cette table a aujourd’hui 1 030 147 lignes.
NB : nous conservons la table BASE_INDIV_NS même après la création de BASE_ID_CRYP car elle est longue à générer et que récupérer les informations telles que le sexe calculé unique dans BASE_ID_CRYP utilise beaucoup de ressources compte tenu de la taille de la table BASE_ID_CRYP qui contient aujourd’hui 249 variables.
BASE_IDCRYP_commune
Cette table est créée à partir de BASE_INDIV_NS, des tables cotns_XXXX_ajour et de BASE_ID_CRYP. Elle est construite pour avoir une ligne par individu et par commune pour tous les individus apparaissant au moins une fois dans COTNS et pour chaque commune dans lesquelles ils sont présents. Elle est basée sur le même schéma que la table BASE_IDCRYP en ne recueillant chaque année uniquement les infirmations liées à l’identifiant ‘sur la commune’.
Cette table contient aujourd’hui 1 084 366 lignes.
BASE_INDIV_SAL : une ligne correspond à un num (identifiant crypté) dans fichiers salariés
Cette table est construite à partir des fichiers sisal_XXXX_ajour de façon à avoir une seule ligne par individu (num). Nous récupérons dans cette table les informations uniques sur les individus telles que le sexe, la date de naissance et la nationalité apparaissant des les fichiers. Nous récupérons l’occurrence non nulle la plus fréquente. Nous récupérons également le nombre de contrat chaque année pour chaque individu.
Cette table a aujourd’hui 4 889 704 lignes.
Bases sur exploitations
BASE_SIREN : une ligne correspond à un num_exp2 (numéro SIRET) des exploitations des fichiers non salariés
Cette table est construite à partir des fichiers cotnsXXXX_expl (Fichiers des cotisants non salariés regroupés par exploitation) de façon à avoir une seule ligne par numéro SIRET. Nous récupérons dans cette table les informations qui apparaissent chaque année dans les tables cotnsXXXX_expl. Nous déterminons ensuite sur cette table la date d’entrée et de sortie des exploitations dans les fichiers.
Cette table a aujourd’hui 1 002 557 lignes.
Voir aussi : Donnée
Voir aussi : MSA
Voir aussi : Données des cotisants non salariés
Voir aussi : Données des cotisants salariés