• Aucun résultat trouvé

Collecte et visualisation de données législatives avec

N/A
N/A
Protected

Academic year: 2022

Partager "Collecte et visualisation de données législatives avec"

Copied!
20
0
0

Texte intégral

(1)

François Briatte

Collecte et visualisation de

données législatives avec __

(2)

Données législatives

Nature des données : amendements, lois, votes… et parlementaires

Attributs des documents législatifs : date d’introduction, vote, mots-clés…

Attributs des parlementaires : âge, sexe, groupe politique, carrière…

Angles d’analyse

Unités de référence : chambres parlementaires, parlementaires individuels

Mesures classiques : productivité, efficacité (probabilité d’adoption)…

Mesures relationnelles : liens entre chambres et entre parlementaires

Thématique

(3)
(4)

1. Disponibilité des données non systématique

… avec plusieurs formats et/ou modalités de collecte selon les sources

● Sites Internet officiels des parlements

● Portails ‘open data’ (officiels ou pas)

2. Peu de littérature sur la collecte des données

… alors que les incitations à publier des données brutes augmentent

● dans les appels à financement

● dans les processus d’évaluation

Problème

(5)
(6)

Contraintes

1. Cadrage comparatif : collecte de données dans plusieurs chambres parlementaires, sur plusieurs pays

Échantillon : 33 pays européens

2. Méthode programmatique : aussi peu de récupération manuelle que possible, 100% sources publiques

Langage privilégié : R

Interfaces avec C, Python, SQL, etc.

Modélisation de données réseaux

(7)

Cadrage

1. Parlements nationaux

Chambres basses (assemblées) et hautes (sénats)

Parlementaires nationaux ou fédérés

Ex. Suisse : Conseil national, Conseil des États

2. Propositions de loi

Contrainte légale en cas d’adoption

Signatures nominatives individuelles

Ex. France : signatures de groupes parlementaires

(8)
(9)

Méthodes

1. Scraping

1.1. Données sur les propositions de loi 1.2. Données sur les parlementaires

Note : dumps non automatisés – pas de mise à jour automatique des bases comme avec Python ou Ruby via Morph.io

2. Réseaux

2.1. Extraction de variables standardisées 2.2. Construction et visualisation des réseaux

Note : standardisation limitée – certains attributs des parlementaires et/ou des propositions de loi sont difficilement comparables

(10)

github.com/briatte/parlnet

1. one submodule per country

— replication code

— network data

— codebook and notes

2. additional documentation

— network measures

— links to article preprints

— link to raw data dump

(11)

Scraping

Download

● utils::download.file

● httr::GET

● psql # interfaçable avec dplyr via RPostgreSQL

Parsing

● rvest::read_html # xml2::read_html

● rvest::read_xml # xml2::read_xml

● jsonlite::fromJSON

● XML # supplanté par xml2 + rvest

(12)

1. download raw HTML files

2. parse HTML and get variables using CSSSelect or XPath to back them up later

3. save to intermediary CSV file to save time on re-run

(13)

Réseaux

Assemblage

● base::expand.grid # créer les liens

● base::aggregate # pondérer les liens

● network::network # résultat : objet de classe network

Attributs

● sna::degree # centralité

● tnet::degree_w # centralité pondérée

● igraph::modularity # modularité

(14)

1. buid directed edge list

2. compute edge weights (see paper appendix) (possibly redundant)

3. verify edge weights (non-redundant)

(15)

Visualisation

Statique

Syntaxes idiosyncrasiques : igraph, network, sna

Syntaxes ggplot2 : geomnet, ggraph, ggnet, ggnetwork

# voir github.com/sctyner/ggnet-paper

Interactive

Avec R + d3.js : networkD3, ndtv

Avec Gephi : format GEXF # exportable avec rgexf

Avec JavaScript + PHP : Sigma # lit le GEXF

(16)
(17)
(18)
(19)

visualisation

Résumé

HTML, JSON,

SQL, XML httr, jsonlite,

rvest, XML

HTML (raw) CSV (processed) dplyr, igraph,

network, sna

network (objects) d3Network, ggplot2,

ggnetwork, rgexf

GEXF (Gephi) JavaScript, PHP,

HTML/CSS

scraping

réseaux

‘dataviz’

(20)

goo.gl/E96b9M phnk

Merci pour votre attention

Références

Documents relatifs

Le graphe des dépendances est une étape intéressante car il épure le dictionnaire en ne retenant que les données non déduites et élémentaires et permet une représentation spatiale

L’entretien de collecte des données couvre les échanges que la soignante établit à l’arrivée de la personne, afin recueillir les informations dont elle a besoin pour

- Définition du processus de collecte : acteurs et rôles (contributeurs, valideurs, consolideurs) et des- cription des étapes du processus (production et transmission des données

La feuille intitulée Divers contient 5 pages pour que vous y inscriviez la consommation et les coûts par compteur ainsi qu’un sommaire de 1 page.. ▪

d’adjonction aux éléments qu’ils déterminent, le type d’agencement des unités dans l’énoncé… (cf. Par la confrontation de ces vestiges caractérisant les

Initialement prevue du 3 au 27 mars 1997 dans cinq pays, la mission s'est finalement deroulee dans quatre (Mali, Burkina Faso, Cote d'lvoire et Ghana) du 3 au 22 mars 1997.. La

1 Outre la répétitivité et la fréquence des enquêtes, les autres critères qui caractérisent un bon système national de surveillance sont, entre autres, la comparabilité ;

A côté d’une analyse de discours spécifique à développer en formation d’enseignants, faudrait-il une approche méthodologique spécifique pour faire entrer de tels