Mercredi 4 juillet | Wednesday July 4

8h30 – 8h55 | Enregistrement / Registration [SH-4800]

L’enregistrement se fait dans la salle SH-4800. Suivez les indications à partir du hall du pavillon SH.

Registration is done in room SH-4800. Follow indications from the entry of the SH building.

9h-12h30 | Introduction à R [SH-3620]

Atelier donné par Hector Galvez et Patricia Goerner-Potvin


Dans cet atelier, les participants vont apprendre les concepts de base du langage R et compléter de courts exercices de programmation. Le matériel couvert inclut l’environment R, R studio et CRAN, les forces et faiblesses de R démontrées par des exemples d’usages appropriés, ainsi que les classes et éléments de base du langage tels que data frame, vector, list, character, integer, et factor. Pour la partie interactive, les participants apprendront à installer des packages, importer et exporter des données, et manipuler des tableaux et vecteurs. Finalement, une démonstration de différentes façons de programmer en R tel que les R markdown et reports donneront un aperçu des potentiels de R.
L’atelier s’adresse aux débutant n’ayant jamais programmé en R, ou autre langage, et a pour objectif de fournir les concepts de base nécessaires à un apprentissage autonome continu. Les participants devront apporter leur ordinateur et avoir installé R et R studio au préalable.

9h-12h30 | Introduction to R [SH-3420]

Tutorial by Adrian Zetner, Canada Public Health Agency of Winnipeg


This workshop will introduce the R programming language in an accessible manner to those with little to no experience with programming. A brief primer on all things R will be followed with interactive exercises and teaching of foundational concepts. The workshop will begin with a look at the R ecosystem including CRAN, RStudio, and finding / installing packages. We will move into guided exercises to introduce you to two important classes of data in R: vectors and data frames. Armed with this knowledge we will look into functional programming and scripting. After this course you will be well equipped to use R at a basic level and continue learning more advanced concepts.

To participate please bring a laptop with the latest versions of R and RStudio installed. No pre-installed packages will be required.

9h-12h30 | Introduction à ggplot2 [SH-2420]
[Atelier donné par Julie Faure-Lacroix, Calcul Québec]


Avoir la capacité de produire des graphiques élégants et pertinents est un atout essentiel en recherche. Dans cette formation, nous aborderons les bonnes pratiques en visualisation de données ainsi que les possibilités offertes par le package ggplot2. Il s’agit d’un package basé sur la grammar of graphics et qui permet de créer un vaste éventail de graphiques, des plus simples aux plus complexes. Nous aborderons entre autres les concepts de couches (layers), les propriétés graphiques (aesthetics), les éléments graphiques (geometries), ainsi que les statistiques représentées graphiquement (statistics). Cette formation vous permettra de choisir un type de visualisation correspondant aux données dont vous disposez et ensuite le représenter graphiquement de façon rapide et flexible.

[ggplot2 et dplyr seront les seuls packages nécessaires pour l’atelier, mais il est possible d’installer directement tidyverse si vous le souhaitez].

( 10h30 – 11h00 | Pause-café / Coffee Break )

12h30 – 13h30 | Dîner / Lunch [SH-4800]

13h30-17h | R en bioinformatique [SH-3620]

Atelier donné par François Lefebvre et Emmanuel Gonzalez, Canadian Centre for Computational Genomics


R est sans contredit l’un des langages de programmation parmi les plus utiles au traitement et à l’analyse de données en sciences biologiques. Cet atelier offrira un survol pratique de différents types de données avec lesquelles travaille un bio-informaticien, ainsi que des packages R les plus couramment employés pour leur analyse. Seront abordés: intégrations de séquences biologiques (genomes, tumeurs, virus, bactéries), manipulation d’intervalles génomique, visualisations et analyse d’expression génique et une analyse d’un microbiome.
Une liste des packages nécessaires sera transmise directement aux participants.

13h30-17h | Machine Learning [SH-3420]

Tutorial by Vahid Partovi Nia, Huawei Technologies, Ecole Polytechnique de Montreal


The aim of this workshop is to introduce some elementary R skills such as data loading, data pre-processing, and data visualization. We will practice some machine learning libraries to execute several supervised, unsupervised, and semi-supervised learning algorithms. Please install R and packages: MASS, scatterplot3d, e1071, neuralnet, deepnet
Machine learning requires a wrap of several skills, such as coding, optimization, statistics, and data analysis. This set of skills facilitates extraction of knowledge from large volumes of structured or unstructured data. It is a subfield of artificial intelligence with the purpose of discovering the underlying pattern of data through predictive modeling. The ultimate goal is to adopt data preprocessing, statistics, and black box predictive algorithms in order to draw conclusions and take (automatic) actions from (large amount of) data.

13h30-17h | Interactive Graphics with loon [SH-2420]

Tutorial by Wayne Oldford, University of Waterloo


Loon is an interactive visualization toolkit for analysts/users/developers engaged in open-ended, creative, and possibly unscripted data exploration. Loon‘s base set of plots include scatterplots, histograms, barplots, parallel and radial axes plots, graph structures, and any combination of these. Designed for interactive exploratory data analysis, loon plots can be horizontally/vertically panned, horizontally/vertically zoomed, and have plot elements linked to one another to effect such coordinated display behaviour as the selection of points, brushing, etc. Beyond a standard suite, loon scatterplots allow a wide variety of point glyphs including serial axes glyphs, text strings, or any custom designed image. Point glyphs may be interactively changed (e.g. colours, shape, size, image, visibility, even location) and functions written which react to any of these changes (thus permitting new interactive possibilities). Scatterplots are also layered, where each layer may contain any number of graphic elements (e.g. lines, circles, polygons, text, etc.), and layers may be made invisible or moved up or down the rendering stack. Common uses of layers include maps and display of fitted functions; layered elements are objects which can also be made to react to arbitrary changes in the display. A “loon inspector” provides a central control panel shared by all plots but which adapts to whichever is the active plot.

In this tutorial, participants will become familiar with loon’s functionality through a series of examples and hands-on exercises. These will cover a wide spectrum of applications beginning with data analysis, including high-dimensional exploratory data analysis, methodological exploration for the classroom or research, as well as exploratory prototyping of new interactive visualizations. To get a full sense of loon’s power, it is highly recommended that participants come with a laptop having installed loon (from CRAN) prior to the tutorial.

( 15h00 – 15h30 | Pause-café / Coffee Break )

Jeudi 5 juillet | Thursday July 5

8h30 – 8h50 | Enregistrement / Registration [SH-4800]

L’enregistrement se fait dans la salle Polyvalente (SH-4800). Suivez les indications à partir du hall d’entrée du pavillon SH.

Registration is done in room Polyvalente (SH-4800). Follow indications from the entry of the SH building.

8h55 – 9h00 | Session d’ouverture / Opening session [SH-2800]
9h00 - 10h15 | Session plénière / Plenary Session : Daniel Stubbs; Premiers pas sur les grappes de Calcul Québec [SH-2800]

Cette séance donne un aperçu de l’usage des grappes de calcul (super-ordinateurs) de Calcul Canada, orienté vers les usagers de R. Elle commence par une brève description de l’organisation de Calcul Canada et ses partenaires régionaux (dont Calcul Québec) et montre ensuite comment obtenir un compte sur une des grappes et comment s’y brancher à partir de son poste de travail. On discute de l’usage des logiciels scientifiques avec une concentration sur R et ses bibliothèques (packages), la soumission des tâches pour faire des calculs et le stockage des données sur les grappes ainsi que leur transfert. Aucune connaissance particulière n’est nécessaire pour assister à cette séance.

10h15 – 10h45 | Pause-café / Coffee Break [SH-4800]

10h45 – 12h15 | Session contribuée I : Modèles et outils statistiques / Contributed Session I : Statistical Tools and Models [SH-2800]
  • 10h45: Catherine Schramm, “KSPM: an R package for Kernel Semi-Parametric Models”
  • For complex traits, polygenic in nature, most genetic variants have null or small individual effects, and although interactions are thought to exist, there is little power to identify them. Contrary to models assuming additive and linear effects of variants, kernel semi-parametric models (kspm) can capture and test nonlinear effects and interactions between many variables simultaneously and hence may help to analyse these data. Since only few programs are available and none includes a complete set of features, we propose an R package, KSPM, to fit kspm and its extensions in a unified framework. KSPM allows multiple kernels and unlimited interactions in the same model. Coefficients are estimated by maximizing a penalized log-likelihood; penalization terms and hyperparameters are estimated by minimizing leave-one-out error. KSPM includes predictions with confidence/prediction intervals, tests for the significance of each kernel, a procedure for variable selection and graphical tools for diagnostics and interpretation of covariate effects. Currently KSPM is implemented for continuous dependent variables but can be extended to binary outcomes.

  • 11h15: Rebecq, Antoine: “Icarus, an R package for sampling data”
  • We present the R package Icarus which implements calibration on margins, a reweighting technique that was created in the context of survey sampling. The package offers a set of tools to help the statistician user choose a set of parameters that is most suited to each case. This includes some graphs and meta-information, some of which also help spot possible coding errors in the databases.

    Calibration and the package Icarus have various applications for data scientists at Ubisoft. Besides being used in traditional marketing surveys, sampling and calibration are also useful tools in the context of big data.

    The volume of data handled daily by data engineers is huge, and sampling is often used to reduce the load while keeping a good statistical quality. Nevertheless, this produces some imbalances in the datasets that data scientists have to account for.

    In particular, imbalances can affect performance and interpretability of some machine learning algorithms. Calibration can act as a good tool to treat them.

  • 11h45: Comtois, Dominic, “Présentation de summarytools, bibliothèque pour statistiques descriptives et reporting”
  • summarytools est une bibliothèque R permettant de créer rapidement
    – Des tableaux de fréquences avec freq()
    – Des statistiques descriptives (univariées) avec descr()
    – Des tableaux croisés avec ctable()
    – Des tableaux synthèse de jeux de données avec dfSummary()

    Une attention particulière a été portée autant au « quoi » qu’au « comment », de telle sorte que le package est à la fois un outil d’exploration de données et un outil de reporting en soi.

    Caractéristiques principales :
    – Formats de résultats multiples (ascii, Rmarkdown, html)
    – Simple à intégrer à des documents Rmarkdown avec knitr
    – freq() et descr() supportent les poids échantillonaux
    – Les statistiques en sous-groupes avec by() sont bien intégrées

    summarytools est une bonne porte d’entrée pour les nouveaux utilisateurs de R, puisqu’ils y trouveront des fonctions similaires à celles de suites statistiques comme SAS ou SPSS.

    En plus de présenter les différentes fonctions et leur intégration à Rmarkdown/knitr, les thèmes suivants pourront être abordés, selon le niveau de connaissances et l’intérêt des participants :

    – Défis propres à la création de packages et à la publication sur CRAN, de même que les défis techniques particuliers rencontrés dans la création de la bibliothèque
    – L’utilisation de roxygen2 pour faciliter la documentation
    – Les outils devtools et goodpractice

12h15 – 13h45 | Dîner / Lunch [SH-4800]

13h45 – 15h15 | Session contribuée II : Outils de programmation / Contributed Session II : Programming Tools [SH-2800]
  • 13h45: Nash, John C., “Édition de vignettes par tâches multi-contributeurs”
  • The CRAN Task Views have proved helpful to countless R users in learning about packages available for computational, analytical and data management tasks. Unfortunately, the very large number of packages and their variable features and quality present Task View authors with a large challenge.
    Most Task Views are prepared by only one or two authors, and the main information in these documents is derived from the DESCRIPTION file of packages.

    Using the Optimization Task View as an illustration, this talk will present some ideas that attempt to provide the infrastructure for a curated multi-contributor set of linked documents that try to adress the needs of R users to learn about packages in a particular domain of work.
    Some of the topics considered are:
    – how R users seek information, for example, by end-user problem, mathematical sub-task, or other handle into the subject
    – what approaches might be provided so many users can contribute opinions and suggestions that might be incompletely developed. For example, there are at least 4 Nelder-Mead offerings on CRAN, and no standardized comparison of performance to my knowledge.
    – the need for curation / moderation to preserve balance
    – some steps toward a simple infrastructure to implement these ideas
    – some feature requests to help automate new package discovery for the Task View pages.

  • 14h15: Goulet, Vincent, “Programmer pour collaborer: utilisation et conception d’une interface de programmation applicative”
  • Si vous avez déjà intégré du code C/C++ dans votre paquetage, vous savez que R rend disponible aux développeurs un grand nombre de fonctions internes C et Fortran par le biais d’une interface de
    programmation applicative (API). Ce qui est peut-être moins bien connu, c’est que votre paquetage peut autant importer les fonctionnalités d’un autre paquetage qu’exporter les siennes propres. Nous expliquerons comme procéder à l’aide de notre paquetage \textbf{expint}, qui fournit des fonctions pour calculer les fonctions exponentielle intégrale et gamma incomplète.

  • 14h45: Le Cavalier, Jean-Philippe, “Travail reproductive avec packrat”
  • Bien que l’utilisation des langages de programmation open-source soit de plus en plus acceptée au sein d’organisations historiquement craintives, on entend souvent des critiques face à l’évolution rapide de ces langages entraînant un manque de stabilité dans un contexte professionnel. Certaines compagnies ont d’ailleurs lancé des produits un peu plus conventionnels pour faciliter l’intégration de R en entreprise. J’en conviens, certaines de ces solution fonctionnent bien, assurent un grand niveau de reproductibilité et sont bien adaptées pour les utilisateurs qui recherchent un produit clé en main.

    Mon humble opinion est que ce genre de solution commerciale propose certe une facilité de reproductibilité, mais au détriment de l’agilité habituelle à intégrer les toutes dernières versions de librairies toujours en développement actif. La librairie packrat assure la reproductibilité d’un projet dans le temps sans n’avoir aucun désavantage collatéral. L’idée derrière packrat est d’attacher à un projet ses propres librairies plutôt que d’utiliser les librairies du l’utilisateur, ce qui est le comportement par défaut lorsqu’on exécute du code R.

    Ma présentation se veut donc une introduction à la librairie packrat, à son intégration dans RStudio et à l’interraction qu’il peut y avoir entre l’utilisation combinée de packrat et Git dans un même projet.

15h15 – 15h45 | Pause-café / Coffee Break [SH-4800]

15h45 – 17h00 | Session plénière / Plenary Session : Julie Josse: A Missing Values Tour with Principal Components Methods [SH-2800]

The problem of missing values exists since the earliest attempts of exploiting data as a source of knowledge as it lies intrinsically in the process of obtaining, recording, and preparation of the data itself. Clearly, “The best thing to do with missing values is not to have any”, but in the contemporary world of increasingly growing demand in statistical justification and amounts of accessible data this is not always the case, if not to say more. Missing values occur for a variety of reasons : machines that fail, survey participants who do not answer certain questions, destroyed or lost data, dead animals, damaged plants, etc. In addition, the problem of missing data is almost ubiquitous for anyone analyzing multi-sources data, performing meta analysis, etc. Missing values are problematic since most statistical methods can not be applied directly on a incomplete data. In this talk, we will present different single imputation methods and their implementation, we will focus on imputation based on principal component methods that have showed excellent performance in recommendation systems problems. Indeed, the methods can handle large matrices with large amount of missing entries. We will show how to extend it to multiple imputation. We present other popular techniques to impute missing values, discuss the potential pitfalls of the different approaches and challenges that need to be addressed in the future.

17h00 – 18h00 | Conférences éclairs / Lightning Talks [SH-2800]

Conférenciers (par ordre alphabétique / by alphabetical order)

  1. Romain Le Duc, William Sanger, Thierry Warin: Dynamique mondiale de la révolution industrielle 4.0 : une cartographie mondiale basée sur R des brevets en intelligence artificielle
  2. Le développement technologique des dernières décennies a permis l’émergence et le début de la démocratisation de l’intelligence artificielle appliquée à l’ensemble des secteurs industriels. De développements académiques à retombées industrielles, les apports de l’intelligence artificielle se reflètent sous plusieurs dimensions.

    Cette présentation dresse une cartographie globale de l’innovation en intelligence artificielle au cours des quarante dernières années. Reposant sur une méthodologie exclusivement issue de la Science des données, nous avons construit une base de données regroupant plus de 172 000 brevets en intelligence artificielle publiés à travers le monde.

    Plusieurs niveaux d’analyses seront abordés au cours de la présentation. D’où émergent les découvertes dans le domaine de l’intelligence artificielle? Quels sont les secteurs les plus prolifiques? Que révèle le contenu des brevets déposés auprès des organismes internationaux? Comment mesurer les différences nationales à travers les années et à travers les domaines d’innovation?

    La quantification d’informations non structurées reste un défi méthodologique en Sciences sociales. Nous présenterons des méthodes permettant de mettre en valeur, comparer et analyser de manière réplicable l’information issue de ces 172 000 brevets, ce qui ne serait faisable sans processus de recherche en Sciences de données. Nous utilisons la plateforme Nüance-R qui offre une intégration et une interface simplifiées pour l’analyse des données en R et Python, à travers différentes méthodes d’estimation.

  3. Sahir Bhatnagar
  4. With the ever increasing size of data and complexity of methods required to analyze them, the reproducibility of results is necessary to ensure a high quality of scientific research. At the same time, there has been a shift in the way research is disseminated. Preprint servers, blogs, GitHub and Twitter are free platforms that significantly reduce publication time enabling researchers to rapidly share ideas, generate discussion, publish code and promote their work. In this workshop I will introduce the essential tools of a reproducible workflow. Starting from a raw dataset, I will show how I structure my analysis scripts, create dynamic documents using Rmarkdown and keep track of the changes to the analysis through version control with Git. I will then create a website and publish the results online in the form of a blog post.

  5. Mathieu Dupont: Drawing heatmaps from scratch with R: example and variations
  6. R plots are known for their publication-quality level, and good packages such as the powerful GGplot2 help make high-quality scientific figures. However, sometimes even flexible tools like GGplot2 are too restrictive to produce what we seek. Nonetheless, it is easy in R to draw scientific figures from scratch. As an example, I will show how to draw a genetic linkage disequilibrium (LD) heatmap using polygons, and a few variations.

  7. Etienne Racine: Out-of-memory computation with dplyr
  8. R is typically limited to the available RAM, however the `dplyr` package allows to link to an out-of-memory table through a database (or spark) connection using the `dbplyr` package. Some transformations can even be executed in the database (or cluster). It renders to `SQL` all `dplyr` transformations you know: `select`, `mutate`, `filter`, `*_join` and others, which opens new possibilities for data scientists. In this talk I’ll present `dplyr`’s interface and explain how to setup the database connexion. I’ll also give an example that leverages this interface for spatial computation using the `sf` package.

  9. Guillaume Couture-Piche: Prédire le type d’un Pokémon avec sa couleur
  10. En 20 ans d’existence, plus de 800 Pokémon ont été créés. Il peut être difficile de demeurer à jour sur leurs noms et leurs caractéristiques. Généralement, nous pouvons deviner le type qu’aura un Pokémon par sa palette de couleur. Par exemple, une couleur bleue sera associée au type eau (ex : Squirtle), tandis que qu’un Pokémon jaune sera de type électricité (ex : Pikachu). Bien que cette catégorisation puisse se faire de façon intuitive pour un Maître-Dresseur Pokémon, elle peut être plus difficile pour un débutant. Dans cette présentation, je montrerai comment j’ai utilisé R pour quantifier et modéliser cette intuition.

    Je commencerai par présenter comment transformer les images en un jeu de données analysable. Ensuite, je présenterai comment l’algorithme weighted k-nearest neighbors (librairie kknn) a été utilisé pour créer un simple modèle prédisant le type. Nous visualiserons certains des résultats sur des cercles chromatiques créés avec l’aide de la librairie ggplot2 ainsi que des visualisations 3D interactives avec la librairie plotly. Ainsi, grâce à la présentation, nous pourrons avoir une idée générale de quel type ont les Pokémon d’une certaine couleur.

  11. Paul Daigle, Thierry Warin: Fintech et Science des données : les robots conseillers ne manquent pas d’R
  12. Depuis Markowitz, l’écart-type des rendements est utilisé comme la mesure principale de risque pour construire les portefeuilles financiers. La prémisse est que la corrélation est un indicateur parfait pour évaluer les interactions entre les différents actifs. Cependant, dans des environnements informationnels incomplets et imparfaits, des défis apparaissent.

    Dans un contexte de transformation numérique des processus via l’apprentissage machine, de nouvelles méthodes émergent pour essayer de résoudre ces défis. Parmi eux, les réseaux bayésiens utilisent la parenté des variables pour inférer une forme de causalité et surtout capturer les dynamiques informationnelles, en utilisant les probabilités conditionnelles. Ce papier de recherche vise à évaluer la viabilité des réseaux bayésiens pour la gestion des risques, notamment via des simulations de scénarios. Les rendements historiques des 500 compagnies du S&P500 sont utilisés avec ceux de l’indice et des différents secteurs industriels afin de bâtir des réseaux bayésiens.

    Nous utilisons une plateforme dédiée à R (appelée Nüance-R) qui offre une intégration et une interface simplifiées pour l’analyse des données en R et Python, à travers différentes méthodes d’estimation.

    Dans un premier temps, nous testons l’efficacité de ces réseaux en comparant les distributions conditionnelles (des rendements des compagnies sur ceux du S&P500) prédites et celles historiques, via un test de Pearson (Chi-carré). Les modèles traditionnels tels que le CAPM ou les modèles multi-facteurs sont aussi testés et comparés. Dans un second temps, nous effectuons la même procédure pour les rendements des compagnies entre elles.

  13. Christophe Mondin, Nathalie de Marcellis-Warin, Thierry Warin, Ann Backus: Cartographie en R des publications scientifiques sur le gaz de schiste : perspectives pour la santé et l’environnement
  14. Les États-Unis sont le seul pays au monde où la fracturation hydraulique, une méthode de production d’hydrocarbures non-conventionnelle, s’est fortement implantée et continue à se développer à grande vitesse.

    A l’inverse, de nombreux gouvernements restent prudents face à l’exploitation des huiles et gaz de schiste, le recours aux techniques de fracking s’accompagnant de sérieuses préoccupations face aux risques pour la santé publique et l’environnement.

    Sous la forme de cartes, FrackProject présente trois niveaux d’analyse de cette industrie : (1) FrackMap avec ses données empiriques et économiques relatives à l’activité de l’industrie); (2) FrackBiblio avec ses données non-structurées et localisées issues de la revue de littérature systématique; (3) FrackTweet avec ses données non-structurées et localisées issues des réseaux sociaux. Localiser les données sert à produire des cartes interactives, offrant un prisme d’analyse des différents enjeux relatifs à l’industrie de la fracturation hydraulique. Le package Leaflet est largement utilisé pour ce projet ainsi que d’autres outils utiles à l’analyse géographique.

    En illustrant les préoccupations des scientifiques ainsi que celles du public sous forme de cartes, FrackProject présente une nouvelle perspective au sujet et permet d’informer le public et les décideurs (e.g. soutenir les politiques publiques).

  15. William Sanger, Thierry Warin: Populisme et R : analyse textuelle des manifestes politiques écrits en différentes langues
  16. Au cours des dernières années, la montée du populisme s’est matérialisée lors de certaines élections au sein de pays que l’on croyait pourtant solidement ancrés dans les principes démocratiques. Edgar Morin parle même d’une période de régression historique. De l’élection du président Trump au Brexit, les programmes des partis politiques traditionnels (appelés partis de gouvernement) sont devenus très proches des partis contestataires, et notamment populistes.

    Comment caractériser la montée du populisme politique en Europe? Est-ce que cette montée est le fruit essentiellement des partis contestataires ou y a-t-il une dynamique de rapprochement des partis de gouvernement vers les partis contestataires? Cet article est une des premières contributions à la mesure empirique de la dynamique des partis de gouvernement et des partis contestataires.

    Pour répondre à ces questions, nous utilisons une base de données détaillée donnant accès aux textes politiques originaux depuis 1945, et une méthodologie exclusivement basée sur R pour le traitement de ces données volumineuses. Au total, ce sont 12 millions de mots qui sont comparés (676 manifestes politiques provenant de 28 pays pendant 17 ans). Les coefficients de Jaccard sont utilisés pour mesurer à travers le temps et à travers l’Europe la vraisemblance des propositions populistes avec celles des partis de gouvernement.

    La présentation se concentrera sur trois aspects de la recherche:

    1. L’accès aux données de manifestes politiques à travers l’utilisation de la librairie ManifestoR

    2. La transformation des données textuelles à l’aide du tidyverse, l’optimisation du processus de comparaison et la mise au point de mesures pour comparer les différents textes dans les différentes langues (librarie textreuse)

    3. L’utilisation de ces nouveaux indicateurs en sciences politiques, notamment pour l’analyse de l’électeur médian et la mesure des partis de gouvernement.

18h00 – 20h30 | Cocktail dinatoire / Dinner Cocktail

Vendredi 6 juillet | Friday July 6

9h00 – 10h15 | Session plénière / Plenary Session : Arun Srinivasan: 12 Years of data.table - history, my Contributions and Future Plans [SH-2800]

10h15 – 10h45 | Pause-café / Coffee Break [SH-4800]

10h45 – 12h15 | Session contribuée III : Biostatistique / Contributed Session III : Biostatistics [SH-2800]
  • 10h45: Saha-Chaudhuri, Paramita, “R for Assesing Time-Dependent Prediction Accuracy”
  • Time-dependent Prediction accuracy extends the model discrimination measures such as the ROC framework for assessment of accuracy of survival prediction model. In this talk, we will introduce the relevant concept and recent developments in this research area with a focus on application of these methods using several available R packages developed by Dr. Saha-Chaudhuri and her collaobrators. We will demonstrate the application using real life data of transplant patients.

  • 11h15: Fournier, Patrick, “Gene Mapping Based on the Ancestral Recombination Graph”
  • Genotype-phenotype association studies are often conducted using so-called “traditional” statistical methods relying on p-values. One major drawback of these methods is that the multiple testing problem makes it nearly impossible to control type I and type II error simultaneously. Existing R packages that address this issue are available. For instance, the package genphen, available on Bioconductor, uses a combination of Bayesian hierarchical modeling and machine learning techniques to efficiently analyze SNPs and SAAPs data. In the past two decades, the ancestral recombination graph (ARG) started to be used used to perform genotype-phenotype association studies. These approaches effectively addresses the multiple testing problem. However, the inherent computational burden has been prohibitive. To address the issues arising from the usage of traditional statistical methods in an efficient way, we developed MoonShineR. This package differs from genphen in the methodology used. Instead of machine learning or Bayesian inference, it uses our own algorithm, called “MoonShine”, to analyze SNPs data. MoonShine is based on an approximation that arises from a spatial (rather than temporal) conception of the ARG.

  • 11h45: Simoneau, Gabrielle, “Survival endpoints in the DTRreg R package for Dynamic Treatment Regimes”
  • The R package DTRreg provides tools for the application of sophisticated dynamic treatment regimes (DTR) methods to real-life problems. A DTR is the statistical study of personalized medicine in which treatment decisions are tailored to evolving, patient-level information. Individuals are followed through multiple stages of clinical intervention, and the statistical goal is to perform inferences on the sequence of individualized treatment decision rules to be applied in practice. Of interest is the identification of an optimal DTR, that is, the sequence of treatment decisions that yields the best expected outcome. When the outcome of interest is continuous uncensored, the DTRreg package provides three methods to estimate an optimal DTR: Dynamic Weighted Ordinary Least Squares (dWOLS), G-estimation and Q-learning. It also provides tools for valid inferences with dWOLS including an adaptive m-out-of-n bootstrap. I contribute to this package by implementing a new DTR method that can handle survival data. Time-to-event data are typically subject to right-censoring which complicates the estimation of an optimal DTR. The new method is implemented in the function dWSurv. In this poster, I present the workflow of a typical data analysis with dWSurv and provide details on the internal structure of the function when relevant.

12h15 – 12h20 | Session de fermeture / Ending Session [SH-2800]