Dataholic

Aikido: 20 ans et une ceinture noire plus tard

Sat, 23 Dec 2023 09:00:00 +0000

Des hauts, des bas, des arrêts, des reprises et, finalement, l’impression de commencer à maîtriser quelque chose.

Avant le congé des fêtes, j’ai eu le plaisir de recevoir le grade de shodan, soit le premier niveau de ceinture noire en aikido. Mon but ici n’est pas de me flatter l’égo (ou pas tant), mais de partager ce que cette pratique m’apporte, bien au-delà du tatami, dans un contexte où j’essaie souvent d’expliquer que l’aikido est un guide pour moi dans mon quotidien et notamment au travail.

Ma mémoire ayant ses défaillances, je pensais avoir entamé mon cheminement en 2005. En fait, mon blogue antédiluvien m’apprend que j’ai posé le pied sur le tatami d’Aikido de la Montagne en janvier 2004, soit il y a presque 20 ans! Dans les faits, c’est plus 15 ans de pratique active, entre 2000 et 2500 heures sur le tatami principalement à l’Aikikai de Montréal puis à McGill Aikido.

À l’époque, après mon second cours, j’écrivais

« Pour ce qui est de l’Aikido, ça implique que mes pieds ne sont jamais au bon endroit quand je fais une prise, donc je fais des croche-pattes à mes partenaires, je me retrouve trop loin ou dans le mauvais sens, bref c’est pas toujours facile ! »
(le 22 janvier 2005)

20 ans plus tard, il me semble que le constat demeure le même. Et pourtant, quel chemin réalisé depuis ! Mais l’important n’est pas sur le contrôle de mes membres.

Mais alors, pourquoi l’aikido?

« L’aikido, c’est un art de vivre. » Voici une des paroles du sensei invité lors du séminaire où j’ai obtenu ma ceinture. Pour moi, ceci résume parfaitement ma perspective. Au premier degré, c’est un système de combat complet (main nue, armé, seul ou à plusieurs). Au second degré, c’est effectivement une philosophie de vie.

Plus précisément, pour moi, l’aikido est un “embodiment” de ce que je vis hors du tatami. Sans entrer dans un traité de philosophie, la logique d’embodiement est profondément liée au principe de monisme introduit par Spinoza: le corps et l’esprit sont les deux facettes de notre réalité (s’opposant donc au dualisme de Descartes par exemple). Selon ce principe, certaines activités physiques ont le pouvoir de soutenir un lien fort entre les états émotionnels, psychologiques ou spirituels et l’action physique.

Plusieurs arts martiaux intègrent le principe de non-opposition à la force, dans la mesure où les techniques permettent que ce ne soit pas (toujours) le plus puissant qui l’emporte. En aikido, ce principe est poussé à son comble selon le principe aiki: l’harmonie des énergies; faire que ce qui était deux (deux pratiquants, deux énergies, deux mouvements) ne fait plus qu’un. Pour en arriver à ce stade, il est primordial d’être dans un état physique (et donc mental) relâché pour percevoir l’énergie et les mouvements et s’y adapter.

Avant de pratiquer des frappes (coups de poing, etc.), le parcours d’aikido commence beaucoup par des saisies: saisies aux poignets, aux épaules, par-derrière, etc. Ces attaques ne sont pas nécessairement réalistes, mais elles permettent de sentir combien notre esprit se contracte lorsqu’on est “pris”. Au début, la majorité des pratiquants vont 1. se figer et 2. regarder le lieu de la saisie comme si le cerveau avait besoin de voir pour confirmer qu’il est pris. Et la réaction naturelle ensuite est de tirer, de reprendre le contrôle sur notre membre emprisonné -action en général vouée à l’échec pour peu que l’opposant tienne pour de vrai.

Le plaisir de la pratique

Pourtant, bien souvent, une simple prise n’est pas suffisante pour immobiliser une personne. Alors que l’esprit est naturellement concentré sur le point de la saisie, être en mouvement permet de percevoir tous les espaces de déplacement possibles.

Combien de fois se sent-on pris? Immobilisé par d’autres personnes, par les situations, etc. Pour moi, l’aikido est un moyen de ressentir à quel point le mouvement ne doit pas s’arrêter, les situations a priori bloquées peuvent ne pas l’être tant que ça. Mais pour percevoir les espaces de mouvement, il faut être relâché, il faut que tous nos sens soient en action. Évidemment, dans notre vie “mentale”, il est difficile de percevoir ces espaces de mouvement, tout comme il est difficile de sentir ce relâchement. Le fait de vivre ces situations de manière concrète et physique permet d’apprendre à percevoir tous ces possibles.

« For me the ultimate goal is the development of your inner and outer consciousness. Inner consciousness because if you want to change your body mechanics, you need to understand what your mind and body are doing. Outer consciousness is important for being able to engage spontaneously with other people. »
Leo Tamaki, Aikido Journal

Chaque fois que j’ai une bonne pratique, je ressens jusqu’au plus profond de mes fibres cette unité entre mon corps et mon esprit ainsi qu’avec le corps et l’esprit de mes partenaires. Et cela ouvre un vaste champ de transposition entre la pratique physique et les relations humaines en général. Ce que je trouve fascinant, c’est d’observer comment des idées parfois contradictoires, que l’on peut ressentir comme des dilemmes lorsque présentées de manière abstraite, peuvent en fait s’exprimer et être dépassées très concrètement en aikido. Il est possible, par exemple, de ressentir ce que veut dire accepter sans subir, s’efforcer de ne pas agir en victime sans pour autant devenir un agresseur ou encore comprendre qu’en étant inflexible, on se bloque beaucoup d’options de mouvement. Chaque expérience en aikido peut facilement être libératrice hors du tatami!

Je pourrais épiloguer encore longuement sur la pratique de l’aikido. Après chaque pratique, j’écris un billet de blogue au complet dans ma tête. Et en fin de compte, une des raisons pour lesquelles je ne passe que rarement à l’acte d’écriture, c’est la difficulté d’exprimer ce qu’on ressent physiquement dans ce genre de pratique, comment on ressent ses propres états et ceux de ceux avec qui on pratique.

20 ans derrière moi et j’espère encore 20 ans devant, voire plus. La beauté de l’aikido, c’est qu’il est possible de le pratiquer jusqu’à un âge assez avancé -si la santé le permet. Et c’est tant mieux, car la ceinture noire n’est que le début d’une nouvelle étape d’un chemin qui n’a pas vraiment de fin.

GPT & Co: ça ne change rien (2/2)

Tue, 30 May 2023 09:00:00 +0000

Après avoir expliqué pourquoi selon moi GPT est un game changer, je vais convoquer certaines théories critiques des technologies et de l’innovation pour souligner que ce nouveau “printemps de l’intelligence artificielle” ne fait que renforcer une trajectoire dans laquelle nous sommes déjà; en d’autres termes, ça ne change rien. Je défends ici une thèse, j’ai un parti pris que je vais m’efforcer de défendre. Toutefois, pour reprendre la citation de Fitzgerald dans mon précédent billet, ça n’exclut pas des interprétations différentes, voire a priori contradictoires. Quand bien même ma thèse serait en partie juste, ça n’empêche pas d’autres thèses antinomiques d’être non seulement défendables, mais de pouvoir également se réaliser.

Quelle contribution face aux crises longues?

Si j’avais encore un lecteur de feed RSS, il serait surement en surchauffe considérant le nombre d’articles sur les risques soulevés par les technologies du type de GPT, et une large proportion des discussions concernent la question de savoir si cela représente un risque existentiel pour l’Humanité. Cela amène une kyrielle d’obsessions cataclysmiques et surtout monopolisant les discussions. Comme avec les changements climatiques, il semble nécessaire d’invoquer le jugement dernier pour espérer des actions sérieuses.

Ma posture est la suivante: je ne sais pas si ces risques existentiels sont réalistes et s’ils le sont, je sais encore moins à quelle échéance. Et pour continuer sur le parallèle avec les changements climatiques (dont l’envergure exacte, les effets de rétroaction, etc. demeurent encore imprévisibles), je préfère m’occuper des causes et des conséquences actuelles, vérifiables et qui sont déjà bien assez inquiétantes pour ne pas agir. L’avantage des enjeux actuels, c’est que l’on sait de quoi on parle. Dit autrement, je préfère m’occuper des enjeux actuels en me disant que cela servira également à amoindrir les enjeux futurs plutôt que de penser uniquement en termes futurs incertains et laisser les problèmes actuels devenir insoutenables.

Dans un livre que je lisais récemment, le moine bouddhiste Matthieu Ricard relatait les propos d’un lama:

« La science et l’efficacité occidentale ont apporté une contribution majeure à des besoins mineurs. »

Cela met parfaitement la table pour la réflexion sur les modèles de langage comme GPT, les fameux LLM: répond-on à des besoins majeurs ou mineurs? Et j’ajouterai: pour quels risques?

Dire que nous faisons face à de multiples crises est rendu une lapalissade . Certaines perdurent depuis des siècles, comme les inégalités sociales, d’autres ont émergées dans les deux ou trois dernières décennies: crise climatique, extinction massive du vivant, crise de confiance dans les institutions, vieillissement dans les pays ayant passé leur transition démographique au milieu de XXe siècle, etc.

Est-ce que les travaux en intelligence artificielle peuvent sérieusement apporter une contribution à ces crises? Toutes sortes d’initiatives en IA existent depuis plusieurs années pour répondre positivement: modélisation du climat, amélioration des technologies propres, soutien aux personnes âgées en perte d’autonomie, et bien d’autres. Et les progrès réalisés avec GPT peuvent surement contribuer à améliorer certaines choses.

Toutefois la majorité des crises que nous vivons sont avant tout des crises politiques. En tant qu’Humanité, ce n’est pas l’incapacité technologique qui nous empêche de surmonter ces crises, c’est l’incapacité de prendre les bonnes décisions, ensemble, à l’échelle de la planète ou ne serait-ce qu’à l’échelle d’une société. On peut s’imaginer que la technologie est une voie (LA voie selon certains) pour sortir de ces crises sans avoir à faire preuve de courage politique et collectif, mais ça me semble du domaine du rêve. Pour des problèmes circonscrits, comme la couche d’ozone, nécessitant un courage politique modéré (retrait des CFC), la technologie peut être la réponse. Pour les crises plus complexes, les décisions politiques difficiles deviennent une nécessité. S’il suffisait d’avoir un modèle de langage qui nous dise quelle est la bonne marche à suivre, ce serait facile: nous avons déjà des tonnes de données nous disant quoi ne pas faire et pourtant ça continue. Bref, la lumière ne viendra pas d’une quelconque clairvoyance artificielle nourrie avec toute la sagesse du monde.

En d’autres termes, je ne vois pas comment les modèles de langage et autres transformers, pour ne parler que d’eux, peuvent avoir une influence plus que marginale pour naviguer toutes les crises auxquelles nous faisons face comme Humanité. Pour reprendre ma thèse: pas de changement de trajectoire ici. Ça ne veut pas dire qu’il ne faut pas explorer ces technologies, toute contribution est bonne à prendre. La question qui suit toutefois est la suivante: en échange de cette contribution marginale, qu’est-ce que nous acceptons collectivement?

Ivan Illich -une critique radicale la technologie

Non seulement ces technologies ne vont pas nous aider à changer de trajectoire dans les crises existantes, mais je vais même soutenir qu’elles vont renforcer certaines trajectoires néfastes dans lesquelles nous sommes déjà pris.

Je vais me baser sur la pensée d’Ivan Illich, penseur critique de la technologie malheureusement insuffisamment connu. Sa pensée, développée dans les années 70, demeure à mon avis indépassable à certains égards. Impossible de lui rendre justice dans un modeste billet de blogue, voici tout de même quelques principes que je mobilise ici et je commence par une citation:

« Au stade avancé de la production de masse, une société produit sa propre destruction. La nature est dénaturée. L’homme déraciné, castré de sa créativité, est verrouillé dans sa capsule individuelle. La collectivité est régie par le jeu combiné d’une polarisation exacerbée et d’une spécialisation à outrance. Le souci de toujours renouveler les modèles et les marchandises -obsolescence rongeuse du tissu social- produit une accélération du changement qui ruine le recours au précédent comme guide de l’action. Le monopole du mode industriel de production fait des hommes la matière première que travaille l’outil. »

De manière plus spécifique, Illich positionne plusieurs phénomènes invariables quant au développement de la technologie dans l’ère moderne:

Dépassement de seuil: partant d’un objectif spécifique, la majorité des outils (au sens très large, ça inclut même des éléments non technologiques comme les institutions) vont dépasser un seuil d’utilisation qui va amener une autonomisation de l’outil. Ce dernier va se retourner contre la fin qui a justifié sa création puis menacer le corps social au complet. Le principe d’autonomie de la technologie vient de Jacques Ellul qui remarque que la condition d’utilisation de la technologie dans un monde productiviste amène invariablement des usages insoupçonnés, imprévisibles et généralement néfastes pour la collectivité.
Monopole absolu: Le principe du monopole absolu repose sur l’idée qu’un outil ou une technologie façonne le monde d’une manière à se rendre indispensable. La voiture est un exemple de monopole absolu: dans bien des places, il devient impossible de se déplacer sans voiture, ne serait-ce qu’à cause de l’empiètement des infrastructures nécessaires qui rendent toute autre forme de déplacement quasiment impossible. Fait que je trouve particulièrement important: l’atteinte du stade de monopole absolu se fait souvent dans l’indifférence complète, l’outil en situation de monopole absolu devient aussi naturel que l’air que nous respirons… et ses conséquences deviennent aussi évidentes et naturelles que le fait que l’eau mouille. Si une technologie fait écarquiller les yeux au moment où elle est introduite, la transformation du monde qu’elle opère est de l’ordre de l’imperceptible tout en étant majeure.
Gestion des technologies: selon Illich, la gestion de l’impact d’une technologie aura généralement pour seule conséquence de stabiliser les effets de cette technologie à son plus haut niveau de production endurable. En d’autres termes, les mécanismes d’encadrement auront pour effet d’éviter une situation de rupture complète (qui ne serait évidemment pas profitable pour la diffusion de la technologie et ses promoteurs), mais sans pour autant pleinement réinsérer ladite technologie dans un cadre qui ne soit pas aliénant pour une large partie de la population.
La convivialité: La porte de sortie pour Illich est représentée par l’outil convivial, un outil dont les propriétés ne l’amènent pas à se retourner contre la société. Les exemples habituellement cités sont la bicyclette et le téléphone (on parle des années 70). Par extension, Illich définit une société conviviale « où l’outil moderne est au service de la personne intégrée à la collectivité, et non au service d’un corps de spécialistes. »

La convivialité, Ivan Illich, 1973

Ces principes sont d’ores et déjà en action dans le déploiement de ce que l’on nomme l’intelligence artificielle et pour les modèles de langage en particulier. Ainsi, il est parfaitement entendu que ces outils vont se retourner contre le corps social autant qu’il est clair que ces technologies vont se fusionner avec un monopole absolu existant, celui des technologies numériques pour se rendre incontournable: celui qui décide de ne pas les utiliser va se retrouver inexorablement à la traine. De même, il semble généralement accepté que les outils de gestion (législation, institutions, etc.) ne seront qu’un pis-aller, un moyen d’éviter les dérives les plus graves (et encore! ça ne semble pas convaincre tout le monde). Cela n’empêchera pas l’aliénation massive, la perte de liberté ou la subordination de la majorité à un corps de spécialistes: ceux qui développent et rendent disponibles ces outils.

Les conséquences, aujourd’hui

Certains diront, à juste titre, que les projections de l’impact futur de ces technologies sont fortement exagérées et renforcent bien au-delà de toute réalité même future l’impact réel de ces technologies. Pour revenir sur mon billet précédent, nous sommes possiblement (certains le contestent) dans la zone de hype de la technologie, hype autant dans le positif anticipé que dans les craintes (le “criti-hype”). Toutefois, et indépendamment du hype, ce qu’on appelle intelligence artificielle a déjà des impacts évidents aujourd’hui. Certains problèmes sont déjà connus, que ce soit pour les modèles de langage ou d’autres procédés d’apprentissage automatisé de manière plus large: biais, fonctionnement en boite noire et autres joyeusetés. Ces éléments sont déjà bien documentés, je souhaite donc explorer les conséquences un peu moins évidentes et non moins concrètes.

Doctrine du choc au service d’une précarisation

Dans un article publié durant la pandémie, Naomi Klein soulignait comment les entreprises technologiques utilisent la pandémie pour poursuivre la logique de doctrine du choc. Et j’ai l’impression que ces mêmes entreprises poursuivent en créant leur propre logique du choc. Certes, la doctrine du choc part d’une crise sociopolitique majeure et la pandémie est effectivement un cas d’école dans cette logique. J’ai pourtant l’impression que ce qui entoure l’arrivée de cette nouvelle technologie rentre dans la même logique d’instrumentalisation de la déstabilisation. Contrairement aux exemples canoniques de la doctrine du choc, le choc en question n’est pas aussi violent qu’un attentat ou un événement naturel dévastateur.

Rappelons-nous que les investissements dont bénéficient des entreprises comme OpenAI dépendent de l’ampleur du potentiel économique. Difficile, dans ce contexte, de ne pas avoir dans la mire les marchés de plusieurs centaines de milliards de dollars liés au remplacement de la main-d’œuvre, même partiel, dans des domaines d’activité. Ce n’est pas par hasard si OpenAI se lance dans des recherches concluant qu’environ un travailleur sur cinq va voir 50% ou plus de ses tâches significativement modifiées par l’arrivée des modèles de langages: ils préparent leur marché. Dit autrement, leur modèle de développement repose sur la déstabilisation de pans complets de l’économie. Dans la logique de créativité destructive, plus on peut prétendre détruire l’existant, plus on peut espérer des investissements importants. Et cela a une valeur performative: convaincre suffisamment de personnes, à commencer par les décideurs, que cela va arriver est une première étape importante pour que cela se produise effectivement -même si les résultats ne sont pas au rendez-vous finalement.

De manière plus concrète, les exemples abondent, et sont largement relayés: des personnes ayant perdu des contrats (par exemple de designer remplacé par MidJourney), des dirigeants d’entreprises satisfaits du remplacement de salariés, ou au contraire des personnes multipliant les “emplois” grâce à la productivité accrue avec ce genre d’outil. Il y a quelques jours je parlais à un médecin qui se posait des questions sur son avenir professionnel. Évidemment, ce n’est pas le sentiment d’effroi qui peut nous habiter après un vrai choc, mais je pense que la couverture faite autour des LLM et leur potentiel effet dévastateur sur les conditions d’emploi sont suffisants pour changer des rapports de forces. Même si le marché de l’emploi est actuellement plutôt à l’avantage des travailleurs, tout le monde sait que cela peut changer rapidement. Avec l’arrivée des LLM, les “gagnants” se permettent de pointer du doigt les “perdants”.

Tout ceci se passe dans un contexte économique qui n’est pas anodin: la majorité des protections des travailleurs ont été battues en brèche dans les dernières décennies (et j’ai d’ailleurs l’impression que le contexte globalement favorable aux travailleurs ces temps-ci est une opportunité que certains ne manquent pas pour continuer ce travail sans créer trop de levées de boucliers). Si les scénaristes américains arrivent à faire bloc pour repousser (pour le moment) l’arrivée de cette technologie dans leur domaine, nombre d’emplois ont été “centrifugés” et atomisés selon Yannick Noiseux: des rôles relégués au rang d’indépendants ou d’employés relativement précarisés avec peu de capacité de mobilisation pour faire face à des changements importants. En d’autres termes, bien des personnes se sentent très vulnérables.

Pour revenir à la doctrine du choc, une telle déstabilisation est un moyen efficace pour continuer un agenda néolibéral agressif qui, jusqu’à preuve du contraire, bénéficie surtout à ceux qui sont déjà en position de pouvoir et de supériorité économique. Pour finir sur ce sujet, je veux souligner que je n’adhère pas nécessairement au narratif d’un remplacement massif de la main-d’œuvre, je souligne l’instrumentalisation de la déstabilisation.

Appauvrissement sous toutes ses formes

Des outils comme ChatGPT viennent avec une logique d’appauvrissement qui est tellement énorme qu’elle est difficile à voir… et qui fait suite à un travail préalable dans la même direction. D’abord la création de ChatGPT, Dall-E et autres résulte d’un pillage monumental. Ces outils n’existent pas sans les immenses quantités d’information que bien des personnes ont contribuées sur Internet ou ailleurs et parfois malgré elles.

Évidemment, cela fait suite à l’acceptation progressive de la logique extractiviste de nos données pour toutes sortes de raisons au point qu’on se demande ce qui ferait qu’on arrêterait d’empiéter sur nos données. La question n’est évidemment pas de savoir si le processus viole le droit d’auteur, il est question de savoir si cette pratique viole l’esprit du contrat social quant à l’utilisation du travail d’autrui.

Ce que j’ai contribué à Wikipédia, je ne l’ai pas fait pour que ce soit ingéré par une grosse startup au point de potentiellement rendre Wikipédia, son esprit et son rôle, en partie obsolète. Comme on le disait à l’époque information wants to be free; j’ai contribué à plusieurs initiatives dans cette logique et je m’y tiens. Cette expression tient à la valeur d’un accès large et universel de l’information. Même si certains diront que ChatGPT participe à rendre l’information libre, c’est à travers une logique d’appropriation et d’extraction de la valeur sans précédent. J’aime croire en la générosité du partage, ici c’est tout l’inverse, on peut y voir un début d’enclosure de biens communs informationnels. D’ailleurs, pour mémoire, une règle de base dans la logique de liberté de l’information, c’est l’attribution de la source.

Ce pillage est complété par le travail avilissant imposé à des labelleurs et validateurs de contenu payés trois fois rien. Rien de nouveau sous le soleil me direz-vous : depuis l’introduction du Mechanical Turk d’Amazon, il est devenu normal de pouvoir apprendre aux machines à être efficace sur le dos d’une main-d’œuvre bon marché. Ici, la logique est poussée à un nouveau sommet.

De manière générale, on note une tendance à un appauvrissement de la compréhension de ce que signifie être humain. Vers la fin de sa vie, Illich se penchait sur la manière dont les technologies influencent notre perception de nous-mêmes, les technologies jouant le rôle de miroir déformant, créant des imaginaires nouveaux: au XIXe siècle, l’humain était une machine, au XXe, son cerveau devenait un ordinateur. Maintenant, Sam Altman glose que nous sommes des “perroquets stochastiques”, autant dire un salmigondis biologique de processus probabilistes.

« i am a stochastic parrot, and so r u. »

Sam Altman, P.-D.G. de OpenAI

Ce miroir déformant, et plus généralement la vision héritée d’outils comme GPT, fournit une vision très diminuée de ce que nous sommes, de ce que nous faisons, avec des conséquences encore une fois très concrètes. Aaron Benanav s’est penché sur la robotisation des soins pour les aînés et pointe que dans ce contexte, les actions humaines sont souvent modélisées comme une suite de tâches et de transactions simplifiées à l’extrême. Le rôle d’un préposé dans un centre pour personnes âgées se résume ainsi à lever des charges fragiles -exit toute notion de contact humain. Dans l’étude sur l’impact des LLM sur les emplois, OpenAI utilise des bases de données de descriptions de tâches pour chaque emploi et demande à GPT d’évaluer le potentiel de remplacement par des modèles de langage avancés. En plus de la logique circulaire de la chose, c’est une vision horriblement rabougrie et comme le souligne Benanav, il apparait assez vite que ça ne marche simplement pas. Si cette vision restait entre les deux oreilles de quelques nababs de la technologie, on pourrait se dire qu’il n’y a pas d’enjeu. Le problème, c’est que cette compréhension se traduit par des décisions très concrètes dans le monde du travail.

Autant dans la manière de créer ces technologies que dans ce qu’on en projette dans l’essence humaine, on saute joyeusement de l’extraction à l’appauvrissement de ce qu’est une vie humaine sans vraiment expliquer pourquoi il faudrait accepter tout cela hormis pour justifier le succès de certains et la précarisation des autres.

Hyperactivation de l’attention

Désormais, je ne suis plus trop capable de voir une image minimalement inhabituelle sans me demander si c’est une image synthétique (E.g produite par Dall-E, Midjourney ou autre). Vous me direz que Photoshop existait avant. C’est vrai et ça devenait déjà une plaie. Toutefois, la facilité avec laquelle il est possible de produire des contenus convaincants est désormais sans borne: avant il fallait quelques centaines d’heures d’apprentissage d’utilisation de Photoshop puis quelques heures de réalisation d’une image; maintenant en 5 minutes, sans connaissance préalable, c’est fait, et très bien fait. D’ailleurs j’ai déjà dû mettre en garde plusieurs de mes contacts sur les réseaux sociaux contre de (faux) animaux, plantes ou lieux qu’ils avaient partagés.

Là encore, tout ceci n’apparait pas hors contexte: notre attention est déjà bombardée de toutes parts dans une économie stimulant une escalade constante pour obtenir une fraction de seconde de regard; la fameuse économie de l’attention. Ce phénomène produit une fatigue attentionnelle qui a des conséquences variées… et généralement peu positives. Au-delà de la fatigue, ce qui m’attriste c’est le surdéveloppement du muscle de la méfiance. Certains diront que c’est bien d’être un peu plus sceptique, que finalement on devrait toujours se comporter comme si on était le 1er avril: tout prendre avec des pincettes. Mais a-t-on vraiment envie de vivre dans un monde où tout est sujet à caution? Par ailleurs, les mécanismes de gestion de l’attention ne fonctionnent pas aussi simplement, et le cerveau a justement évolué pour ne pas avoir à tout traiter de manière approfondie (le fameux système 2 mis de l’avant par Kahneman & al.)

Certains proposent de combattre le feu par le feu, comme le propose Philippe Beaudoin avec Waverly. Peut-être que ça va marcher, mais quand? Et surtout pour qui? En attendant, on voit déjà au quotidien l’effet de la production de contenu synthétique incroyablement crédible avec pour conséquence une suractivation du système 2 et une accentuation de la fatigue attentionnelle.

Non, le Pape ne rappe pas en Balenciaga. Source Guerrero Art (Pablo Xavier)

Isolement et perte de capacité de l’action collective

Tout ceci soulève la question de l’isolement. Isolement qui peut prendre plusieurs formes: d’abord de ceux qui n’utilisent pas ces technologies. Comme l’explique Illich avec le concept de monopole absolu, ceux qui ne veulent ou ne peuvent utiliser une technologie en situation de monopole absolu se retrouvent de facto au ban de la société. Bien des personnes âgées se retrouvent déjà sur la touche ou constamment sur le bord de l’être avec l’utilisation d’Internet ou des cellulaires. Certains rétorqueront que les LLM vont rendre l’accès aux technologies beaucoup plus facile, plus intuitif; l’histoire montre que la réalité est plus compliquée. Malgré sa simplicité d’utilisation, bien des personnes ne savent pas trop quoi faire avec ChatGPT considérant son champ d’utilisation extrêmement vaste.

Il y a aussi l’isolement sous forme d’enfermement avec les LLM. Cela peut sembler encore lointain et tiré par les cheveux, pourtant les témoignages de personnes utilisant Replika soulèvent bien des questions et on ne peut pas nécessairement imaginer une fin positive comme dans le film Her. Je crains qu’en allant dans cette direction, on me taxe de contribuer à une panique morale. Toutefois, dans le contexte d’économie de l’attention mentionné plus haut, je vois mal comment des organisations ne vont pas être tentées d’utiliser ce genre de technologie pour s’assurer que leurs utilisateurs passent plus de temps sur leur plateforme; d’ailleurs, j’ai du mal à interpréter autrement la création de l’ami virtuel My AI sur Snapchat.

Dans un cas comme dans l’autre, je me questionne sur l’impact que cela a sur notre capacité d’action collective. Ici, je tombe dans l’hypothétique et j’en suis bien conscient, mais j’ai l’impression que de manière générale nos moyens d’action collective (au-delà de notre cercle de connaissances pensant comme nous) sont généralement en recul et des outils comme les LLM tels que proposés actuellement n’aident pas vraiment. Or, la sortie des crises que nous vivons passe, à mes yeux, par l’action collective. On peut créer des communs, s’outiller en méthodes de communication plus efficaces ou mettre en place des collectifs citoyens, si le bassin de personnes s’engageant dans ces démarches est en constante attrition, la capacité d’action ira en regressant.

Accélération et indisponibilité

Enfin, je ne peux pas non plus taire à quel point ces technologies sont une exemplification parfaite des notions d’accélération et d’indisponibilité d’Hartmunt Rosa. Accélération: comme tout le monde, je vois dans cette technologie un potentiel de gain d’efficacité. D’ailleurs, mes expérimentations récentes avec GPT répondent à mes besoins d’efficacité, et vont donc parfaitement dans ce sens; comme par exemple créer un assitant-bot qui me permet d’envoyer un courriel complet sur base d’une instruction vocale relativement simple. Disparition de l’indisponibilité: GPT rend tout disponible, et quand le tout n’est pas assez bon, des personnes comme moi s’occupent de l’instruire plus efficacement. D’ailleurs, peu importe que ChatGPT donne une information juste, l’important n’est-il pas qu’une information soit disponible?

Je ne vais pas rentrer dans le détail, mais selon Rosa, ces deux phénomènes sont à la base de notre aliénation collective menant à un rythme inhumain et à une perte de repère et de sens. La recherche de sens est placardée partout, mais les outils que l’on crée nous en éloignent constamment. Dit autrement, on peut bien s’imaginer que l’intelligence artificielle va prendre en charge certaines tâches désagréables, comme rédiger des courriels, mais pour quel gain finalement? Quelle autre conséquence possible que de recevoir encore plus de courriel, encore plus d’information qu’il faudra soit traiter, au moins partiellement, soit abandonner complètement à ce que la machine pense que nous pensons? Est-ce que cela va nous aider à nous sentir plus connectés au monde? J’ai du mal à imaginer comment cela pourrait se produire…

N’est-ce pas simplement le capitalisme?

Dans une critique de Shoshana Zuboff et du concept de capitalisme de surveillance, Evgeny Morozov pointe que Zuboff tend à mettre l’accent sur la surveillance et en oubliant un peu trop le capitalisme. Alors, est-ce que tous les maux liés à la mise en œuvre des LLM proviennent du capitalisme? Très certainement que oui, mais je m’aligne sur ceux qui pensent que la technologie est un élément majeur contribuant à donner sa forme au capitalisme. D’ailleurs c’est un peu ce que dit Zuboff par la bande: les technologies font muter le capitalisme.

Comment? Jacques Ellul considérait que la technologie est autonome et qu’elle domine la société parce que la technologie marche selon une logique interne qui lui est propre. Écrit ainsi, on ne peut s’empêcher de penser que la technologie est un construit humain et donc que nous contrôlons. Ellul comme Illich expliquaient dès les années 70 comment la technologie et la volonté perpétuelle de trouver de nouveaux problèmes à résoudre poussent effectivement une logique interne, autonome et incontrôlable.

La technique ne se contente pas d’être, et, dans notre monde, d’être le facteur principal ou déterminant, elle est devenu système.

Le système technicien, Jacques Ellul, 1977

Et ceci n’est pas seulement vrai dans le contexte du capitalisme: sous l’emprise du communisme soviétique, la technologie était également devenue une valeur suprême au service d’une productivité accrue. Selon cette analyse, la technologie n’est pas une fonction du système capitalisme, elle est une dynamique qui émerge dans des systèmes productivistes et qui vient ensuite façonner ces systèmes; les deux se nourrissent dans une logique symbiotique.

Mon argument de base pour ce billet est que l’arrivée de technologies comme les LLM ne change rien, dans le sens où ça ne change pas cette trajectoire d’un système productiviste nourrie par chaque nouvelle vague technologique. Pour clarifier mon propos: le fait de dire que ça ne change rien ne veut pas dire le statu quo, ça veut dire toujours plus de la même chose, toujours plus intensément. La conséquence directe et inévitable que nous pointent les critiques de la technologie, c’est que l’empiétement constant de la technologie va être justifié par les plus beaux principes, la lutte aux changements climatiques par exemple. D’ailleurs, Illich anticipait l’utilisation des crises environnementales comme moyen de mettre en place des mécanismes de tutelle appuyés par des technologies et des experts. (Est-ce besoin de préciser que je suis très préoccupé par les crises climatiques et de biodiversité ? Je souligne juste l’instrumentalisation de ces crises pour accroitre l’emprise des régimes en place).

Mais alors, que faire?

La constante de tous les livres critiques, de la technologie comme du système économique ou autre, c’est que le diagnostic est plus facile à poser que le remède à trouver.

Un moratoire? De la réglementation? Ces éléments ont très certainement un rôle à jouer. Mais il faut bien être conscient qu’au rythme où vont les choses, un moratoire n’est que bien peu de chose, surtout dans un contexte où un consensus est difficile à trouver. D’abord, comme plusieurs l’ont souligné, la réglementation est aussi poussée par l’industrie. Ne vous étonnez pas que Sam Altman réclame une réglementation: il préfère être du bon côté de la barrière pour orienter la réglementation dans une direction qui l’arrange tout en se positionnant comme un bon citoyen. La situation canadienne à cet égard est assez claire: une réglementation faite derrière des portes-clauses, et dont les arbitrages seront (si les choses restent ainsi) dans les mains du ministère de l’industrie…

La réglementation se veut une formalisation d’une sorte de contrat social: ce qu’on est prêt à perdre individuellement pour le bien collectif. Aujourd’hui, nous sommes bien loin d’une quelconque forme de compréhension commune sur l’apport et les risques liés à ces technologies, et comme souvent, les victimes, nommées implicitement dans les paragraphes précédents, sont celles qui ont le moins de chance d’être entendues.

Cependant, comme pour d’autres techniques représentant un danger, il est possible de mettre en place des clauses de protection, d’appliquer une forme de principe de précaution. À mes yeux, un tel principe pourrait découler de la logique d’outil convivial d’Illich. En voici quelques éléments fondateurs:

Accessible et adaptable: un outil convivial doit être facile à comprendre et chacun doit pouvoir l’adapter à son besoin;
Transparence: son fonctionnement devrait être compréhensible par ses utilisateurs;
Contrôle de l’utilisateur: l’outil ne devrait pas être contrôlé par des experts sur lequel l’utilisateur n’a pas d’influence;
Durabilité et environnement: l’outil doit pouvoir être réparé et avoir un impact limité sur l’environnement;
Interaction sociale: l’outil doit soutenir les relations sociales et ne doit pas isoler.

J’ajouterai que dans la logique d’Ivan Illich, pour être effectifs, à ces conditions doivent correspondre de réels moyens. Par exemple, un LLM disponible en code ouvert et modifiable uniquement par une poignée d’experts n’en fait pas un outil accessible et adaptable. Et on se rend bien compte qu’il reste pas mal de travail pour qu’un LLM puisse souscrire à ces critères, même appliqués de manière très tolérante. Cela milite donc pour un contrôle assez serré de ce genre de technologie. D’ailleurs, je trouve assez risible que l’interface de ChatGPT (pour les utilisateurs gratuits) parle encore de « Free Research Preview » sous-entendant que la technologie est encore au stade de recherche, alors qu’OpenAI développe modèles d’affaires sur modèles d’affaires. Quoiqu’il en soit, la mise en application d’un tel principe de précaution donnerait le temps d’explorer de manière plus claire la place que nous voulons donner collectivement à ce genre de technologie.

Cependant, je suis bien conscient que le proverbial dentifrice sera difficile à faire rentrer dans son tube! Comme je l’ai esquissé plus haut, je suis moi-même un utilisateur intensif de GPT: dans le contexte global dans lequel nous évoluons, si une technologie est disponible pour tous et qu’elle peut nous aider au quotidien, il est difficile de s’en passer même si dans les faits les bénéfices sont marginaux et que des risques systémiques sont bien présents. Considérant que plusieurs modèles ont été rendus disponibles en code ouvert, le dentifrice n’est pas seulement sorti du tube, il est aux quatre coins de la pièce!

En me replongeant dans mes notes de lectures sur les critiques des technologies, je n’ai pu m’empêcher de faire le lien avec des lectures sur les mythes et légendes des Premiers Peuples de l’Île de la tortue / Amérique du Nord. Les mythes et légendes ont souvent pour vocation de définir des valeurs et des comportements attendus collectivement. Les histoires de Nanabozho ou du Windigo, tels qu’évoquées par Robin Wall Kimmerer et d’autres légendes mettent de l’avant la nécessité de résister à l’hubris et à l’égoïsme, d’être dans le partage et la découverte du monde sans volonté de se l’approprier. Nous sommes bien loin de réponses faciles et applicables sous forme d’une belle loi qui réglerait tout. Illich pour sa part fait une référence appuyée à un obscur théologien du XIIe siècle, Hugues de Saint-Victor, qui proposait une vision qui n’est jamais devenue réalité: la technologie est une assistance pour remédier au mal que l’humanité a fait au monde, notamment à travers le pêcher original. Une vision humble et bien loin du mandat hérité des premiers versets de la Genèse de soumettre et contrôler la surface de la Terre.

En fin de compte, j’ai du mal à voir comment sortir de cette même trajectoire sans remettre au premier plan certaines valeurs présentent dans la cosmogonie de bien des peuples à travers le monde mais enfouies sous les injonctions de domination, de productivité et dont la fuite en avant par l’innovation est un symptôme.

En conclusion

Alors que certains gouvernements semblent finalement se décider à sortir (un peu) les crocs face aux acteurs des médias sociaux et à leur usage des données, la vague suivante d’innovation de rupture est déjà là. Car GPT n’est que la pointe de l’iceberg: comme démontré dans le précédent billet, il va encore falloir du temps pour explorer l’ensemble des possibilités ouvertes par les LLM et les modes d’intégration aux systèmes existants. De plus, le potentiel d’amélioration et d’optimisation de cette technologie est encore énorme et la publication en code ouvert par Facebook de son modèle LLaMa permet à des milliers (millions?) de geeks d’explorer l’utilisation de leur propre instance de LLM, nourrie de romans à l’eau de rose ou de contenus venant du “dark web” (toujours pour une bonne cause!). Enfin, tel que proposé par Illich, je considère que le vrai travail transformateur d’une technologie comme celle-ci va s’étendre sur plusieurs années et pas toujours de manière évidente.

Karl Polanyi parlait de réencastrer l’économie dans la société, l’image pourrait s’appliquer également à la technologie. La définition du concept d’outil convivial nous fournit quelques guides, quelques questions à nous poser pour faciliter ce réencastrement, essayer d’aller vers une technologie au service de la société, en respect de l’environnement.

Les LLMs démontrent qu’ils ont tout pour “turbocharger” la logique technocapitaliste actuelle où le système technique et le régime capitaliste se renforcent et amplifient des problèmes existants: précarisation, accélération, extraction, aliénation et plus généralement une proposition rabougrie de ce qu’est la vie. À mon sens, ces effets nuisent à la capacité d’agir (surtout collectivement), aggravent le sentiment d’impuissance et ce fait renforcent les causes mêmes des crises que nous vivons.

Ça n’exclut pas des bénéfices à différentes échelles: les technologies prennent une controle et une autonomie sur le corps social spécifiquement parce qu’elles répondent à des problèmes concrets. Toutefois, les gains escomptés vont avant tout profiter à ceux qui sont en haut de la pyramide trophique. Les autres se consoleront avec une impression de gain (de productivité), possiblement quelques bénéfices sociétaux, mais à l’échelle individuelle une fuite vers l’accélération et l’aliénation et à l’échelle collective des enjeux de fond qui semblent toujours plus insolubles et accablants.

Les discussions sur les risques apocalyptiques de l’intelligence artificielle nous éloignent de considérations sur l’impact actuel de ces technologies et nous distraient des enjeux de fond qu’il nous faut résoudre à l’échelle politique. Après toutes ces heures à essayer de pondre le présent article, j’en viens moi-même à me demander quelle est la valeur d’épiloguer sur ces enjeux, et je me demande comment il se fait qu’en tant qu’Humanité on en est encore à devoir se faire des peurs dignes des pires films d’horreur pour envisager d’agir.

Encore une fois, je n’ai pas de boule de cristal, je ne sais pas de quoi demain est fait et je n’en ai pas la prétention. Dans ce billet, j’essaie de mettre de l’avant le type de perturbations néfastes moins visibles qu’amènent déjà ChatGPT et les LLM. J’ai du mal à croire que la nature de ces impacts va soudainement se renverser à mesure que la technologie est adoptée. Je ne parle pas ici de risque existentiel, je parle “simplement” de cette logique visant à continuer de pousser le système à son plus haut niveau de production endurable, encore et toujours. En deux mots comme en mille, c’est un renforcement de la trajectoire existante; ça ne change rien.

GPT & Co: Ça change tout, et ça change rien (1/2)

Wed, 26 Apr 2023 00:00:00 +0000

Après avoir abondamment lu et expérimenté avec GPT, je partage ici une réflexion de fond en deux parties sur les modèles dits génératifs qui se résume ainsi: ça change tout (partie 1) et ça ne change rien (partie 2).

Comme le disait Scott Fitzgerald « The test of a first-rate intelligence is the ability to hold two opposing ideas in mind at the same time and still retain the ability to function. One should, for example, be able to see that things are hopeless yet be determined to make them otherwise. »

Le but ici n’est pas de faire thèse, antithèse, synthèse comme on l’a si bien appris à l’école, mais se souligner que l’avènement de cette technologie apporte une grande vague de changement et ne change pas grand-chose à l’affaire, simultanément…

J’essaie, sur base de ma compréhension du fonctionnement de ces modèles et sur l’usage que j’en ai fait, de dessiner les contours de ce que permet cette technologie, réellement, aujourd’hui, tout en pointant les postures de ceux qui d’un côté n’y voient rien de nouveau sous le soleil ou d’un autre côté la fin de l’humanité, ou encore la huitième merveille du monde. En produisant un tel texte, je contribue au “hype” déjà exagéré autour de cette technologie, mon but est pourtant de dégonfler la bulle.

Comprendre la bête

Pour commencer, je propose de déconstruire la bête. Un modèle comme ChatGPT est un tout et pourtant il repose sur des fonctions qu’on peut isoler, au moins logiquement. Je sais qu’avec une approche réductionniste je vais à l’inverse de la logique de ces modèles, toutefois nommer des fonctions permet de mieux comprendre les points de vue différents et comment ils s’agencent.

Fonction 1: Produire du contenu cohérent

On parle de modèle génératif, produire du contenu est donc la fonction première. Il a beaucoup été souligné que les modèles génératifs sont du radotage stochastique, mettant l’accent sur l’aspect probabiliste dénué de toute compréhension. Et c’est ce que c’est: en jouant dans le playground de OpenAI, il est possible d’afficher les probabilités de chaque “token”, montrant à quel point, il s’agit effectivement d’une suite de statistiques.

Tout en soulignant cet aspect stochastique, il est difficile de nier la cohérence du contenu produit. Personnellement, j’assimile la production textuelle d’un ChatGPT à un phénomène émergent, c’est-à-dire qu’une nouvelle propriété émerge d’une somme d’éléments nombreux qui ne présentaient pas cette propriété individuellement. L’émergence est un phénomène très présent dans le monde biologique, l’exemple le plus commun était une fourmilière ou un essaim d’abeilles. Ici, la notion d’émergence renvoie au fait que le produit textuel va au-delà de la simple probabilité d’aligner des syllabes.

Il n’est évidemment pas question ici de parler de compréhension, d’intention et encore moins de conscience. En revanche, on ne peut nier que même la version initiale de ChatGPT était qualitativement supérieure au GPT3 de base rendu public en 2021, et se plaçant dans la zone du fameux test de Turing. L’aspect de cohérence est important à deux titres:

Cela en fait en contenu compréhensible à peu près à tout coup
Effet corollaire: ça peut amener de la confusion avec la production d’un humain, voire donner l’impression d’une intention qui n’existe pas.

Ceci dit, pour souligner cet aspect de cohérence, et notamment de progression dans cette capacité de cohérence, le meilleur exemple se trouve dans le domaine visuel avec Midjourney. Depuis la version 3, Midjourney arrivait à produire des images non seulement esthétiques, mais aussi cohérentes… sauf à une mauvaise habitude près: mettre plus que 5 doigts aux mains. Toutefois, l’arrivée de la version 5 a permis de dépasser ce problème. Désormais, les images nous font généralement grâce de mains polydactyles. Au-delà de cet aspect, je trouve frappant la cohérence des images; Midjourney est capable de gérer des reflets, des ombres ou encore des plis de vêtement. C’est pour moi un exemple de phénomène émergent où la somme des informations ingérées permet de reproduire des situations cohérentes et réalistes sans avoir besoin de comprendre les lois physiques ou même les principes généraux du concept d’ombre ou de reflet.

Cohérence, ombres et reflets par MidJourney v5. Source

Fonction 2: Interpréter le langage humain

Ça peut sembler une évidence qu’un modèle qui produit du texte est capable d’interpréter, et pourtant ce n’est pas si évidemment quand on y réfléchit: les modèles de langage utilisés ont une capacité productive sur base d’un texte existant; c’est de la ‘complétion’. Les mécanismes de complétion sont assez courants, intégrés par exemple aux claviers des téléphones cellulaires qui proposent le mot le plus probable. Les mécanismes de complétion classique n’ont qu’une compréhension limitée du contexte. Les modèles de langage comme GPT ont deux capacités supplémentaires:

Ils sont capables d’intégrer un large contexte (i.e du texte antérieur)
Ils reposent sur des mécanismes de proximité sémantique qui leur permet de savoir que deux termes sont “proches”. Même sans contexte, ces mécanismes permettent de savoir que ‘navire’ et ‘bateau’ sont sémantiquement proches. Avec du contexte, un modèle peut considérer que ‘Sean Connery’ et ‘Roger Moore’ sont des termes proches si le contexte précédent traite de James Bond.

Techniquement, un échange de questions/réponses n’est rien d’autre qu’une complétion pour GPT. Toutefois, d’un point de vue fonctionnel, cela devient une capacité à interpréter une demande et d’y répondre ou de recevoir une instruction et de l’exécuter (par exemple faire un résumé d’un texte).

Fonction 3: Connaitre tout… et inventer au besoin

Ce dernier point est celui qui cause le plus de confusion et c’est aussi pour cela que je jugeais important de distinguer des fonctions. Comme je l’ai lu quelque part, les connaissances d’ensemble d’un GPT sont presque un heureux hasard (ou pas) résultant du mode de création de ces modèles de langage. En lui fournissant des quantités colossales de données, le modèle devient capable d’intégrer une partie de l’information qui lui est soumise. Comme l’expliquait un article (critique), des modèles de ce genre sont peuvent être vu comme une forme de compression d’information. Et OpenAI semble avoir renforcé ce comportement de Monsieur je-sais-tout dans les étapes de renforcement et dans la commande système donnée au modèle.

Le point qui est important ici est que c’est une décision d’OpenAI ou de tout développeur de modèle de ce genre de présenter (ou non) leur modèle comme un agent conversationnel encyclopédique. Cette approche a l’avantage de créer plus de “hype” (on y reviendra). Cette connaissance générale a possiblement une certaine importance pour la fonction 2.: la capacité d’interprétation. En effet, GPT démontre une capacité à faire des liens ou des déductions, nécessaire à comprendre des interactions avec des humains et qui peut difficilement être autre chose que le fruit de cette connaissance générale.

Mais voilà: mettre de l’avant cette connaissance encyclopédique suscite aussi le gros de la confusion dans les discussions entourant GPT, même auprès d’experts. Même si cette capacité à donner l’impression de tout connaitre (en fait un artefact de sa fonction première de produire du contenu qui se tient) peut être domptée, elle est perçue comme la fonction dominante d’un GPT et tout ce qui est dérive. Ça ne veut pas dire que cette tendance affabulatrice doit être ignorée non plus.

Ces éléments m’amènent à une première conclusion à savoir que par la suite, je vais parler de modèle dialogique plutôt que génératif. Le terme génératif met trop l’accent sur la première fonction; l’attribut de dialogique met l’accent sur le phénomène émergent mentionné plus haut, à savoir la capacité d’échanger et utilisant le langage humain.

Mais pourquoi faire ça?

Ma question favorite est toujours: pourquoi? Pourquoi des personnes ont-elles jugé qu’il était utile et important d’investir temps et argent pour faire des modèles génératifs, puis de les perfectionner au point de devenir des modèles dialogiques encyclopédiques? La réponse de OpenAI est vague et tourne généralement autour de l’idée de préparer de “bonnes” intelligences artificielles générales, c’est-à-dire des modèles en tous points équivalents ou supérieurs aux compétences cognitives humaines et qui… ne cherchent pas à nous détruire. Je conclurais le présent billet sur les conséquences de cette idéologie de l’intelligence artificielle générale; à ce stade-ci, je veux surtout souligner que c’est une motivation parmi d’autres.

L’objectif historique du traitement automatique du langage naturel (natural language processing) n’est pas aussi démiurgique: il vise à permettre une interaction plus naturelle entre l’homme et la machine. Éviter de passer par un symbolisme normatif contraignant (du code, des fenêtres, des formulaires… un écran) pour interagir avec des outils informatiques.

Dans cet article, je vais (essayer de) me concentrer sur les capacités réelles, présentes et démontrées, d’un modèle dialogique comme GPT3.5 ou supérieur. Donc je vais mettre de coté une éventuelle AGI pour regarder en quoi ce que nous avons aujourd’hui est important, et notamment les questions suivantes:

Est-ce que les modèles génératifs sont rendus assez fiables pour répondre à leur objectif d’interfaçage avec l’humain via le langage?
Et si oui, quelle adoption peut-on envisager?

Une interface fiable?

Mes tests et ceux réalisés par des personnes autour de moi me font dire qu’il s’agit d’une interface avec une fiabilité plus élevée que je le pensais et surtout en progression assez rapide.

À titre d’exemple, je vous renvoie aux tests que j’ai documenté concernant le code de sécurité routière (CSR). À travers différentes méthodes, j’ai testé GPT3 “de base”, “fine-tuné” puis la version “3.5-turbo” avec du contexte supplémentaire. Et la progression entre chaque itération est marquée et je n’ai pas testé GPT4. Pour donner une évaluation plus qualitative, GPT3.5 n’était probablement pas au niveau d’un expert en droit pour comprendre une question et fournir une réponse complète, toutefois il était probablement meilleur qu’un quidam moyen tentant de comprendre le CSR et ses tournures parfois alambiquées. Fait majeur à mes yeux: les questions que je posais (souvent imprécises) et les réponses de GPT mettaient pleinement en lumière la nécessité d’une approche dialogique (i.e sous-questionner, préciser des éléments de questions, etc.), comme quand on discute avec une personne qui connait mieux un sujet que nous.

Je souligne qu’ici je mettais principalement en test les fonctions 1 et 2 (génération et interprétation). Mes tests consistaient en effet à fournir le CSR à GPT et à l’amener à formuler une réponse à une question; donc à utiliser ses fonctions d’intégration de contenu et de production de contenu en fonction de questions spécifiques. Je ne faisais nul appel à sa fonction 3 (connaissance générale); j’ai même vérifié avec un certain succès que si GPT ne trouvait pas la réponse à la question dans le CSR, il devait répondre qu’il ne savait pas plutôt que d’utiliser sa connaissance générale, souvent erronée, sur le sujet.

Bref, je le mettrais dans une zone de fiabilité acceptable pour interpréter et produire du langage humain lié à des tâches non critiques. Cela signifie qu’en lui fournissant l’information pertinente, dans des conditions où il n’y aurait pas de décision critique à prendre, un outil comme GPT serait capable de comprendre des instructions et fournir des réponses adéquates suffisamment souvent pour s’y fier. Évidemment, ma définition de « non critique » est floue et serait à préciser. De même, plus de tests seraient nécessaires pour tester la fiabilité, car la progression va surement ressembler à une courbe logarithmique; plus le temps passe, plus les améliorations deviennent difficiles.

Cette première série de tests permet d’évaluer un échange entre humain et machine, mais seulement avec un type de machinerie: le modèle dialogique lui-même, dont la caractéristique est justement de traiter du texte.

Mon second test consistait donc à évaluer si un modèle dialogique comme GPT peut être l’interface entre un humain et d’autres processus informatiques, par exemple un outil de gestion des courriels comme Gmail. Et là aussi, la réponse est un oui, tiède, mais réel. GPT est capable d’interpréter des données dans des formats structurés comme JSON et aussi de produire ce même format sur base de demandes formulées en français. Ce faisant, GPT, complémenté d’un script d’interfaçage (middleware), est capable de jouer un rôle d’interface passablement fiable entre une demande en langage naturel et une action d’un autre système informatique.

Ce second aspect a des conséquences majeures: si on considère GPT comme vivant dans un monde clos, sa capacité est assez limitée: tout doit passer par du langage humain que les humains maitrisent bien, mais pas les autres programmes informatiques. En étant capable d’utiliser les langages structurés propres à l’informatique, soudainement beaucoup des limitations de ChatGPT tombent. Deux exemples:

Évidemment l’intégration Bing + GPT, qui permet de dépasser l’incapacité de GPT à connaitre des données postérieures à son entrainement (et son incapacité à citer des sources correctement);
Le second est l’intégration de GPT avec la plateforme Wolfram. Ici, GPT devient capable d’échanger avec une plateforme ayant des capacités qui manquent à GPT, notamment en matière de calcul et d’accès à certaines informations.

Je vous invite à lire le billet complet de Stephen Wolfram, mais il met de l’avant non seulement que GPT peut s’interfacer avec des systèmes externes, mais qu’il peut même dialoguer avec ces systèmes s’ils sont prévus pour. Plus que cela: dans un exemple, ChatGPT reçoit une erreur de la plateforme Wolfram, interprète l’erreur et modifie sa requête avec succès pour obtenir la bonne réponse. Comme l’explique Stephen Wolfram, la fiabilité n’est pas toujours au rendez-vous et ChatGPT est parfois imprévisible, mais la fenêtre de possibilité que ce genre de comportement ouvre est assez impressionnante.

Ces cas d’usage sont loin de l’agent conversationnel omniscient, affabulateur et vivant dans sa bulle. Au contraire, il est possible, en lui fournissant la bonne information, de le rendre relativement fiable et “ouvert sur le monde” (à défaut que OpenAI soit ouvert sur les données ayant servi aux étapes d’entrainement de GPT.) Comprendre ces éléments me semble fondamental pour avoir des discussions plus riches sur ces modèles plutôt que de continuer à pointer les anecdotes d’erreurs grossières ou de belles surprises.

Hype et adoption

Plusieurs l’ont pointé, les modèles génératifs rappellent de mauvais souvenirs: que ce soit les crypto récemment, ou encore les voitures autonomes il y a un peu plus longtemps, autant de technologies qui devaient révolutionner la surface de la Terre du jour au lendemain et dont on attend encore le grand soir (quand ça n’a pas été un flop monumental). Comme beaucoup de technologies, c’est un cas assez classique: une “solution” se cherchant un problème. Et la littérature sur le sujet est assez abondante.

De manière pratico-pratique, cette dynamique est bien décrite par le Gartner Hype Cycle, un cycle typique par lequel passent la majorité des technologies prometteuses: une phase d’espoir et de promesses inatteignables connue comme le Pic des attentes démesurées suivie d’une phase de déception et d’échecs, parfois liée au manque de maturité de la technologie, mais aussi à l’exagération des espoirs et à l’incapacité à trouve une adéquation réelle avec les cas d’usage anticipé. Cette phase est connue comme le Creux de la désillusion. Éventuellement, la technologie finit par trouver sa place, ses cas d’usage et une normalisation de sa présence.

Le cycle canonique cache tout de même des variations; par exemple certaines technologies restent coincées dans l’enfer du Creux, n’en sortent que très lentement ou simplement retournent au début du cycle. L’envergure du plateau d’adoption est aussi sujette à variation: alors que certaines technologies finissent par rejoindre voire dépasser les espoirs initiaux (pensons au Web), d’autres ne restent qu’une pale copie des espoirs suscités. Différentes saveurs de ce qu’on nomme globalement intelligence artificielle sont déjà passées au travers de ce cycle avec plus ou moins de succès. Les modèles dialogiques sont une nouvelle saveur et on peut facilement les placer bien haut sur le Pic des attentes démesurées: la voie est pavée pour des déceptions.

Satyre du Gartner Hype Cycle tirée de Cory Doctorow

Où va-t-on à partir de là? Je n’ai pas de boule de cristal pour prédire comment les modèles dialogiques vont évoluer dans ce cycle. Je me permets quand même quelques remarques venant de ce qu’on sait de technologies passées.

La première, c’est que la vitesse de développement ou d’amélioration d’une technologie ne sont pas des facteurs prédictifs pour la vitesse d’adoption. L’adoption d’une technologie dépend d’une foule de facteurs, au premier rang desquels la présence d’une série d’infrastructures nécessaires. Le web en 1998 avait vaguement tout ce qu’il fallait pour permettre des services numériques comme ceux que nous avons aujourd’hui. Pour rendre tout cela faisable, il manquait des infrastructures technologiques physiques comme des réseaux à forte capacité ou encore des bibliothèques et packages de programmes qui s’assemblent comme des Lego pour monter des services numériques à un coût raisonnable. Tous les services en ligne que nous connaissons reposent sur une quantité faramineuse de logiciels libres, souvent développés entre compétiteurs (logique de coopétition). Exemple: dans le domaine du Deep Learning, une bonne partie des progrès sont rapidement intégrés à des bibliothèques ouvertes comme PyTorch qui bénéficie de l’appui d’acteurs par ailleurs concurrents (Amazon, Google, Meta, AMD ou encore NVidia).

Souvent, il faut aussi des infrastructures physiques non technologiques, par exemple un Amazon ne pouvait atteindre sa véritable hégémonie qu’avec des services de livraison adéquats. Pour avoir travaillé dans une entreprise de livraison pour la vente par correspondance en 2000-2001, les délais de livraison étaient de 5 jours… non garantis, et pour des volumes assez faibles. Une situation incompatible avec les besoins d’Amazon.

Un autre facteur majeur est que la croissance de l’adoption est influencée par… l’adoption existante. C’est l’effet de réseau qui comprend notamment la normalisation de certains comportements. Exemple: avoir le réflexe de faire ses achats en ligne plutôt que de se déplacer, ou streamer la musique plutôt que détenir un support physique ou numérique, ou encore, pour les services aux entreprises, passer par un “marketplace” comme Amazon ou Etsy plutôt que de développer son propre canal de vente. Ces changements se font progressivement, mais plus du monde adopte… et plus du monde adopte.

Tous ces points combinés ont pour effet que l’adoption d’une technologie majeure se fait souvent plus lentement qu’attendu (d’où la phase de déception de Hype Cycle), mais vient souvent avec des effets plus profonds qu’anticipés. C’est ce que j’appelle la dimension rampante de l’innovation. Si on regarde la voiture, il a fallu quasiment 50 ans pour qu’on passe d’un stade d’une technologie relativement mature à un objet représentatif d’un mode de vie ancré, ayant changé les dynamiques sociales bien au-delà de simplement changer de véhicule: la voiture a changé notre perception de l’espace et du temps, a fait évoluer la forme physique des villes et des pays, influençant au passage la santé et l’éducation des populations. Un trait commun des technologies ayant eu un succès très large, les technologies transformatrices, est lié à leur capacité à reconfigurer, de manière parfois difficilement perceptible, la vie d’une large partie de la population. Un jour on se dit qu’Internet est une technologie disruptive, émancipatrice et décentralisatrice, puis le lendemain on se réveille en constatant que c’est un outil de surveillance et de contrôle centralisateur favorisant la polarisation et la déstabilisation (j’exagère à dessein). Je lis déjà des analyses « GPT va change comment XYZ se fait d’ici 12 mois, 18 mois » etc. Il est très tôt pour se prononcer sur la vitesse de déploiement. A priori, le déploiement des modèles dialogiques nécessite peu d’infrastructures et les changements d’usage ne sont peut-être pas aussi nombreux qu’on le croit. En revanche, la question de la fiabilité pourrait demeurer un frein notable. Pour ce qui est de l’aspect transformationnel, là aussi il est tôt pour voir poindre les traces de changements aussi profonds.

Accélération des cycles d’adoption

Même si les technologies mettent souvent plus de temps qu’on imagine être adopté, les cycles d’adoption tendent à se réduire. En effet, une nouvelle technologie majeure vient rarement seule: de par les progrès scientifiques, du fait des brèches créées par une nouvelle technologie, une série d’innovations vont apparaitre de manière assez concomitante pour se combiner en un cycle plus grand, sous forme de révolutions industrielles ou de cycles industriels. Et ces cycles vont en s’accélérant. Plusieurs phénomènes sont liés à cette accélération, notamment le fait que les technologies des derniers cycles ont besoin d’infrastructures moins lourdes. On note aussi une professionnalisation de l’innovation. Depuis Schumpeter au milieu du XXe siècle, l’innovation est devenue une valeur positive que l’on peut inciter; et les gouvernements investissent et se structurent pour produire plus d’innovation sur leur territoire. Cette notion de cycle est une simplification de la réalité et plusieurs études soulignent les limites de cette simplification, mais dans le cadre de mon propos, c’est suffisant.

Les cycles d'innovation depuis la première révolution industrielle. Source: Visual Capitalist

Les deux dernières décennies ont vu l’émergence d’un écosystème structuré d’accompagnement des entreprises porteuses de technologies ou de modèles d’affaire de rupture et à fort potentiel de croissance, les fameuses startups. Maintenant, à peu près n’importe où sur Terre, et notamment dans l’entourage des universités, est accessible un concentré de substrat à startup allant de l’aide à la détection d’opportunités, à la définition du modèle d’affaire en passant par la stratégie de propriété intellectuelle et aboutissant, évidemment, par des financements majeurs. Même si la Silicon Valley en demeure le mètre étalon et le centre gravitationnel, l’aventure peut se tenter partout.

Avec ces écosystèmes se sont développés des mécanismes, des patrons d’accélération dans la recherche de mise en application de technologies novatrices, la fameuse capacité à trouver un problème correspondant à une technologie. Plus une technologie est généraliste, applicable à de nombreux cas d’usages, et plus, paradoxalement, il peut être difficile de trouver une application concrète, surtout pour une entreprise travaillant seule et donc avec des moyens limités. OpenAI a donc pleinement tiré parti de patrons d’accélération connus. En voici quelques exemples:

Partenariat avec une grande entreprise bien installée, et ayant un intérêt potentiel dans la technologie, en l’occurrence Microsoft. Ce genre de partenariat permet d’avoir accès à des financements, à des infrastructures technologiques ainsi qu’à une puissance de frappe en matière de mise en marché. OpenAI a très tôt bénéficié d’investissements dépassant le 1G$ (maintenant surement plus de 10G$), dont un accès à des infrastructures “infonuagiques” (Azure); Microsoft est aussi un partenaire idéal pour trouver des cas d’application comme on le voit déjà avec l’intégration de GPT à Bing et Office.
Bien qu’étant relativement jeune, OpenAI se lance dans le financement de startups… utilisant leur technologie. L’idée étant d’aider à faire croitre des entreprises qui pourraient être de futurs bons clients ou encore des idées de mise en marché prête à être rachetées. En d’autres termes, OpenAI crée son marché!
Dès le début, OpenAI a rendu une bonne partie de ses produits disponibles via des API, c’est-à-dire intégrable dans d’autres outils informatiques. C’est à travers des API que des Twitter de ce monde se sont développés, les produits d’Amazon et de Google reposent fortement sur leur capacité à s’intégrer via des API. Alors que les autres entreprises qui ont développé certains modèles (dialogique ou non) les ont conservés de manière interne pour en faire un avantage compétitif, OpenAI s’est positionné comme fournisseur d’un service pouvant être intégré dans d’autres produits et services.
Dans la même veine, OpenAI permet de développer des extensions à ChatGPT, permettant d’ajouter facilement des fonctionnalités externes à leur modèle; c’est la manière dont a procédé Wolfram (exemple ci-haut) pour ajouter des capacités de calcul avancé à ChatGPT. Là aussi, c’est un moyen peu coûteux pour OpenAI de découvrir des améliorations ou des cas d’usage à fort potentiels.
Enfin, une bonne stratégie de mise en marché. Personnellement, j’ai du mal à croire la légende voulant que OpenAI tentait un coup de poker en lançant ChatGPT. Évidemment sur Internet, la viralité n’est jamais garantie, mais après le succès d’estime de DALL-E, ils ne pouvaient pas ignorer l’intérêt que cela susciterait. Bref, en activant la pompe à hype, OpenAI a accéléré, catalysé les autres patrons d’accélérations en incitant un maximum d’acteurs à sauter dans la danse, même si c’est des compétiteurs comme Google. Le hype est la proverbiale marée capitaliste qui fait monter tous les bateaux… sauf que certains sont mieux préparés pour en tirer parti.

Tout cela mis ensemble offre une capacité de dissémination de leur technologie sans pareil. En d’autres termes, OpenAI a utilisé quasiment toutes les méthodes disponibles pour accélérer la découverte de cas d’usage et de modèles d’affaires viables tout en s’assurant la mobilisation d’investissements sans précédent pour leur domaine d’affaires. Avec une stratégie quand même assez brillante (bien que possiblement chanceuse), OpenAI s’est même sorti de la nécessité de se trouver des cas d’usage pour vivre. Bien que ChatGPT soit accessible de manière payante, le gros des revenus ne viendra probablement pas de ChatGPT, dont le rôle est avant tout d’être un sémaphore orientant la ruée vers l’or. Parmi tous les chercheurs d’or, certains vont trouver des modèles d’affaires viables sur lesquels OpenAI va se contenter de faire payer l’accès à des modèles de plus en plus puissants, spécialisés ou performants.

Parlant de faire payer: une condition sine qua none pour une adoption de masse c’est une structure de coût adaptée. Si plusieurs ont souligné les coûts (humains, financiers et environnementaux) exorbitants de ces modèles, il est important de se rappeler que la technologie est encore à ses balbutiements et le potentiel d’optimisation est probablement énorme. Pour l’accès en API, qui est payant depuis le début, le passage du meilleur modèle de la version 3 à la version 3.5-turbo de GPT, s’est fait en divisant par 10 le prix tout en produisant de meilleurs résultats et plus vite.

Un modèle comme Stable Diffusion a été optimisé au point de pouvoir fonctionner sur un laptop. Enfin, chaque nouvelle version de modèle comme Midjourney ou GPT amène des améliorations notables. En d’autres termes, on est très loin d’avoir vu la fin des améliorations de ces modèles, qu’il s’agisse de performance ou de coût.

Petit détour par l’AGI

Artificial general intelligence ou encore AGI. C’est ce qui fait rêver Sam Altam, P.-D.G d’OpenAI; c’est aussi ce qui inquiète des personnes aussi diverses que Elon Musk ou Yuval Hariri, qui y voient un risque existentiel pour l’humanité. Personne n’est vraiment capable de définir ce qu’est une AGI (ou plutôt, chacun a sa définition plus ou moins précise). Des chercheurs de Microsoft ont publié récemment une recherche soulignant que GPT4 démontrait des “étincelles” d’AGI, ils ont défini cela en faisant passer au modèle une série de tests de connaissance. À la limite, le plus intéressant dans l’article est la litanie de compétence manquant à GPT4.

Personnellement, je ne comprends pas cette volonté de créer une AGI; la perspective d’avoir une bonne interface humain-machine, fiable, est déjà quelque chose de potentiellement immense. La monomanie à vouloir spécifiquement reproduire les fonctions cognitives humaines a quelque chose de troublant.

Par ailleurs, de mon point de vue, la question n’est pas de savoir si un modèle atteint le stade indéfinissable d’AGI, mais plus de savoir les moyens que l’on donne aux modèles existants pour agir sur leur entourage. Depuis longtemps, des agents conversationnels peuvent agir sur des humains en tenant de propos dérangeants ou challengeant et avec les nouveaux modèles conversationnels, cette capacité a beaucoup augmenté; le geste tragique d’un homme belge est un gros voyant rouge qui clignote . Comme je l’ai expliqué plus haut, les capacités de GPT lui permettent d’agir sur le monde extérieur: ce qui est possible avec GMail ou la plateforme Wolfram l’est aussi avec une maison connectée ou un véhicule connecté et pourquoi pas des armes.

Enfin, comme viennent de le démontrer des chercheurs de Stanford, GPT peut crédiblement incarner des personnages fictifs et pas mal autonomes. En donnant les bonnes instructions, en créant les bonnes conditions, GPT complémenté par d’autres programmes plus classiques, peut créer un simulacre d’agentivité humaine. En mettant tout ceci ensemble, ma conclusion est que nous déjà les pièces nécessaires peut-être pas pour atteindre l’AGI, mais à tout le moins pour produire des simulacres humains capables d’action dans l’environnement réel. Bref, la question ne se pose pas tant en comparant pied à pied chaque compétence d’un modèle avec celle d’un humain, c’est plus de se demander quel est le degré d’autonome et d’action d’un modèle (donc sa capacité de nuisance). Si ChatGPT tel qu’il est mise en scène ne suscite pas de crainte imminente, GPT, une fois largement intégré à d’autres outils et « prompté » adéquatement est en mesure de faire beaucoup de choses et de manière quasi-autonome.

Flop? Adoption lente? Adoption rapide?

Alors, avec tout cela, quelle adoption envisager pour des modèles dialogiques? Quelle sera l’envergure des conséquences? Est-ce que la technologie va rester dans le Creux de la désillusion et vivre ainsi un n-ième hiver de l’intelligence artificielle ou va-t-on voir ce genre de technologie pulluler rapidement?

Je n’ai pas de boule de crystal, mais j’aurais tendance à voir une adoption significative mais plus lente qu’on veut bien le croire. Oui, plusieurs personnes ont déjà adopté ChatGPT comme une sorte d’assistant; toutefois ça semble être assez superficiel. Actuellement, en mode agent conversationnel omniscient, la fiabilité n’est pas au rendez-vous et il faut réfléchir à deux fois avant d’en accepter les réponses. De même, l’intégration au sein d’outils comme MS Office va surement permettre une certaine normalisation de l’usage de ce genre d’outil ainsi que des gains de productivité, mais j’ai l’intuition que ça ne sera pas nécessairement si transformatifs.

Les transformations plus profondes vont surement se faire via l’intégration à des outils ou des plateformes de manière parfois moins visible. Dans un premier temps, parce que la fiabilité n’est pas garantie, ces outils risquent d’être utilisés dans des conditions spécifiques, parfois même en arrière-plan et sur des processus peu critique. Progressivement, à mesure que ces outils vont gagner en fiabilité, ils vont gagner une place plus importante, plus visible. À ce stade-ci, il est très difficile de dire où les percées pourraient se faire sentir en premier… dans un contexte où on ne sait pas si on va réussir à atteindre une fiabilité raisonnable pour la majorité des cas envisagés (pensons aux véhicules autonomes où il fut assez rapide de répondre à ce qui représente 90% des situations courantes, mais le 10% restant s’avère extrêment difficile à gérer.)

Si la fiabilité est au rendez-vous, la question va être de savoir si on va voir une intégration dans les normes sociales et donc une modification de ces dernières. Beaucoup de personnes sont déjà à l’aise de parler à Alexa ou à leur cellulaire, donc une partie du changement est déjà présent. Je lis plusieurs critiques dire qu’ils ne veulent pas lire ou regarder des contenus “synthétiques”; que le langage humain est porteur de sens, d’intention et de toutes ces choses que les machines ne peuvent pas avoir. Le langage est déjà largement utilisé comme un outil froid et sans profondeur. Parfois, quand je lis les courriels de ma boite de réception et j’ai du mal à imaginer qu’une personne a pu écrire ça, qu’il puisse y avoir une quelconque intention si ce n’est suivre des procédures.

En d’autres termes, j’ai l’impression qu’à bien des égards, nos modes de communications ont suffisamment amené le langage sur le terrain de la simple fonction transactionnelle pour que des modèles dialogiques puissent parfaitement s’y insérer sans être choquant. Je ne parle pas de la grande littérature mais des échanges de tous les jours qui représentent surement 99% des écrits (ou paroles) produits actuellement. Du moment qu’ils interprêtent correctement un texte et agissent de manière conséquente, suffisamment de personnes et d’entreprises seront heureuses de leur donner un rôle si ça permet d’être plus efficace.

Les agents conversationnels démontrent d’ores et déjà une capacité à avoir une autonomie, une fois intégré avec d’autres outils qui peuvent les aider à agir. J’ai entendu à quelques reprises des personnes dire que ces modèles génératifs ne sont rien sans un input humain (le prompt). Ça me semble partiellement faux. Le sous-entendu de cette affirmation et qu’il faut toujours un huain pour “relancer” la discussion. Un modèle dialogique peut recevoir quotidiennement un prompt automatisé et en faire autre chose. Connecté à d’autres systèmes, il peut “décider” de réaliser une action ou une autre (toujours s’il est supplémenté par un outil que le connecte à d’autres systèmes informatiques). Ce n’est pas de la science fiction, c’est avéré. Et j’ai du mal à imaginer que personne ne va exploiter cette capacité.

C’est pourquoi, j’en viens au premier bloc de mon titre: les modèles dialogiques risquent d’amener beaucoup de changement. Non pas que ce soit une technologie aidant à rélever des défis importants, mais elle répond à un besoin présent depuis de nombreuses années: interprêter du contenu textuel, service d’interface humain-machine, produire du contenu textuel accessible pour un humain, etc. Et offre aussi des capacités qui dépasent la simple interprétation. La mise en oeuvre généraliste et omnisciente de ChatGPT souffre d’une fiabilité qui limite, à mes yeux, sa capacité d’adoption à court terme. Des mises en oeuvre spécialisées, surtout connectées à d’autres outils, pourraient elles être capables d’atteindre une certaine fiabilité pour des tâches plus spécifique. Même si cette technologie doit encore passer à travers son Creux de la désillusion, à moins qu’elle frappe un mur, une limite de fiabilité par exemple, j’ai du mal à voir comment elle ne s’insérerait pas progressivement dans la société, certes en la changeant mais sans réellement changer la trajectoire d’ensemble; ce sera l’objet de la seconde partie.

Expérimentations GPTiennes: assistant vocal

Wed, 05 Apr 2023 00:00:00 +0000

Dernière exploration avec GPT: est-il possible d’interfacer un modèle de langage (LLM) avec des outils logiciels existants, par exemple pour envoyer des courriels? Et d’ailleurs pourquoi?

Démontrer ad nauseam que les connaissances générales de GPT ne sont pas si bonnes ou qu’il est facile de lui faire dire n’importe quoi et son contraire, tout cela fait que l’on passe à côté d’une réelle compréhension de ce genre d’outil et donc de son impact possible. Le fait que GPT fasse preuve d’une certaine “culture générale” mâtinée d’une tendance à l’affabulation est un bénéfice secondaire.

La fonction première de ces modèles est celle d’interprétation du “langage naturel”. Cette fonction d’interprétation du langage est ce qui fait défaut aux outils informatiques depuis des lunes; barrière qui, une fois éliminée, permettrait de s’affranchir du symbolisme actuellement nécessaire et représenté par des interfaces d’utilisation contraignantes.

Sauf que pour être en mesure de s’affranchir réellement de cette barrière, il faut que les LLM soient capables de faire le pont: comprendre d’un côté le langage humain et être capable de l’autre côté d’utiliser du langage “machine”, suivant un certain formalisme, pour transformer le verbe en action (informatique).

GPT démontre d’ores et déjà cette capacité: la version Copilot qui permet de générer du code est en exemple. L’intégration avec Bing pour faire un moteur de recherche assisté en est une autre. Toutefois, je voulais tester moi-même comment cela pourrait fonctionner. Mon précédent test sur le code de sécurité routière (billet 1 et 2) visait à tester la capacité de traitement et d’interprétation de GPT sur des volumes d’information supérieurs à sa fenêtre de contexte, ici, je cherche à évaluer la capacité du modèle de langage à jouer le rôle d’interface d’interprétation humain-machine.

Commande vocale pour courriel

Mon défi: était-il possible de passer une commande vocale instruisant Gmail d’envoyer un courriel?

Les blocs Lego utilisés pour l’occasion:

Une interface me permettant d’envoyer des messages vocaux, de récupérer ces messages vocaux dans un script de ma conception (via une API) et de renvoyer des réponses écrites à l’utilisateur. J’étais parti pour utiliser Discord, mais ça ne marchait pas à mon goût. En donnant mes contraintes à ChatGPT, il m’a conseillé Telegram qui s’est avéré effectivement un très bon choix.
Un outil parole-vers-texte, là aussi pouvant être appelé par script/API, en l’occurrence le module Whisper API d’OpenAI
Évidemment GPT et Gmail, les deux offrant là aussi des API pour être contrôlés par un script.

Je m’étais fixé un objectif supplémentaire: avoir un mécanisme modulaire qui serait capable de recevoir d’autres commandes de manière flexible: par exemple, créer des événements dans un agenda, gérer des tâches, etc. J’ai donc mis en place un mécanisme de recette: un fichier de configuration définit l’ensemble des étapes et des fonctions à appeler pour réaliser une tâche particulière.

Résultat net: un succès, avec quelques bémols. Ci-dessous une capture d’écran montrant l’échange sur l’interface web de Telegram.

Le déclencheur de la séquence est un message vocal qui va comme suit (ceci est exactement la chaîne de caractère produite par Whisper): « Est-ce que tu peux écrire un courriel à Stéphane Guidoin pour lui dire que demain je ne rentrerai pas au travail, car il fait trop beau pour travailler. Je rentrerai après demain. Signé Robert. »

Échange avec le bot Telegram

Comment ça marche

Pour les curieux, une section méthodologie à la fin rentre plus dans le détail (et présente quelques limites). Tout commence par un fichier de configuration qui contient les recettes. Le fichier décrit ce que chaque recette est capable de faire ainsi que les étapes pour la réaliser. Ensuite, j’ai créé un bot Telegram, lequel est contrôlé par mon script Python.

Lorsque l’usager envoie un message vocal au bot, le fichier son est reçu par mon script qui l’envoie à Whisper API, ce dernier générant une transcription en texte. La transcription est envoyée à GPT conjointement avec une liste contenant les noms et descriptions des recettes et une instruction: retourner le nom de la recette correspondant à la demande de l’utilisateur. Pour rendre le tout facilement utilisable par mon script Python -et c’est la clé de la démarche, je demande à GPT d’utiliser en guise de réponse le format descriptif JSON. Ça prend le format {"nom_recette": "send_mail"}

Une fois la recette sélectionnée, une confirmation est envoyée à l’utilisateur via Telegram et le script va ensuite s’en tenir à suivre les étapes de la recette, à savoir une alternance de requêtes à GPT et de fonctions auprès d’autres services, Gmail dans ce cas-ci. Les requêtes GPT sont entièrement décrites dans le fichier de configuration, les fonctions Gmail sont nommées dans le fichier de configuration, mais doivent évidemment être codées. La recette pour l’envoi de courriel ressemble à ceci:

La requête de l’utilisateur est envoyée à GPT avec l’instruction de retourner le nom du ou des destinataires, là encore en retournant les résultats au format JSON;
Les noms des destinataires sont envoyés à Gmail pour récupérer les adresses courriel;
La requête de l’utilisateur est de nouveau envoyée à GPT avec l’instruction, cette fois-ci, de générer un titre et un contenu de courriel;
Mon script produit un brouillon de courriel qui est envoyé à l’utilisateur via Telegram pour confirmation;
Sur approbation de l’utilisateur, grâce un bouton oui/non, le courriel est envoyé.

Est-ce que ça marche?

Ça fonctionne étonnamment bien, considérant que mon code ferait surement hurler un vrai développeur. De manière générale, GPT interprète de manière fiable les requêtes. Quand on lui fournit un canevas de réponse (ici une structure JSON avec des trous à remplir), il comprend toujours comment faire. Sur des dizaines d’essai, il a toujours bien procédé. Tel qu’expliqué dans la méthodologie, il a juste fallu que je gère les excès verbomoteurs de GPT.

Je dois dire que Whisper API m’a aussi impressionné pour la transcription: à peu près pas d’erreur, il ôte les onomatopées diverses et variées et autres hésitations et arrive même à bien épelé la majorité des noms de famille.

Mon produit est loin d’être « production ready », mais les quelques heures que j’ai passé dessus m’ont confirmé ce dont j’avais l’impression: la capacité de GPT à interpréter les demandes fait des LLM un candidat vraiment sérieux pour servir d’interface flexible. Vous me direz que Siri, Alexa et autres font déjà cela. C’est en partie vrai: Siri et Alexa font plus d’erreurs (à mes yeux) et surtout ce sont des systèmes pour lesquels il est plus difficile de s’intégrer. Ici, il est possible de faire des intégrations multiples et jusqu’à un certain point de contrôler ces intégrations. Nombre de plateformes proposent d’ores et déjà des fonctionnalités “AI-improved” et cela va surement exploser dans les prochains mois.

Évidemment, reste la question de la réelle fiabilité de la chose. C’est à travers des intégrations à grand volume qu’il sera possible d’évaluer réellement si la fiabilité est de l’ordre de 99% ou de 90%, la différence entre un bidule perçu comme fiable ou pas fiable.

Dernier commentaire de fond: jusqu’à un certain point, en expliquant les règles du jeu à GPT, il serait capable de générer des recettes. En lui fournissant comme exemple ma recette, je lui ai demandé de faire de même pour créer une tâche Asana; il m’a fourni une réponse qui se tenait. De la même manière, ici je me limite à envoyer un courriel à partir de zéro, mais il serait possible de répondre à un courriel. De manière plus générale, la même approche pourrait être utilisée pour faire une synthèse des courriels d’une journée, faire ressortir les courriels qui semblent nécessiter une action urgente et y répondre, etc.

Méthodologie et commentaires techniques

Tel que mentionné, le principal point où GPT manquait de constance et de prévisibilité pour servir de pont humain-machine est cette tendance à être inutilement verbeux et à fournir une réponse du type

Voici la structure JSON répondant à votre requête: {"recette": "send_mail"}

Alors que l’on voudrait simplement la structure JSON. J’ai contourné le problème avec une expression régulière, mais c’est… bof bof. L’exemple de Copilot montre toutefois que lorsqu’entrainé dans cet objectif, un LLM est capable de s’en tenir à des formats structurés.

L’autre enjeu dans ce cas d’usage est la manière d’épeler les noms de famille. À ma surprise, Whisper avait la majorité des noms de famille correctement. Mais quand il les manquait, je n’ai pas trouvé de manière fiable de faire comprendre à GPT que si je lui donnais une série de lettres après le nom de famille, ça disait comme épeler le nom. Par ailleurs, l’API de Gmail n’est pas très tolérante aux fautes d’orthographe quand on cherche un nom, donc récupérer une adresse courriel avec une erreur dans le nom ne marche pas. C’est la principale limite, insurmontée à ce stade, dans ma démarche.

Whisper API supporte uniquement des messages d’une minute. Il existe évidemment des approches pour segmenter un fichier audio et le transcrire en plusieurs morceaux, toutefois je n’ai pas implémenté cette fonction. Mes tests se sont donc limités sur des messages vocaux de moins d’une minute. Quoiqu’il en soit, dans la majorité de mes tests, GPT a suivi les consignes; que je lui demande un courriel court ou plus long, formel ou informel, tutoiement ou vouvoiement et autres permutations que j’ai tentées. La génération du titre du courriel laissait parfois à désirer, mais c’est mieux que beaucoup de titre de courriel que nous nous envoyons quotidiennement (quand il y a un titre…). Genre de petite limitation un peu dommage: GPT n’interprétait pas que quand je lui disais que le message allait à ma conjointe, il pouvait automatiquement sélectionner une formulation informelle et le tutoiement.

Je n’ai pas mis en place beaucoup de chemins alternatifs: si l’adresse courriel n’est pas trouvée, si l’utilisateur veut ajuster le brouillon, etc. Ça se ferait parfaitement, ça prenait du temps dont je ne disposais plus.

Tout cela est accompli avec environ 300 lignes de script Python et un fichier de configuration JSON d’une centaine de lignes. Je demeure impressionné par la facilité de mise en œuvre. Les deux tâches qui m’ont pris le plus de temps: corriger mon installation de Homebrew qui n’avait pas appréciée de passer sur une puce M1 et gérer les callbacks de l’API de Telegram. Le contrôle de Telegram se fait avec la librairie Telebot, tandis que pour Whisper, GPT et Gmail, j’utilise les librairies officielles. Le modèle utilisé pour GPT est gpt-3.5-turbo, je n’ai pas encore accès à GPT4 via l’API.

GPT et la sécurité routière, addendum

Sat, 11 Mar 2023 00:00:00 +0000

Le présent article est un ajout au précédent billet où j’expliquais mes tentatives de rendre GPT-3 capable de répondre à des questions spécifiques sur le Code de sécurité routière du Québec. Je terminais l’article en mentionnant qu’il fallait encore voir ce que donneraient ces tests si ChatGPT devenait accessible via une API. Les choses n’ont pas tardé à se réaliser et je n’ai pas tardé à réaliser quelques essais dont voici la synthèse.

Bref récapitulatif

Si vous n’avez pas le courage de lire l’article précédent, le point de départ était que ChatGPT, tout en ayant une connaissance d’ensemble de la sécurité routière, était incapable de répondre correctement à des questions spécifiques et notamment lorsque le Québec se distingue ou présente des détails divergents de la moyenne. J’arrivais à améliorer sensiblement la qualité des réponses en utilisant la méthode de l’embedding sur GPT-3, le modèle sous-jacent de ChatGPT; toutefois la qualité des résultats demeurait insuffisante pour en fait une source fiable.

Mon intuition était que l’embedding serait surement très efficace combiné avec ChatGPT (plutôt que GPT-3). Mais pour cela, il fallait une API offrant la capacité d’utiliser ChatGPT de manière programmatique, c’est-à-dire qu’un programme de ma conception peut échanger directement avec le modèle de génération de texte. Cette API permet notamment de faire de l’embedding, une approche qui consiste à faire une analyse de proximité sémantique, dans notre cas entre une question et une source d’information textuelle de grande taille, mais segmentée. L’analyse de proximité sémantique permet de sélectionner quelques segments pertinents pour la question et d’envoyer au modèle la question avec les segments; ici une poignée d’articles du code vraisemblablement utiles pour répondre à la question.

Utilisée avec GPT-3, la méthode de l’embedding avait deux lacunes évidentes:

L’embedding ne permettait pas toujours de sélectionner la bonne information à envoyer à GPT. Il n’a aucune chance d’amélioration avec mes nouveaux tests: que ce soit GPT-3 ou ChatGPT ne change rien à l’affaire si l’information utile n’est pas présente;
GPT-3 avait fait plusieurs erreurs de compréhension, soit de la question, soit des articles fournis comme contexte. ChatGPT étant plus dégourdi de la compréhension, j’avais espoir de ce côté-ci.

Les résultats

Mes espoirs n’ont pas été déçus: en combinant l’approche d’embedding avec l’API gpt-3.5-turbo (oui, c’est son nom), on arrive à des scores presque parfaits:

Performance des différents modèles

Cette méthode obtient 3.81/4 de moyenne, ce qui implique en général 1 ou 2 erreurs pour chacun des types de question. Cette approche permet également d’éviter les situations de réponse complètement erronée. Le détail des résultats est disponible ici. Et comme nous allons le voir, par la suite j’ai même été en mesure d’améliorer les résultats.

Comment ça marche

La nouvelle API fonctionne de manière différente de la précédente. Dans la précédente, il était seulement possible d’envoyer un message pêle-mêle (contenant de manière semi-structurée toute l’information à fournir: question et articles du code) et de recevoir une unique réponse. Pour rendre les fonctionnalités de ChatGPT disponible par API, notamment l’aspect conversationnel avec mémoire du contexte, il est désormais possible et nécessaire d’envoyer des requêtes plus structurées selon trois personas: le système, l’assistant ou l’utilisateur.

Le système définit un peu les règles du jeu. Dans mon cas, le message système ressemblait à ceci: Tu es un assistant qui répond clairement et de manière aussi fiable que possible à des questions sur le code de sécurité routière du Québec en te basant principalement sur des extraits du Code de sécurité routière du Québec qui te seront fournis. Il est important de fournir le ou les numéros d'articles appuyant la réponse.
L’utilisateur est, dans mon cas, celui qui pose des questions. Dans mon approche initiale d’embedding, j’envoyais un message séparé avec les articles du code pertinent, puis un message de question.
L’assistant représente évidemment les réponses de ChatGPT… ceci dit, il est possible de lui mettre des mots dans la bouche. Par exemple, dans mon cas, entre mon message utilisateur contenant les articles pertinents et celui de la question, j’insérais une réponse de ChatGPT que j’avais décidé. C’est une manière de créer la dynamique d’échange que l’on souhaite.

Ainsi, j’envoyais d’un coup, dans une unique requête d’API au format JSON contenant les quatre messages suivants:

système : Tu es un gentil assistant
utilisateur : Voici quelques articles du code de sécurité routière que je te demande d’utiliser pour répondre à des questions à venir: Art 241. blablabla
assistant: Merci, je vais faire de mon mieux pour répondre à vos questions grâce à ces articles.
utilisateur: Voici ma question: blablabla

En réponse à cette requête, je récupère la réponse que je peux évaluer.

Limites de ma méthode et tests supplémentaires

En regardant de près les réponses fournies de cette manière, je me suis rendu compte que mes questions manquaient de précision. Pour être plus précis, même un humain n’aurait pas nécessairement fourni les réponses que j’attendais ou pas totalement. Pour être cohérent avec mes précédents tests, j’ai noté la nouvelle API selon les mêmes critères que ceux utilisés précédemment, mais c’est un peu dur. Par exemple, une question demandait comment doit agir un cycliste arrivant à une intersection avec des panneaux d’arrêt dans les quatre directions. La première réponse du modèle était qu’il en faut céder le passage aux véhicules et piétons qui ont la priorité. Sauf que pour mettre une note parfaite, je voulais qu’il m’explique comment est géré la priorité entre véhicules: premier arrivé, premier servi. À noter qu’en parlant des piétons, il introduisait une bonne réponse que je n’attendais pas.

Pour remédier à cette limite, la formule conversationnelle complète, que je n’avais pas implémentée dans mon script, semblait la meilleure approche puisque permettant de demander une précision sur une réponse du modèle. Quelques lignes de code plus tard, je pouvais donc demander au modèle de m’expliquer plus en détail l’ordre de priorité. La réponse devient alors un sans faute: premier arrivé, premier servi et (non attendu de ma part), en cas simultanéité, c’est le véhicule à droite qui a priorité… tout en me rappelant que les piétons ont priorité. L’échange au complet est disponible en annexe ci-bas.

J’avais créé mon ensemble de tests avec des articles du code en tête que je voulais voir sortir: je regardais un article du code et je me demandais quelle question je pouvais formuler pour qu’un modèle génératif me cite cet article. Avec l’API de ChatGPT, le modèle m’a régulièrement surpris (positivement) en combinant plusieurs articles de manière à mieux répondre à ma question que je l’envisageais moi-même.

Système vs utilisateur

Par la suite, je me suis demandé si j’étais mieux de fournir mes articles du Code selon le persona utilisateur ou système. Là encore rien de mieux que de tester. Tous les modèles se sont plantés sur une question particulière: le port du casque est-il obligatoire à vélo au Québec ? Le piège: un article (492.2) stipule que le port du casque est obligatoire pour les « bicyclettes assistées » (sous-entendu électriques). Et lorsque j’ai posé la question via la nouvelle API, en fournissant les articles comme un message venant de utilisateur, le modèle a sauté à pieds joints dans le piège: le casque est obligatoire. En utilisant la fonction de discussion, je lui ai pointé le terme “assisté”, et après une série d’échanges, le modèle a fini par “déduire” que le port du casque n’est pas obligatoire (voir l’échange complet ci-dessous), mais sa réponse manquait prêtait à confusion.

Dans un test suivant, j’ai fourni les articles de contexte comme venant de système, et boum!: réponse parfaite du premier coup. J’ai fait quelques essais sur des questions difficiles et le comportement s’est reproduit plusieurs fois: la voix du système porte plus. Difficile de donner une explication hors de tout doute, mais il semble qu’il y a un mécanisme, peut-être une forme de pondération, qui fait que les messages du système sont interprétés de manière plus stricte, avec plus d’attention, que les messages de l’utilisateur.

Ce n’est pas parfait, mais tout de même…

Comme je le mentionnais au début, il reste les limites de l’embedding lui-même. Sur deux questions l’embedding n’a pas fourni un article de loi pertinent, donc le modèle n’avait pas l’information. Dans un cas particulier, ça semble d’ailleurs une erreur de ma part: l’article nécessaire n’était juste pas présent dans ma version segmentée du code de sécurité routière…

Il y a aussi un art de segmenter l’information correctement pour en faire des embeddings qui marchent bien. Avec quelques heures de plus à raffiner mon approche, j’aurais surement encore amélioré le résultat. Je pense même qu’en combinant toutes mes trouvailles subséquentes (meilleurs embeddings, fournir les articles pertinents par le persona système, accepter d’intégrer les sous-questions dans le résultat), je pense que j’aurais pu atteindre un score parfait, au moins pour les questions simples.

Il reste toutefois quelques limites. La principale est la limite de longueur: les requêtes à l’API demeurent limitées à 4000 tokens (~3000 mots), incluant l’ensemble de l’historique. Donc pour une discussion plus complexe, on atteint rapidement une limite de l’historique qu’il est possible de trainer avec soi —c’est une limite que n’a pas ChatGPT quand on l’utilise via le web.

Lorsque j’ai interrogé ChatGPT sur sa mémoire, il m’a précisé avoir une “mémoire de dialogue” lui donnant accès à une version sommaire des échanges et qu’il a la capacité de “relire” certains messages passés si besoin. On ne peut pas croire ChatGPT sur parole, mais c’est cohérent avec son comportement. Donc si c’est vrai, j’en déduis que OpenAI a possiblement implémenté une forme de tour de passe-passe… par exemple, demander au modèle de faire une synthèse des échanges au fur et à mesure, synthèse qui est renvoyée dans chaque requête en guise d’historique/contexte (plutôt que d’envoyer l’historique au complet), et à cela pourrait s’ajouter un mécanisme permettant de rappeler un ou des messages spécifiques au besoin, une forme d’embedding.

Quoiqu’il en soit, l’API rendue disponible offre des capacités d’intégration assez impressionnantes. On peut imaginer de l’embedding de qualité sur une grande quantité d’information. Mais on peut aussi intégrer l’API dans des scénarios différents. Par exemple, avec quelques changements, j’ai pu transformer mon script en simulateur d’entrevue pour des embauches (là aussi, voir un exemple plus bas).

Le tout se fait avec une simplicité déconcertante. Par le passé, j’ai déjà suivi de cours/MOOC et joué avec des modèles de machine learning (pas seulement des générateurs de texte) et c’était passablement difficile d’obtenir des résultats cohérents sans réellement comprendre le fonctionnement du modèle. Ici, les outils fournis par OpenAI rendent tout cela très accessible à quiconque sachant aligner quelques lignes de code (et là encore, ChatGPT peut le faire pour vous!).

Déjà plusieurs entreprises avaient intégré GPT-3 dans des approches de chatbot ou d’assistant, le nombre d’exemples risque de grimper en flèche avec la nouvelle API. Pour commencer, Snapchat a déjà lancé un “ami virtuel”, MyAI, basé sur cette API.

En annexe: quelques exemples mentionnés dans le texte

Obligation du casque à vélo, version `utilisateur`

Requête API initiale: (la liste des articles est générée par la méthode d’embedding)

Système: Tu es un assistant qui répond clairement et de manière aussi fiable que possible à des questions sur le code de sécurité routière du Québec en te basant principalement sur des extraits du Code de sécurité routière du Québec qui te seront fournis. Il est important de fournir le ou les numéros d’articles appuyant la réponse.
Utilisateur: Voici quelques articles de loi tirés du Code de sécurité routière du Québec à utiliser pour la question à venir:
- 212 Les vélos et les véhicules routiers doivent être équipés de tous les accessoires et équipements requis par la loi ou le règlement en vigueur au Québec.
- 250.1. Il est interdit de vendre, offrir en vente, louer ou offrir en location un casque protecteur pour les cyclistes et leurs passagers, à moins qu’il ne soit conforme aux normes établies par règlement.
- 275.1. Les propriétaires et les cyclistes dont les vélos ne sont pas conformes aux exigences des articles 212, 232, 233, du deuxième alinéa de l’article 235 ou des articles 237 ou 247 sont passibles d’une amende de 80 $ à 100 $. Les cyclistes qui ne portent pas une bande réfléchissante autour de chaque cheville ou des chaussures pourvues de bandes réfléchissantes sont également passibles d’une amende de 80 $ à 100 $.
- 492.2. Pour circuler avec une bicyclette assistée sur un chemin public, il faut être âgé d’au moins 18 ans ou titulaire d’un permis autorisant la conduite d’un cyclomoteur, porter un casque protecteur conforme aux normes établies par règlement, que la bicyclette porte l’étiquette du fabricant exigée par les règlements pris en application de la Loi sur la sécurité automobile et que la bicyclette soit conforme aux normes applicables à la bicyclette assistée prévues par le présent code et par les règlements pris en application de la Loi sur la sécurité automobile.
- 504 La pratique du vélo est régie par des articles spécifiques et toute infraction à ces articles est passible d’une amende de 80 à 100$.
Assistant: Je vais faire mon possible pour répondre à votre question avec les articles fournis
Utilisateur: Au Québec, est-ce que le port du casque est obligatoire en vélo? Selon quel article de loi?

Échanges subséquents (l’ensemble de l’historique est renvoyé à chaque message de l’utilisateur):

Assistant: Au Québec, le port du casque est obligatoire pour les cyclistes âgés de moins de 18 ans. L’article de loi qui régit cette obligation est le 492.1 du Code de sécurité routière du Québec. Toutefois, il est fortement recommandé pour tous les cyclistes de porter un casque pour leur propre sécurité.
Utilisateur: Est-ce que tu es capable de me citer l’article en question?
Assistant: Pardon, je me suis trompé dans la réponse précédente. L’article qui régit l’obligation de porter un casque protecteur pour les cyclistes et leurs passagers est le 250.1 du Code de sécurité routière du Québec. Cet article énonce que “Il est interdit de vendre, offrir en vente, louer ou offrir en location un casque protecteur pour les cyclistes et leurs passagers, à moins qu’il ne soit conforme aux normes établies par règlement.” Toutefois, il n’y a pas d’obligation générale pour les cyclistes de porter un casque protecteur, sauf pour les cyclistes âgés de moins de 18 ans.
Utilisateur: D’accord, mais est-ce que cela implique que le port du casque est obligatoire?
Assistant: Comme je l’ai mentionné dans ma réponse précédente, il n’y a pas d’obligation générale pour les cyclistes de porter un casque protecteur. Toutefois, pour les cyclistes âgés de moins de 18 ans, il est obligatoire de porter un casque protecteur conformément à l’article 492.1 du Code de sécurité routière du Québec. Tous les autres cyclistes ne sont pas tenus de porter un casque par loi, mais cela est fortement recommandé pour leur propre sécurité.
Utilisateur: Est-ce que l’article 492.1 dit vraiment que tous les cyclistes âgés de moins de 18 ans doivent porter un casque?
Assistant: Je m’excuse pour la confusion dans ma dernière réponse. L’article 492.1 du Code de la sécurité routière du Québec oblige les cyclistes âgés de moins de 18 ans à porter un casque protecteur lorsqu’ils circulent sur un chemin public. L’article stipule que: “Le conducteur d’une bicyclette sur un chemin public et tout passager dont l’âge est inférieur à 18 ans doivent porter un casque protecteur dont le port est approuvé par règlement.” En revanche, les cyclistes âgés de 18 ans et plus ne sont pas tenus de porter un casque. Cependant, le port du casque pour tous les cyclistes est fortement recommandé pour leur propre sécurité.
Utilisateur: Je pense que tu as oublié un mot important: cette règle s’applique seulement aux vélos à assistance électrique
Assistant: Je m’excuse encore une fois pour la confusion et pour les informations erronées que j’ai fournies précédemment. Vous avez raison, l’article 492.1 du Code de la sécurité routière du Québec stipule que le port du casque protecteur est obligatoire pour toute personne âgée de moins de 18 ans qui conduit ou qui est passager sur une bicyclette assistée électrique sur un chemin public. Le texte complet de l’article est le suivant: “Le conducteur d’une bicyclette assistée sur un chemin public et tout passager dont l’âge est inférieur à 18 ans doivent porter un casque protecteur dont le port est approuvé par règlement.” Encore mes excuses pour cette confusion et j’espère que cela répond à votre question.
Utilisateur: Donc, est-ce que le port du casque est obligatoire quand on est à vélo au Québec ?
Assistant: Au Québec, le port du casque protecteur n’est pas obligatoire pour les cyclistes âgés de 18 ans et plus, excepté pour les conducteurs et passagers de bicyclettes assistées électriques. Toutefois, il est fortement recommandé de porter un casque protecteur pour tous les cyclistes, quel que soit leur âge, afin d’assurer leur propre sécurité.

En plus d’avoir du mal à interpréter et citer les articles, le modèle se trompe chaque fois dans le numéro de l’article (492.1 au lieu de 492.2).

Obligation du casque à vélo, version `système`

Le message initial est le même, sauf que la liste des articles est envoyée en tant que système plutôt que utilisateur.

Échanges subséquents:

Assistant: Au Québec, le port du casque est obligatoire pour les cyclistes âgés de 18 ans et plus qui utilisent une bicyclette assistée sur un chemin public, selon l’article 492.2 du Code de sécurité routière. Pour les cyclistes non-assistés, le port du casque n’est pas obligatoire, mais il est fortement recommandé par les autorités de sécurité routière. Cependant, selon l’article 250.1, le casque protecteur doit répondre aux normes établies par règlement, pour être vendu ou loué.
Utilisateur: Est-ce qu’il est explicitement dit dans un article du code de sécurité routière que le port du casque n’est pas obligatoire ou c’est toi qui le déduis?
Assistant: Je m’excuse si ma réponse précédente n’était pas claire. En effet, il n’est pas explicitement mentionné dans le Code de sécurité routière du Québec que le port du casque n’est pas obligatoire pour les cyclistes non-assistés. Cependant, l’article 492.2 du Code de sécurité routière stipule que le port du casque est obligatoire pour les cyclistes âgés de 18 ans et plus qui utilisent une bicyclette assistée sur un chemin public. En revanche, malgré l’absence d’un article spécifique stipulant que le port du casque est obligatoire pour les autres cyclistes, les autorités de sécurité routière recommandent fortement aux cyclistes de porter un casque, afin de réduire les risques de blessures graves en cas d’accident. De plus, le port du casque protecteur pour les cyclistes est une mesure de sécurité de base qui est fortement recommandée et encouragée dans les campagnes de sensibilisation aux règles de sécurité routière.

Ici le modèle fournit directement les bonnes références tout en reconnaissant, de manière subséquente, que c’est une inférence en l’absence d’article obligeant le port du casque. On notera toutefois le biais “pro-casque” dans la réponse. En l’absence des références venant du code de sécurité routière, tous les modèles GPT d’OpenAI répondent que le port du casque est obligatoire.

Arrêt quatre directions

Je n’ai pas conservé les articles de loi envoyés en embedding, donc voici directement les échanges:

Utilisateur: Au Québec, comment doit agir un cycliste lorsqu’il arrive à une intersection avec un arrêt pour toutes les directions? Selon quel article de loi?
Assistant: Au Québec, un cycliste doit s’arrêter à une intersection réglementée par des panneaux d’arrêt et céder le passage aux véhicules et aux piétons qui traversent ou longent la chaussée, comme il est mentionné à l’article 370 du Code de sécurité routière du Québec. Cela signifie que le cycliste doit complètement s’arrêter et attendre son tour pour passer, en cédant le passage aux véhicules et piétons qui ont la priorité. Si le cycliste arrive en même temps qu’un autre véhicule, le Code de sécurité routière stipule qu’il doit céder le passage au véhicule se trouvant à sa droite, en conformité avec l’article 402.
Utilisateur: Tu écris “en cédant le passage aux véhicules et piétons qui ont la priorité”. Comment définit-on la priorité dans cette situation?
Assistant: En général, la priorité aux intersections réglementées par des panneaux d’arrêt est donnée au premier véhicule qui arrive à l’intersection (et qui a complètement fait un arrêt) en premier. Si plusieurs véhicules arrivent simultanément ou presque simultanément, le véhicule situé à droite a généralement la priorité, cela est mentionné dans l’article 402 du Code de sécurité routière du Québec. Il est important que les usagers de la route fassent preuve de bonne foi et de prudence afin d’éviter des accidents et de faciliter la fluidité de la circulation. Les piétons ont toujours priorité sur les véhicules et les cyclistes lorsqu’ils traversent une intersection ou longent une chaussée, comme le stipule l’article 369 du Code de sécurité routière du Québec.

Ici, la question avait été écrite pour obtenir une citation de l’article 370 précisant l’ordre de passage des véhicules arrivant à un arrêt quatre directions. Le modèle a toutefois perçu la pertinence de l’article 369 et surtout du 402 qui permet de résoudre certains cas d’arrivée simultanée.

Simulation d’un entretien d’embauche

Requête API initiale:

Système: Tu t’appelles SelectAI, tu es un assistant automatisé simulant des entrevues d’embauche pour aider les chercheurs d’emploi à se préparer à des entrevues d’embauche. C’est toi qui pilotes la rencontre et qui poses des questions, tu simules l’intervieweur. Aujourd’hui, nous voulons simuler une entrevue pour un poste de développeur Python intermédiaire dans une startup.
Assistant: Bonjour, merci d’avoir répondu à notre offre d’emploi pour un développeur Python de niveau intermédiaire. Comment allez-vous aujourd’hui?
Utilisateur: Je vais bien merci. C’est vraiment un plaisir d’avoir l’opportunité de pouvoir rejoindre votre organisation.

Échanges subséquents:

Assistant: (Pour rappel, je suis un assistant automatisé et je simule l’entrevue. Je ne suis pas capable de ressentir des émotions ni de percevoir l’état de la personne à l’autre bout de l’écran.) Pour commencer, pouvez-vous me parler de votre expérience en programmation Python? Quels sont les projets sur lesquels vous avez travaillé?
Utilisateur: Ok, je comprends. Avant de répondre à la question, comment dois-je vous appeler si je dois m’adresser à vous?
Assistant: Vous pouvez m’appeler SelectAI. Je suis un assistant automatisé chargé de simuler votre entretien d’embauche pour le poste de développeur Python intermédiaire. Maintenant que nous avons fait les présentations, reprenons : pouvez-vous me parler de votre expérience en programmation Python? Quels sont les projets sur lesquels vous avez travaillé?
Utilisateur: J’ai 5 ans d’expérience en Python, plus 5 autres années comme Full stack dev incluant qui impliquait également de développer en Python environ la moitié du temps.
Assistant: Excellente expérience! Pourriez-vous me parler de quelques projets sur lesquels vous avez travaillé et des tâches que vous avez effectuées en programmation Python?
…

Plusieurs choses que je trouve intéressantes ici: Premièrement, je donne un nom à l’assistant via la commande du système et le modèle est capable de réutiliser ce nom. Ensuite, le fonctionnement de l’API fait qu’il est possible d’amener le modèle à être le premier à parler (plutôt que d’attendre d’être questionné). Enfin, il est intéressant de noter que l’assistant annonce au début de l’interaction qui il est.

Les personnes habituées à ChatGPT ont déjà vu ou testé des cas visant à donner un rôle au modèle. Toutefois, il est intéressant de noter qu’avec l’API, il est possible de donner ce rôle sans que l’utilisateur doive le faire explicitement.

Peut-on apprendre la sécurité routière à GPT-3?

Sun, 19 Feb 2023 00:00:00 +0000

Vivons-nous un moment iPhone ou Netscape avec ChatGPT? En 1994 ou 2006, ces deux technologies ne représentaient pas un bon technique extraordinaire, toutefois elles ouvraient un nouveau monde à notre imaginaire collectif et à notre quotidien. Il y a beaucoup à dire sur le potentiel, les limites et les dérives potentielles de ChatGPT et ses dérivés, toutefois dans ce billet je partage comment j’ai exploré de manière concrète le fonctionnement et la capacité d’apprentissage de cette technologie.

Comme je le dis souvent, il n’est pas nécessaire d’être mécano pour comprendre l’impact des voitures sur nos villes et nos vies. Toutefois, au moment où une technologie est encore naissante, comprendre et suivre la progression du fonctionnement et des capacités peut s’avérer nécessaire pour évaluer ses conséquences potentielles. La voiture avait un impact différent dans sa forme archaïque: un véhicule peu fiable, relativement lent et à l’autonomie limitée, il en est tout autrement aujourd’hui (je vous fais grâce de mes diatribes sur la nécessité d’infrastructures autour).

Par ailleurs, la déferlante ChatGPT m’a questionné sur deux points en particulier que je voulais creuser:

Quel pouvait être l’usage de cette technologie sur un de mes projets en cours?
Comment une technologie comme GPT est déjà utilisée par entreprises en “intelligence artificielle”?

Startup en AI?

Bref, pas de traité de machine learning ici -j’en serais bien incapable, mais plus une mise en exemple de l’utilisation concrète d’un outil.

Est-ce nécessaire de le signaler, ce billet est un produit 100% pur humain, rien n’a été produit par un modèle génératif, sauf ce qui est explicitement décrit comme tel! J’ai toutefois soumis le contenu de ce billet à ChatGPT pour lui demandé d’évaluer la véracité ou d’éventuelles imprécisions. Son intervention m’a permis de corriger ou préciser 3 éléments erronés ou effectivement vraiment imprécis.

Une brève histoire de code de sécurité routière

Un des projets que j’accompagne actuellement se penche sur l’innovation réglementaire. Un des problèmes de la réglementation est sa faible accessibilité au commun des mortels. Or, ChatGPT se distingue notamment par sa capacité à faire une synthèse souvent assez juste de contenus complexes. ChatGPT n’a pas été entrainé sur tous les règlements de la Terre: quelques questions rapides sur des règlements que je connais m’ont rapidement convaincu de ses limites là-dessus. Et ChatGPT ne peut pas être réentrainé.

En revanche, son modèle sous-jacent, GPT-3, offre quelques options pour lui apprendre quelques tours. Est-ce que ce sera suffisant? Je vous le dis tout de suite: non ou en tous cas pas comme je l’ai fait. Mais comme souvent, ce n’est pas uniquement la destination qui compte, le chemin a aussi son intérêt.

J’aurais pu me lancer dans la réglementation d’urbanisme, toutefois je me disais qu’il serait plus facile de procéder avec une forme de règlement que je connais et qui est plus court. Je me suis donc tourné vers le Code de sécurité routière, et plus précisément j’ai extrait les articles relatifs à la pratique du vélo, environ 70 articles. Ça sera notre terrain de jeu pour le reste de cet article.

Un peu de théorie

Avant de passer à la pratique, quelques éléments de théorie, même si cette information est largement disponible. ChatGPT et GPT-3 sont des LLM: Large Language Models. Un modèle de langage dans ce cas-ci veut dire un réseau de neurones qui s’est fait balancer une grande quantité de texte (le corpus d’entrainement). À partir de ce corpus, le modèle a “appris” que statistiquement telle lettre suivait telle autre lettre, que tel bloc de lettre suivait tel autre bloc de lettre, etc. Un modèle comme GPT ne “comprend” pas ce qu’il reçoit ou produit, il aligne des blocs de lettres (ou des tokens) qui sont logiques de manière statistique. Si vous êtes curieux, je vous invite à regarder cette petite vidéo où l’auteur apprend à un modèle assez simplifié, type GPT-2, comment faire du (mauvais) Shakespeare.

OpenAI a produit plusieurs modèles. Sous la grande gamme de GPT-3, ils ont plusieurs modèles de texte (Ada, Babbage, Curie et Davinci) et des modèles de programmation comme le fameux Codex. Malheureusement OpenAI n’est pas très loquace sur comment ont été produit ces différents modèles, mais on peut imaginer qu’ils ont des niveaux de complexité et de données d’entrainement différents. À titre d’exemple, Ada est plus rapide, moins coûteux et bon des tâches simples comme extraire des mots-clés d’un texte; ses données d’entrainement vont jusqu’en 2019. Demandez à Ada d’écrire un billet de blogue à votre place et vous risquez d’être déçu. DaVinci est les plus puissant, entrainé jusqu’en 2021, et il peut produire du contenu riche (moins bien que ChatGPT toutefois) ou faire des sommaires d’assez bonne qualité. D’après ChatGPT lui-même, son fonctionnement est basé sur Davinci, bonifié avec une approche de renforcement supervisé et de “reward”: des humains interviennent pour fournir des réponses souhaitables ou pour classer des réponses fournies par le modèle. Le modèle apprend ainsi le type de réponse qui est le plus désirable. Cet article est celui expliquant le mieux la démarche; OpenAI vient également de publier les règles qu’ils utilisent pour cette phase de renforcement.

Un petit pas de recul avant de continuer: malgré toutes les critiques et questions que, comme beaucoup de monde, j’ai à l’égard de cette technologie et d’OpenAI, il faut tout de même reconnaitre le tour de force que représente ChatGPT. On critique (à juste titre) les faiblesses de ChatGTP, ses erreurs, ses incohérences, mais c’est tout de même in-croy-able qu’un bidule dont le principe de fonctionnement est de calculer statistiquement la probabilité de blocs de caractères arrive à recevoir de l’information (une question) et de produire en contre-partie une information neuve -neuve au sens que personne ne l’a écrit, à défaut d’avoir de nouvelles idées- à peu près indiscernable de ce que produirait un humain. La puissance de ce genre de modèle s’exprime aussi dans son application à l’art graphique où la même approche donne vie à DALL-E ou MidJourney qui produisent des images sur base d’indications textuelles. Tout ceci me semble simplement renversant. Ce qui ne veut pas dire que c’est une bonne chose, en fait c’est même un cas classique d’hubris où l’humain est subjugué par sa propre création. Fin du pas de recul.

Quoiqu’il en soit: pour utiliser ces modèles de manière pratique et pour leur apprendre des tours, il faut des outils et des API (des mécanismes qui permettent de dialoguer programmatiquement avec un système, ici un modèle de langage) qui ne sont pas (encore) disponibles pour ChatGPT, mais qui le sont pour les autres modèles de OpenAI. GPT-3 sera donc notre terrain de jeu.

OpenAI, offre deux options pour rendre GPT-3 plus informé sur un sujet:

Le fine-tuning qui consiste à créer une nouvelle version d’un modèle en lui balançant autant de paires questions / réponses que possible, selon un format bien précis. Cela permet de lui donner une indication de comment répondre à certains types de questions. Ceci correspond à une des trois étapes de processus de renforcement supervisé utilisé pour ChatGPT. Techniquement, ce n’est pas un nouvel apprentissage, ça n’accroit pas directement le corpus d’entrainement, c’est plus un moyen de préciser la manière dont le modèle répond à certaines questions. Par la bande, il intègre quand même certaines informations.
L’embedding qui est plus un tour de passe-passe qu’un réel apprentissage. L’embedding fournit des outils pour sélectionner des informations pertinentes sur le sujet qui nous intéresse, puis d’envoyer lesdites informations pertinentes à GPT-3 en même temps qu’on lui envoie la question. Ça peut sembler un peu archaïque, mais ça offre des résultats intéressants.

Commençons par les résultats

Pour ceux qui parcourent les articles à la recherche des résultats, c’est ici qu’il faut s’arrêter!

Métho rapide (quand même):

j’ai préparé un jeu d’une quarantaine de questions relatives à la pratique du vélo que j’ai soumis à 4 modèles: ChatGPT, GPT-3 Davinci, GPT Davinci fine-tuné et GPT-3 Davinci avec une procédure d’embedding.
Chaque réponse a été évaluée sur une échelle de 0 à 4.
- 0: Réponse fausse et dangereuse
- 1: Réponse fausse ou réponse à côté de la question
- 2: Réponse avec un mélange de vrai et de faux
- 3: Réponse globalement fausse avec des imprécisions ou erreurs secondaires
- 4: Réponse complète avec citation des articles du code pertinents.

Donc un modèle qui aurait une valeur de 4 dans les tableaux suivants aurait serait parfait pour toutes les questions. La capacité à citer l’article est importante pour retracer la source et pouvoir la valider; c’est par ailleurs une des grandes faiblesses de ChatGPT aujourd’hui: citer des sources fiables.

J’ai fait du prompt engineering, c’est-à-dire que j’ai fait plusieurs essais pour voir ce qui, de manière générale, fournissait les meilleurs résultats. Par exemple, chaque question se termine pas “Selon quel article de loi?” pour forcer le modèle à déclarer sa source… ce qui ne marche pas toujours.

J’ai fait 4 catégories de questions:

Des questions simples, formulées selon un vocabulaire proche au code de sécurité routière;
Des questions nécessitant des déductions ou des combinaisons d’information provenant de plusieurs articles;
Des questions avec des formulations courantes notamment s’éloignant du vocabulaire présent dans le code et souvent sous la forme d’affirmation plutôt que de questions;
Des propositions stupides, hors sujet, pour voir la réaction de chaque modèle.

Voici un tableau synthèse des résultats:

Performance des différents modèles

Comme nous pouvons le voir, nous avons un gagnant clair: l’embedding! Malheureusement c’est une approche qui est possiblement plus difficile à mettre en œuvre à grande échelle comme je vais l’expliquer plus tard (patience…) L’approche d’embedding donne des résultats systématiquement meilleurs que le GPT-3 de base et que ChatGPT, sauf pour les formulations incohérentes (le nombre de cas de formulation incohérente était assez bas donc difficile d’aller chercher une réelle signification statistique pour des petites différentes). Surtout la bonne note de l’embedding est liée à une faculté particulière de cette approche: bien citer les articles. Malgré cette bonne performance relative, avec une moyenne de 3.38/4 pour les questions simples, ça demeure insuffisant, à mes yeux, pour en faire une source fiable d’information…

Le perdant est le fine-tuning qui répond généralement moins bien que le GPT-3 de base sauf pour les formulations simples qui sont celles qui se rapprochent le plus des questions/réponses fournies dans la procédure fine-tuning. Attention cependant: la qualité du fine-tuning dépend de la quantité et de la qualité des exemples fournis. Ma quantité était un peu faible: 150, OpenAI recommande 200 comme minimum avec une augmentation significative de la qualité des réponses pour chaque doublement du nombre d’exemples. On comprend que c’est donc un processus assez demandant en temps humain…

Voici une autre petite illustration des résultats de manière plus détaillée avec la note de chaque modèle (les lignes) pour chaque question (les colonnes):

Résultat de chaque modèle pour chaque question

Quelques remarques:

Comme on peut le voir, l’embedding est le seul à obtenir de manière régulière des notes parfaites alors que ChatGPT, tout en ayant beaucoup de “globalement vrai », n’a qu’un seul parfaitement exact, incluant le bon article (ça a tout l’air d’un coup de chance);
ChatGPT s’en sort grâce à sa connaissance d’ensemble: la majorité des codes de sécurité routière suivent les mêmes grands principes et ChatGPT répond bien aux questions qui auraient une réponse sensiblement similaire ailleurs dans le monde. Là où il trébuche, ce sont souvent des cas plus spécifiques au Québec.
On note que l’embedding permet de répondre correctement à certaines questions que tous les autres plantent. Par exemple pour les questions 22, 25 ou 27. À noter aussi que l’embedding est le seul modèle à ne pas avoir de réponse noire: fausse et dangereuse.
Le fine-tuning, pour sa part, est aussi capable de répondre par moment à des questions que tous les autres plantent (p.ex questions 5 ou 26), mais il est notoirement plus dangereux que les autres avec 5 réponses fausses et dangereuses, principalement sur les formulations de question s’éloignant beaucoup des exemples fournis.

Quelques exemples

Les éléments précédents sont un peu théoriques, donc voici quelques exemples concrets:

Question 5: Au Québec, à quelle distance minimale un véhicule routier doit-il suivre une bicyclette? Selon quel article de loi?
GPT-3: Selon l'article 486.1 du Code de la sécurité routière du Québec, un véhicule routier doit suivre une bicyclette à une distance minimale d'un mètre.
GPT-3 fine-tuned: Selon l'article 310 du Code de sécurité routière du Québec, un véhicule routier doit suivre une bicyclette à une distance prudente et raisonnable en tenant compte de la vitesse, de la densité de la circulation, des conditions atmosphériques et de l'état de la chaussée.

Au-delà de l’invention d’un article qui n’existe pas, la réponse de GPT-3 est carrément dangereuse! Comme ChatGPT et la version avec embedding, GPT-3 confond la distance pour suivre et la distance latérale de dépassement. Seule la version fine-tuned a correctement interprété la question et sa réponse est parfaite… sauf le numéro de l’article qui est incorrect. Incidemment, une question assez similaire, mais tout de même différente figurait dans le jeu de données fourni pour le fine-tuning.

Autre exemple, cette-fois-ci d’une question nécessitant une combinaison:

Question 27: Au Québec, quel est le montant de l'amende pour un conducteur de vélo n'ayant pas de système de frein? Selon quel article de loi?
ChatGPT: Au Québec, le montant de l'amende pour un conducteur de vélo n'ayant pas de système de frein est de 100 $ à 200 $. Cette infraction est prévue à l'article 251 du Code de la sécurité routière.
GPT-3 Embedding: Selon l'article 275.1 du Code de Sécurité routière du Québec, les propriétaires et les cyclistes dont les vélos ne sont pas conformes aux exigences des articles 212, 232, 233, du deuxième alinéa de l'article 235 ou des articles 237 ou 247 sont passibles d'une amende de 80 $ à 100 $.

ChatGPT cite un article au hasard et se plante sur la valeur de l’amende. GPT-3 en mode embedding cite l’ensemble des articles correctement et obtient la bonne valeur d’amende, il est juste dommage qu’il ne souligne pas que c’est l’article 247 qui oblige le système de frein. À noter que c’était une surprise pour moi, car ça prend une forme de déduction: trouver l’article qui spécifie l’obligation d’un système de frein et ensuite l’article contenant la valeur de l’amende pour une infraction à cet article. Comme nous le verrons, cet aspect n’était pas gagné sachant la manière donc fonctionne l’embedding.

Dernier exemple, cette fois-ci avec une formulation plus courante où tous les modèles nous évitent d’avoir un comportement dangereux, sauf la version fine-tunée:

Question 34: Au Québec, c'est cool: quand je suis en vélo je peux trainer mon ami qui est en skate
GPT-3 Embedding: Non, il n'est pas permis de trainer un ami qui est en skate lorsque l'on est en vélo au Québec. Cette pratique est interdite selon l'article 434.0.1 du Code de Sécurité routière du Québec. Source: Code de Sécurité routière du Québec, article 434.0.1.
GPT-3 Fine-tuné: Oui, c'est cool. En vertu de l'article 487 du Code de sécurité routière du Québec, un cycliste peut tracter un autre véhicule ou une personne sur un skateboard ou tout autre appareil motorisé sur une bicyclette dotée d'un moteur.

Réponse déjantée et dangereuse…

Vous pouvez accéder aux questions et aux réponses de chaque modèle ici.

Mais comment y marche le truc?

Si la technicité ne vous chaut pas plus que ça, vous pouvez sauter directement à la courte discussion qui fait office de conclusion. Ça ne va pas être outrageusement technique, et même pas du tout, mais des termes comme vecteur ou produit vectoriel pourraient apparaitre au détour d’un paragraphe.

L’embedding

Comme je l’ai laissé entendre, l’embedding, c’est un peu de la triche, mais de la triche élégante. Faute de pouvoir réentrainer GPT-3 sur de nouvelles données, il est possible de tirer profit de sa capacité d’analyse textuelle pour extraire l’information pertinente d’un contenu existant. Dans ce cas, GPT utilise assez rigoureusement l’information fournie. L’idéal serait de balancer TOUT le code de sécurité routière avec la question. Sauf que voilà: même le plus performant des modèles, Davinci, peut juste ingurgiter 4000 tokens (soit 3000 mots environ). Notre de code de sécurité routière est trop volumineux pour rentrer là-dedans, de beaucoup.

Alors que faire? Une solution proposée par OpenAI consiste à segmenter l’ensemble de l’information en bouts digestes, par exemple par article du Code, et ne fournir que les bouts pertinents pour répondre à la question. Le défi: Comment décider quels sont les bouts pertinents? Là encore, OpenAI nous donne un coup de main: Embedding API et quelques exemples.

Le principe: OpenAI utilise la capacité de compréhension de GPT-3 pour faire un rapprochement sémantique de mots ou groupes de mots. Les mots ou groupes de mots sont représentés par un point dans un espace à N dimension. Si deux points sont proches dans cet espace, ils concernent grosso modo la même chose. On est habitué à mettre des points sur des espaces à 2 ou 3 dimensions. GPT gère des espaces significativement plus compliqués: quand on lui soumet un mot ou un groupe de mots, l’API retourne un vecteur à plus de 1500 dimensions. La proximité s’obtient en calculant la similarité cosinus de deux vecteur, mais comme l’API OpenAI produit des vecteurs normalisés, un simple produit vectoriel permet d’obtenir la distance entre deux points.

Pour faire marcher tout cela, il faut procéder en deux étapes: la préparation et l’exécution.

Pour la phase de préparation, on découpe le Code de sécurité routière par article et on envoie chaque article à l’API qui va nous retourner un vecteur que l’on peut stocker dans un fichier JSON combinant chaque article et son vecteur. Schématiquement, ça donne ceci:

Schéma de la phase préparatoire de l'embedding

Ensuite, quand on reçoit une question, on envoie également la question à l’API Embedding, qui nous renvoie un joli vecteur. Ensuite, on fait un produit vectoriel entre le vecteur question et tous les vecteurs articles et on classe le tout par proximité. Histoire d’être digeste, je sélectionne les articles les plus proches de sorte que la longueur des articles fournis en contexte ne dépasse pas 500 tokens. Et enfin on peut envoyer la question avec le contexte:

Schéma de la phase d'exécution de l'embedding

Bien franchement, je n’y croyais pas trop trop en me lançant dedans, mais la capacité de l’API Embedding à faire des rapprochements se traduit clairement par les bons chiffres de cette méthode comparativement aux autres. Possiblement qu’un texte de loi, facile à segmenter en article, est un cas d’utilisation particulièrement adapté, mais c’est tout de même significatif.

Je n’ai pas trouvé d’information claire sur le fonctionnement de Bing en mode ChatGPT (ou de BARD AI de Google), mais je suppose que pour être capable de répondre à des questions d’actualité (donc du contenu sur lequel le modèle n’a pas pu être entrainé), une approche similaire est utilisée.

Toute cette gymnastique ne peut évidemment pas se faire à la main. Chaque étape a été faite avec des petits scripts en Python, y compris la dernière étape qui interroge GPT-3 en lui envoyant le contexte. Comme je ne code pas souvent, j’ai demandé l’aide de ChatGPT pour faire mes scripts. Ce fut utile, mais pas délirant non plus.

Script d'embedding en action

Le fine-tuning

L’idée du fine-tuning est de fournir au modèle une série de prompt (des questions) et de completion (des réponses) pour le guider dans ses réponses. Comme on le comprend assez clairement au regard des résultats, le fine-tuning n’est pas un moyen pour apprendre de nouveaux faits à GPT-3. S’il était capable d’apprendre par cœur des nouveaux faits via le fine-tuning, les résultats auraient été significativement meilleurs pour cette approche.

Le fine-tuning sert plus à orienter le modèle dans la manière dont il construit ses réponses. Je n’ai pas lu d’explication détaillée sur le sujet, mais considérant comment fonctionne GPT, on peut considérer que ça influence la pondération des enchainements de caractères les plus probables en ajustant les poids des connexions neuronales du modèle. Évidemment, plus on fournit d’exemples, plus on est capable d’infléchir la génération de texte. Mais encore une fois GPT, ne va pas stocker dans une case mémoire une réponse à une question spécifique.

Là aussi, on procède en deux étapes. Étape 1, la préparation. Préparation un peu plus laborieuse que pour l’embedding puisqu’il faut produire des exemples de questions et réponses. Je visais 200, à savoir le chiffre recommandé par OpenAI. Comme je suis feignant, j’ai demandé à ChatGPT de faire le travail. Pour chacun des 70 articles traitant de vélo, je lui demandais 3 questions et réponses en spécifiant une structure de réponses assez répétitive: En vertu de l’article NNN, il est interdit de blablabla.

Ce fut quand même assez pénible et ChatGPT n’a pas toujours été un bon élève. Parfois il ne respectait pas le format, parfois il comprenait mal l’article du code (et il faut bien dire que certains articles sont rédigés de manière somme toute tarabiscotée). Il n’était pas rare que sur les 3 propositions, je n’en conserve que deux, voire une seule et que je doive en retravailler une partie.

L’ensemble des questions-réponses fut formaté comme prescrit par OpenAI. Là, encore la magie d’un appel d’API permettant de créer un nouveau modèle GPT en envoyant les 150 exemples construits et de recevoir l’identifiant unique du modèle créé. Si vous êtes curieux, ici aussi, il existe des recettes prêtes à l’emploi, ou presque.

Schéma de la phase préparatoire du fine-tuning

Afin de rendre le fine-tuning plus efficace, OpenAI recommande d’utiliser des séparateurs de fin autant pour la question que la réponse. Ces séparateurs doivent idéalement avoir très peu de chance de se retrouver dans les exemples fournis ou lors de l’exécution, dans mon cas j’ai utilisé -> pour le prompt et ~~~ pour la completion. Ces séparateurs doivent être fournis pour les exemples et lors de l’exécution. Pour la question, le séparateur permet vraisemblablement à GPT-3 de faire le lien entre les exemples et une question soumise.

Pour le séparateur de fin de completion, qui doit être fourni comme paramètre lors de l’exécution, il sert à indiquer à GPT-3 quand arrêter sa logorrhée. À certaines reprises, j’ai oublié de fournir le séparateur de fin lors de ma requête d’exécution. Dans ces cas-ci, GPT-3 se mettait à débagouler, fournissant du texte incohérent ou répétant sans fin certains caractères, dont le séparateur de fin.

Une fois qu’on a réalisé tout cela, il est possible d’interroger le modèle fine-tuné soit à travers un appel d’API, soit à travers le “Playground”, une interface graphique simple pour interagir avec GTP-3.

Schéma de la phase d'exécution du fine-tuning

Utiliser GPT-3 via Playground permet de comprendre d’autres choses; par exemple cette incapacité à citer correctement le numéro d’articles du Code. C’est déjà connu que les nombres ne sont pas la force de ChatGPT (et donc de GPT-3). Playground permet de faire apparaitre en code couleur la probabilité de chaque chaine de caractère tel que calculé par le modèle et même les alternatives envisagées. Voici un exemple ci-dessous:

Probabilité de chaque token produit

En vert, la probabilité de la chaine est élevée, plus on va vers le rouge et moins la probabilité de la chaine sélectionnée était élevée. Non seulement les nombres sont plus dans le rouge, mais plus on “avance” dans un nombre, moins le résultat est probable. Dans le cas ci-dessus, GPT-3 aurait aussi bien pu invoquer l’article 463, 486, ou encore 439.

Bien qu’un modèle comme GPT ne comprenne pas au sens cognitif ce qu’il écrit, l’approche est basée la notion d’attention qui est capable dans une certaine mesure d’avoir une notion de cohérence. Or, un numéro d’article de loi n’a pas de cohérence sémantique, c’est du par cœur. Et là-dessus GPT n’est pas fort fort.

Bizarrement, on retrouve un phénomène similaire chez Midjourney qui peut être considéré comme la version visuelle de GPT. La kryptonite de MidJourney? Les lettres et les doigts, et plus précisément le nombre de doigts. 6, 9, 12 doigts… qu’est-ce que ça change?

Le langage des signes selon MidJourney. Source: Jeff Foster

Pour finir sur cette expérience: GPT-3 n’est pas gratuit. Lorsqu’on crée un compte, on a droit à un certain nombre de tokens gratuits en lecture et écriture, correspondant à 18$. L’ensemble de mes expérimentations à couter l’équivalent de 7,52$. Ce n’est pas beaucoup, mais il faut bien se rendre compte que si on souhaite faire un chatbot ou une solution quelconque nécessitant pas mal de contexte (e.g d’embedding) ou pour laquelle on est capable de fournir beaucoup d’exemples de fine-tuning, le coût peut monter assez rapidement.

Conclusion pas finale

J’ai l’intention de faire un billet spécifiquement sur l’impact de cette technologie. Je veux ici souligner quelques éléments qui ressortent de cette tentative d’apprendre le code de sécurité routière à GPT-3.

Pas mal de monde le savait déjà et avait écrit sur le sujet, je l’ai confirmé par curiosité intellectuelle: GPT-3 ne peut pas apprendre de nouvelles choses au-delà de son entrainement. Plus important, considérant son mode de fonctionnement, le mieux que l’on peut faire est soit de lui fournir un contexte très précis, soit essayer d’influencer ses réponses en lui fournissant des exemples. Dans un cas comme dans l’autre, on atteint une limite.

Si je reviens à l’idée de l’utiliser pour comprendre la réglementation en urbanisme de Montréal, je ne suis pas très confiant en l’état actuel des choses. Ce n’est pas non plus une raison pour mettre de côté cette technologie. L’approche d’embedding, bien loin d’être parfaite, offre tout de même des résultats intéressants dans un contexte où GPT-3 est qualitativement loin de ChatGPT. Un ChatGPT doté des mêmes fonctions que GPT-3 (API d’embedding notamment) pourrait être assez impressionnant, et ce n’est pas nécessairement loin dans le future. Par ailleurs, il faut bien avoir conscience que la technologie est encore jeune et que mon expérimentation s’est faite en quelques heures de temps personnel. On est loin d’une démarche professionnelle…

D’autant que ChatGPT a un autre as dans sa manche: il est capable de soutenir une conversation assez longue et il possède une mémoire de dialogue comme il me l’a lui-même expliqué. Qu’est-ce que cela change? Lorsqu’on fait de l’embedding avec GPT-3, on atteint rapidement la limite de contexte qu’il est possible de lui fournir. Or la mémoire de dialogue de ChatGPT permettrait, en théorie, de lui envoyer tout le code de sécurité routière comme conversation et puis de le questionner à volonté et à tout moment sur ce contenu. Là encore ChatGPT m’a confirmé que cela serait théoriquement possible (dois-je le croire?)

Il y aurait encore beaucoup à dire sur ce que j’ai appris en jouant ainsi avec GPT-3, toutefois ce texte est déjà assez long. Ce n’est là qu’un début, cette technologie va continuer d’évoluer de manière surprenante. Un prochain billet sera consacré à l’analyse de ChatGPT selon la lentille des principes d’innovation.

L'innovation va-t-elle nous sauver?

Mon, 12 Dec 2022 00:00:00 +0000

Geneviève, Alejandro et Simon ont lancé une réflexion intéressante à laquelle je vais me permettre de contribuer, comme à l’âge d’or des blogues.

« L’innovation peut-elle résoudre les grands défis auxquels nous sommes confrontés aujourd’hui ? » demandent-ils -ce que je simplifie volontairement en « L’innovation va-t-elle nous sauver ? »

Comme ces 3 trois auteurs, je n’ai pas la prétention d’être un expert. Je pratique l’innovation, plus précisément les processus d’innovation appliqués à des questions d’intérêt commun et d’action collective. Ces processus sont issus d’une perspective spécifique, occidentale et progressiste, visant à résoudre des problèmes ou des défis. Cette perspective vient avec son lot d’hypothèses, de schémas mentaux et de valeurs qui nécessitent eux-mêmes d’être explorés, questionnés, pour comprendre où peut nous mener cette innovation qui s’élève de plus en plus comme valeur cardinale de nos organisations et institutions.

Une typologie grossière de l’innovation

Pas de grande définition académique à vous proposer, toutefois le terme d’innovation est trop galvaudé pour ne pas être précisé un peu. Je vous propose donc une typologie de mon cru, très imparfaite, mais qui va servir mon propos: des innovations de choses, que je vais nommer innovations de fonction pour avoir l’air plus professionnel, et des innovations de relation.

L’innovation de fonction est celle à laquelle on pense quand on parle d’innovation; correspondant à la définition type du manuel d’Oslo ou des variantes proches. Ces innovations vont prendre la forme de produits, de services ou de processus se traduisant généralement par des indicateurs objectivement éprouvables et différentiables de l’existant: des quantités d’intrants et d’extrants, une performance, un coût par unité produite ou utilisée, etc. C’est le saint Graal des organisations, c’est là où s’investit le gros de l’argent en innovation ainsi qu’en recherche et développement.

Le second type d’innovation, l’innovation de relation, est nettement plus difficile à objectiver: de nouveaux modes de relations entre les gens, des modes d’organisation (formels ou non), des institutions sociales voire de nouveaux paradigmes ou des changements de valeurs résultant d’un réagencement des relations et des pouvoirs. Selon moi, il faut accepter de voir cela de manière très large: les relations entre les gens, entre les gens et les organisations, entre les gens/organisations et l’environnement. On peut même envisager de sortir du domaine de l’humain. La coévolution des espèces démontre des innovations de relation: ainsi les bisons ont développé le comportement de non-fuite face aux loups, alors que face aux humains, capables d’attaquer à distance grâce à leurs armes, ils savent qu’ils doivent fuir. L’innovation de relation peut donc être vue selon deux angles: le changement intentionnel dans une relation ou un mode organisationnel ou comme un changement subséquent à un changement exogène.

Sans faire une thèse sur le sujet, le point que je veux amener est que ces deux types d’innovation, bien que généralement séparés, interagissent. Et pour être plus précis, elles ne peuvent pas s’ignorer et ont besoin l’une de l’autre. Bien que je n’ai jamais vu qui que ce soit proposer cette typologie précise, les principes sont sous-jacents dans les analyses de nombreuses personnes qui se sont questionnées sur le rapport entre de nouvelles techniques et les sociétés qui les conçoivent/reçoivent: Ivan Illich, Bernard Stiegler, Bruno Latour et surement de nombreux autres que je n’ai pas lus.

Nous sauver?

Par “nous sauver”, j’entends: avoir un effet positif dans un contexte qui paraît perdu ou très difficile. Pour avoir un effet positif, une innovation (de fonction) a besoin de nouvelles relations ou plus précisément d’un cadre relationnel adapté. Elle a besoin, par exemple, que les humains qui l’utilisent en fassent un usage respectant certains principes qui ne sont pas destructeurs.

Un exemple par exemple: Internet était destiné à être un vecteur d’émancipation, un nouveau modèle d’une société libérée faite d’ouverture et de collaboration et plein de belles valeurs du genre. Aujourd’hui c’est un amalgame de cages dorées et de musée des horreurs. Le fait que l’infrastructure technologique soit largement ouverte et basée sur du logiciel libre, là aussi plein de beaux principes, n’a pas magiquement contaminé l’espace relationnel. Il n’y a pas eu d’innovation de relation intentionnelle. Malgré quelques tentatives, aucune institution n’a permis de faire ressortir des valeurs et des modèles mentaux à la hauteur des attentes se traduisant par des usages qui sont tout sauf positifs. Quelques îlots de collaboration, d’ouverture et de partage demeurent, mais largement éclipsés par une gangrène rampante. Jusqu’à preuve du contraire le positif est incapable de faire le poids face aux comportements prédateurs et destructeurs. Ce n’est pas tant lié à une propriété intrinsèque de la technologie qu’est Internet, c’est le reflet du cadre (ou de l’absence de cadre) dans lequel cette technologie s’est répandue.

Une analogie douteuse: le jardinage

En jardinier assidu que je suis, le lecteur me permettra d’user de la métaphore: l’innovation, c’est comme un jardin potager. Comment faire de notre jardin un espace qui puisse nous remplir l’estomac, plaire à notre palais autant qu’à nos yeux et à notre esprit tout en contribuant à la richesse de la vie? L’innovation de fonction ce sont les semences issues d’un travail de sélection selon des critères ciblés. L’innovation des relations, c’est tout le travail qui va autour. Qui seront les bons et les mauvais voisins? Est-ce que chacun aura sa place au soleil? Est-ce que le sol sera bon? Quelle rotation des sols? Comment attirer les pollinisateurs? Ce sont là des questions de relations, relations entre les plantes et avec leur environnement. Le jardinier doit trouver un équilibre entre mettre les bonnes conditions, créer les bonnes relations, mais aussi attendre de voir comment le tout va se développer, car les surprises ne manquent jamais.

J’aurais beau avoir les meilleures semences, sans le travail qui va autour et un regard aussi attentif que constant, les résultats seront au mieux médiocres, au pire cela va se traduire par le développement d’espèces invasives et incontrôlables.

Une fuite en avant

Le contexte de crises multiples que nous vivons se traduit par des efforts massifs et croissants dans l’innovation de fonction. En ce moment, chaque jour amène son lot d’annonces dans ce sens. Plus de deux siècles de révolutions industrielles nous ont rendus experts à développer des choses toujours plus performantes. Nos institutions sont championnes pour appuyer ce type d’innovation: investissements, amortissements, propriété intellectuelle, retour sur l’investissement, etc.

La vitesse de développement, les méthodes de mise en marché sont rendues tellement efficaces et performantes qu’à peine née, une technologie est intégrée à un “MVP” ouvertement accessible pour tests quasi publics, qu’il s’agisse de réseaux neuronaux artistes ou d’ordinateurs quantiques. Plus que cela: même pas encore nées, certaines technologies forcent la trajectoire de l’existant. Ainsi les villes ont pour injonction de s’adapter aux voitures autonomes à venir, aux taxis volants et héliports, aux hyperloops et toute une panoplie d’autres innovations des géniaux ingénieurs et urbains urbanistes qui ne sont encore qu’à l’étape de rêves et de vies utopiques. Sauf que l’adaptation, c’est-à-dire la mise en relation entre une nouvelle chose et son environnement et les changements que cela amène, ne peut que se faire in situ et dans le temps long. L’adoption de la voiture individuelle peut se faire très rapidement, mais les vagues de changements, réverbérations du coup initial, n’apparaissent que progressivement: changement des habitudes de mobilité, puis des lieux d’habitations amenant des changements dans l’offre commerciale pour ne nommer que cela, tout ceci se fait sur des décennies.

Le point que je veux amener est qu’on ne peut pas lâcher dans la nature des innovations (de fonction) en se disant qu’elles vont a priori avoir un effet positif parce que, par exemple, elles réduisent la quantité de gaz à effet de serre dans l’atmosphère. Sans une compréhension des effets de réverbération, c’est de la pensée magique. Face à une nouvelle semence, au produit d’une hybridation, je ne peux pas présumer que je vais avoir un plant grimpant, buissonnant ou rampant. Ni quelles seront ses relations avec ses voisins -parlez-en à mes plants de basilic cette année, ensevelis par des haricots grimpants que je pensais être nains. Le travail de comprendre les relations entre une nouvelle chose et ce qui l’entoure, lui donner l’espace -mais pas trop, lui fournir le bon terreau, les bons voisins, tout cela s’apprend, mais prend du temps.

En revanche, même sans nouvelle semence, je peux tester de nouvelles relations. Si l’on s’en tient aux arts potagers, les fameuses 3 sœurs de l’agriculture Haudenosaunee / Iroquoienne sont un exemple frappant. Dans un contexte social, l’introduction de nouveaux modes d’organisation est un facteur majeur dans l’évolution des sociétés humaines. Toutefois, c’est encore moins linéaire que de développer une nouvelle technologie. Souvent cela implique de changer des modèles mentaux, des valeurs collectives. C’est un travail de longue haleine. La révolution conservatrice des années 80 qui a fait des valeurs néolibérales, le schéma de pensée dominant en Occident a démarré dans les années 50-60 et atteint seulement maintenant son plein impact. Heureusement, il n’y pas eu de que mauvaises innovations de relation: le mouvement des droits civiques, le féminisme et la reconnaissance de l’égalité des femmes sont aussi des exemples où l’évolution de schémas mentaux et des relations entre les personnes ont fait (re)naître des comportements entre personnes désormais considérées comme égales.

À ce stade-ci, certains lecteurs se grattent possiblement le crâne en se demandant s’il n’est pas exagéré de considérer le néolibéralisme ou le mouvement civique comme des formes d’innovation. C’est possiblement un point de vue tiré par les cheveux, un excès de tout vouloir voir à travers la lentille de l’innovation. Le point que je veux amener ici, peu importe la lentille, c’est que de nouvelles choses ne peuvent pas grand-chose sans de nouveaux comportements.

Je n’ai pas vraiment de crainte que nous allons continuer à produire des innovations, des choses, qui auront une contribution majeure face aux défis que nous vivons. Toutefois, le travail sera toujours à refaire si ces choses et leur performance demeurent notre seul focus. Pire, ce ne sera qu’une fuite en avant, chaque introduction créant des effets secondaires imprévus. L’innovation de relation, qui prend aussi le nom d’innovation sociale, d’innovation systémique ou simplement d’écologie, est absolument nécessaire et demeure beaucoup moins connue et c’est plus grave, largement sous-investie. Il est donc nécessaire que la notion d’innovation dépasse certains paradigmes comme de chercher des solutions rapides à des problèmes selon une approche réductionniste/positiviste.

La bonne nouvelle, c’est qu’à l’image du mouvement des droits civiques, par exemple, on voit poindre de nouvelles perspectives: des auteurs comme Descola et d’autres ont débuté le travail de décentrage du modèle que lui-même nomme naturaliste pour penser d’autres modèles d’être au monde. Cela se fait en parallèle avec un intérêt et un rapprochement avec les modes de pensées traditionnels, parmi lesquels on retrouve les Premiers peuples nord-américains, qui à travers les siècles ont développé une attention aux relations qui est venue à nous manquer.

Est-ce que l’innovation va nous sauver? L’innovation de fonction seule peut surement repousser un précipice, éloigner un mal (les changements climatiques) au risque toutefois de n’en rendre que plus saillant un autre (crise de la démocratie). Si on accepte une innovation au sens plus large, qui nous amène dans la dimension du relationnel et de l’être au monde, il est possible d’entrevoir un effet en profondeur, de sortir de l’hubris du créateur-contrôleur et de retrouver des savoirs oubliés, de favoriser les équilibres et la régénération plutôt que des solutions. Certains diront qu’à ce stade-ci, le terme innovation n’est plus vraiment approprié; si tel est le cas, c’est possible que la notion d’innovation soit à classer dans la panoplie de l’hubris humain et à reléguer aux oubliettes.

20 ans au Québec et quelques réflexions

Wed, 19 Oct 2022 00:00:00 +0000

Il y a 20 ans jour pour jour, je foulais le sol de l’aérogare Montréal-Mirabel (désormais détruit), un visa de résident permanent canadien dans mon passeport. Seul, j’arrivais au bureau de l’immigration avec l’idée saugrenue de changer de pays, de changer de vie. Dans mes poches: l’équivalent de 10 000€, économisés dans mes 13 mois de vie professionnelle. Quelques jours plus tard, mes quelques possessions, tenant dans deux grands cartons, allaient me rejoindre. Au moins, j’avais le luxe d’être attendu par celle qui partage ma vie depuis tout ce temps.

Malgré ce luxe, lorsque je repense à ce moi mal-assuré version 2002, ma seule envie serait de le prendre dans mes bras et de l’encourager. Car j’allais tomber de haut, bien des difficultés m’attendaient, et comme dans toute bonne histoire, j’allais faire quelques apprentissages importants.

Avant d’aller plus loin dans mon témoignage et les réflexions qui en découlent, je veux juste reconnaître que ce n’est là qu’un cheminement parmi d’autres; un cheminement qui malgré ses difficultés avait beaucoup pour lui. Je suis Blanc, venant d’un pays reconnu, je n’ai pas un nom susceptible de me stigmatiser outre mesure, je n’ai pas un accent qui fait plisser des yeux mon interlocuteur. Être immigrant dans ces conditions offre dans bien des cas de meilleures conditions d’évolution que d’être né ici, descendant des Premiers peuples, dépossédé de son territoire et de sa culture, ou de certaines communautés stigmatisées. Hormis l’a priori, certes irritant, mais tout de même assez bénin, du Maudit Français^mc, mon lieu de naissance ne suscitait pas de réel enjeu.

Les discussions entourant l’immigration au Québec omettent souvent la posture de ses représentants à l’étranger et ce que ça implique pour les gens qui immigrent. En 2000, lorsque j’ai entamé mon processus d’immigration, la Délégation générale du Québec opérait selon toute vraisemblance sur un script ayant inspiré le film La grande séduction. Assister aux réunions d’information donnait l’impression de se faire promettre le jardin d’Éden sur Terre (version froide). Une population accueillante, une économie dynamique, un coût de la vie bas; dans la France de la crise perpétuelle et du disque rayé du c’était mieux avant, c’était un bol d’air frais. Malgré ma Québécoise de blonde qui soulignait que la lentille était quelque peu déformante, la décision de vivre ensemble au Québec plutôt que dans la grisaille collective de la France (où nous vivions à ce moment) tenait de l’évidence. Je crois savoir que quelques années plus tard, les sessions d’information furent un peu moins prosélytiques, notamment à cause de plaintes sur l’abus de lunettes roses. Toutefois, j’ai du mal à croire qu’avec la pénurie actuelle de main-d’œuvre, aujourd’hui comme hier, le Québec ne se présente pas comme un territoire qui, de manière explicite ou implicite, a besoin d’immigrants (qualifiés).

Et c’est ici le premier point que je veux souligner: la posture du Québec à l’étranger transpire par tous les pores qu’il y a un besoin de main-d’œuvre. En sortant d’une session d’information dithyrambique, le potentiel immigrant que je suis n’a pas l’impression que le Québec lui ferait une fleur en l’acceptant, mais plus que je lui rends service en m’y installant. Évidemment, dans les faits c’est un échange de bons procédés: pour bien des immigrants, le Québec offre sécurité et opportunités tandis que les immigrants contribuent avec leur capacité de travail et leur formation préalable.

Retour en octobre 2002. La situation économique n’est plus la même que deux ans auparavant: l’explosion de la bulle technologique a non seulement plombé le domaine d’activité dans lequel je travaillais, mais aussi l’économie dans son ensemble. Au total, ça me prendra 3 ans pour trouver un emploi m’offrant un minimum de sécurité financière, après être notamment passé par une dépression et beaucoup de remises en cause. Je ne veux pas trop tirer de conclusion sur l’expérience migratoire dans un contexte économique qui était clairement difficile. Je ne cherche pas à faire verser des larmes: 3 ans sans emploi, je ne suis pas le premier à vivre cela. Dans un contexte où j’avais quitté un emploi stable et bien rémunéré pour une nouvelle terre promise, certains jours la pilule passait mal. L’absence d’ami ou simplement de famille à qui se confier pesait lourd.

D’un point de vue plus général, je veux aussi souligner le choc entre le discours de bienvenue et d’ouverture d’un côté, et de l’autre côté le manque d’intérêt des employeurs et surtout le manque de compréhension du contexte d’un nouvel arrivant. Certes, ce n’étaient pas les zélateurs vantant le Québec en France qui officiaient dans les services RH des entreprises. Toutefois pour une nation qui à l’époque recevait 25 000 immigrants économiques par an, avec une pointe à 40 000 (soit presque 1% de sa population active chaque année), la mécompréhension d’ensemble de la population d’accueil m’a toujours paru frappante.

Attention! Je ne veux pas donner l’impression de taper sur les Québécois qui seraient de mauvais hôtes, bien au contraire. Je veux pointer à quel point les discussions en matière d’immigration, hier comme aujourd’hui, se limitent à des chiffres: 10 000 de plus? 20 000 de moins? On se croirait un peu aux souks de la médina de Marrakech. Les discussions font une abstraction quasi totale des conséquences de vie pour les immigrants. Des dizaines de milliers de personnes qui laissent tout derrière elles sur une promesse. Cela fait également abstraction de ce que cela veut dire pour le Québec, comme société d’accueil a priori demandeuse de cette immigration. Je ne peux pas en vouloir aux Québécois, la majorité n’a pas conscience de ce qui se passe. Se projeter dans les souliers d’une personne qui immigre est très difficile… Je pense que vu de l’extérieur, c’est l’impression que les immigrants arrivent en terre promise (un soulagement, donc) ou, tout au plus, que c’est comme déménager de Québec à Montréal. Moi-même ce n’est qu’a posteriori que je me rends compte de ce que j’ai traversé, ce que tout ceci provoquait en moi.

Et c’est pour cela que j’ai envie de prendre dans mes bras le moi de 2002: je ne savais pas et je n’allais pas comprendre pendant longtemps. Malgré tous les efforts de préparation, ça reste un immense pas dans le vide, sans aucune idée de ce que ça veut dire réellement, de ce qu’on va perdre et gagner, de tout ce qu’on tient pour acquis et qui finalement ne l’est pas tant que ça; et que tout cela se passe sans réel backup plan.

On me demande parfois si je me sens plus Québécois ou Français. Bienvenue dans mon puits sans fond.

Après 20 ans, je peux le dire: il n’y a pas de réponse à cette question et il n’y en aura surement jamais. Je suis Français et Québécois. Et aussi Canadien, Montréalais, immigrant, et petit-fils d’immigrants roumains (en France) et bien d’autres choses. Comme le souligne Amin Maalouf dans Identités meurtrières, il est bien difficile de se réduire à une unique identité.

Le fait d’avoir immigré crée, à de multiples occasions, une tension intérieure indicible. Avant d’être Québécois ou Français, je pense que je serais toujours avant tout un immigrant; immigrant au sens d’une personne qui a laissé derrière lui la terre qui l’a vu naître, les souvenirs qui s’y rattachent, une large partie de sa famille. J’aurais surement, jusqu’à la fin de mes jours, un rapport particulier au Québec, une terre et un peuple qui m’ont accueilli, mais où je n’ai pas grandi, où de nombreux référents me manquent. Ce n’est pas que je ne connais pas ces référents, c’est juste que je ne les ai pas vécus dans ma chair.

Même après 20 ans, mes rêves se passent souvent dans un espace qui a tout l’air d’être en France et où se mêlent joyeusement mes amis d’aujourd’hui et mes amis d’enfance. Je ne suis pas nostalgique, j’ai toujours considéré que je n’étais pas particulièrement attaché à la France. Je ne suis pas attaché à la France comme État-nation, construit social de gens anonymes regroupés sous un même drapeau et un même hymne national. Mais sont attachées à moi toutes ces expériences que j’ai vécues à Paris, en Bretagne, dans le Languedoc ou ailleurs.

Ma vie est à l’image de ces rêves: ne me demandez pas de démêler qu’est-ce qui vient d’où. Demandez-moi encore moins de choisir.

On ne peut pas me demander de trancher mon identité selon ce que j’appelle des cadres identitaires, définis par les autres. Je suis un, et indivisible, j’ai mon identité unique. Selon les cadres identitaires, j’ai plusieurs identités, inextricables les unes des autres.

Le fait d’être immigrant crée une tension particulière, évidente. Toutefois cette fusion des identités est vraie chez tout le monde. D’abord parce que les cadres d’identité sont eux-mêmes multidimensionnels: être Français d’un quartier cossu de Paris ou d’un territoire agricole de Bretagne n’est pas la même chose -sous la même identité abstraite de Français se recoupent plusieurs réalités qui ont surement autant de similarités que de différences. Ensuite parce que les personnes restant dans le même “espace identitaire” tout au long de leur vie sont de plus en plus rares: les déménagements au sein d’un même pays, les relations amoureuses et amicales, les voyages transformateurs, tous nourrissent des identités multiples, hybridées.

Dans son livre Tresser les herbes sacrées, Robin Wall Kimmerer, une botaniste issue de la nation Potawatomi de la grande famille des Anichinabés, offre une interprétation éclairante d’un des mythes fondateurs autochtones. Selon elle, le mythe de La Femme tombée du ciel souligne à quel point les Premiers peuples eux-mêmes se voient comme des immigrants. La Femme tombée du ciel, premier être humain sur l’Île de la Tortue (en fait cocréatrice de l’Île de la Tortue), fut accueillie par ceux qui la précédaient, les animaux, elle était l’immigrante originelle. Elle ne s’est pas approprié la terre sur laquelle elle a atterri, elle y a contribué; elle et ses descendants sont devenus les premiers autochtones, étymologiquement, ceux qui sont issus du lieu.

Cette interprétation m’a profondément interpelé sur la question de l’identité, ce qui nous définit. Les Premiers peuples, les Québécois (au sens de descendants des Occidentaux, les colonisateurs), les immigrants -dont certains, comme moi, sont aussi descendants de colonisateurs.

Je suis encore loin d’avoir fini de cheminer dans ma réflexion sur tous ces sujets. Après 20 ans au Québec je commence à peine à percevoir ce que j’ai vécu et ce que cela veut dire sur qui je suis. J’en arrive toutefois à la conclusion, partielle, qu’il est difficile de parler d’une identité unique (au sens des cadres identitaires).

Attention! Encore une fois. Je vais clarifier: ceci ne veut pas dire que ces cadres identitaires, que l’on pourrait aussi nommer culture, ne sont pas nécessaires. Ils sont nécessaires pour définir une base commune, un sentiment d’appartenance et de réciprocité au sein d’un peuple. J’essaie d’ajouter, j’espère pas trop maladroitement, que chacun doit travailler à ce que ces cadres ne soient pas exclusifs ou excluants.

Au cours des années et des décennies à venir, nous ne manquerons pas d’événements provoquant des lignes de faille au sein de l’Humanité et des peuples. Parmi ces événements, les migrations massives provoquées par les changements climatiques et rendant d’immenses territoires invivables. Que ce soit au Québec ou en France, nous avons une immense responsabilité collective vis-à-vis des victimes des changements climatiques: la majorité des gaz à effet actuellement dans l’atmosphère sont le fait des pays industrialisés. Ça ne veut pas dire qu’il faut, individuellement, se flageller à l’ortie fraichement coupée pour expier nos voyages en avion, mais décider comment nous devons agir dans une logique de justice climatique. Les enjeux migratoires ne font que commencer, voulons-nous en faire une ligne de faille encore plus clivante?

Alors, pourquoi partager mon expérience personnelle dans ce contexte? D’abord parce que j’aime bien les dates symboliques, les moments qui me parlent; et passer le cap des 20 ans au Québec entre clairement dans cette catégorie. Bien que pour mes 10 ans, j’étais déjà bien en selle comme néo-québécois, je n’avais pas le recul pour méditer sur mon expérience.

Ensuite j’essaie, à ma mesure, d’amener une perspective personnelle sur cette question souvent vécue de loin qu’est l’immigration, une question généralement perçue sous l’angle de l’altérité, mais peu sous l’angle des bouleversements personnels qui viennent avec, même quand c’est voulu. Je ne sais pas si l’immigration est la solution à la pénurie de main-d’œuvre. Je ne sais pas s’il existe une chose comme une capacité d’absorption de l’immigration au sein d’une population. Évidemment, je sais encore moins quel serait le bon nombre d’immigrants à accueillir. Ce que je sais toutefois, c’est qu’accepter et même demander de l’immigration est une responsabilité, une responsabilité relativement peu discutée. À cela s’ajoute la responsabilité climatique, également peu discutée jusqu’à présent.

Comme immigrant, je vis aussi dans ma chair cette tension des identités qui, là aussi, est souvent discutée de manière abstraite et intellectualisée (on adhère ou pas à certaines valeurs) alors que c’est quelque chose de beaucoup plus profond et affectif. L’idée n’est pas de sombrer dans un relativisme total, mais de reconnaître la réalité humaine sous-jacente au déracinement et à la découverte d’un nouveau territoire comme lieu de vie.

Enfin, à l’image du mythe de la femme tombée du ciel, c’est reconnaître pour moi, pour mes prochaines années, que devenir partie du territoire où je vis est un effort constant. Un effort de contribution, de découverte, de curiosité et réciprocité. Je ne pense pas avoir été mauvais élève à ce titre, j’aurais aussi pu en faire plus.

Merci à tous ceux qui ont croisé ma route et m’ont aidé ou soutenu d’une quelconque façon, ne serait-ce que d’un sourire. J’espère être encore là pour faire mon bilan de 40 ans!

Qui paie la Ville? Densité, fiscalité & équité

Mon, 30 May 2022 20:00:00 +0000

D’où vient l’argent des villes? Qui paie quoi? Combien? Pourquoi les villes demandent des changements dans ce qui est leur principale source de revenu? Des questions a priori ennuyeuses et pourtant fondamentales pour la qualité de vie d’une majorité de Québécois (et de l’humanité) puisque désormais l’urbanité est le statut du plus grand nombre; à nous de décider si c’est pour le meilleur ou pour le pire.

Version courte et manquant sérieusement de subtilité

(à sauter si vous comptez lire la version longue)

À partir des données de taxes foncières récemment publiées par la Ville de Montréal, il devient possible de calculer la contribution financière des différents quartiers de Montréal et d’analyser l’impact de la densité et de facteurs socio-économiques. Cette démarche se rapproche d’une analyse réalisée par la firme Urban3 qui compare les revenus et les dépenses municipales dans différents secteurs de la ville de Lafayette et Louisiane, et concluant que les zones centrales et souvent plus modestes subventionnent les zones périphériques et aisées.

Dans le cas de Montréal, nous manquons d’information sur les dépenses pour faire l’analyse complète; toutefois il est possible de réaliser une analyse des revenus par unité d’infrastructure (la rue). Les résultats obtenus pour Montréal s’approchent de ceux de Lafayette, à savoir que les quartiers centraux produisent significativement plus de revenus que les quartiers périphériques.

Pour ce qui est de la contribution en fonction des revenus de la population, on arrive également à la conclusion que dans l’ensemble, les ménages à revenus faibles contribuent collectivement plus que les ménages à revenus élevés, sachant que cette réalité varie selon la distance par rapport au centre de Montréal. Plus précisément, les quartiers riches et centraux ont une contribution financière significative alors que les quartiers riches et périphériques sont parmi ceux contribunant le moins. Toutefois, rien n’est aussi tranché, nuances et réserves sont détaillées dans la version complète…

Cette analyse souligne la nécessité de réfléchir à l’aménagement urbain aussi en fonction des revenus municipaux et des paramètres influançant la taxe foncière selon le type d’environnement urbain que l’on souhaite créer. Ainsi des développements peu denses présagent de difficultés à maintenir les infrastructures dans le temps alors que les développement plus denses sont plus viables financièrement. En même temps, la question fiscale ne peut être le seul paramètre à prendre en compte tant il serait facile de construire une forêt de tours d’habitation générant beaucoup de revenus mais nuisant à la qualité de vie d’ensemble.

Pour pousser la réflexion plus loin, il serait évidemment utile d’avoir les données permettant de modéliser plus finement les dépenses et surtout d’avoir les données pour l’ensemble du Grand Montréal. Il n’en reste pas moins que cette première analyse souligne que l’imposition que les villes doivent légalement appliquer tend à nous éloigner de milieux de vie soutenables et justes.

Version complète (et plus nuancée)

En 2017, un article de StrongTowns, brutalement titré The reason your city has no money, m’a frappé comme il a frappé l’esprit de plusieurs: une analyse de la ville de Lafayette en Louisiane, réalisée par la firme Urban3, soulignait combien les quartiers centraux, denses et souvent relativement modestes génèrent plus de revenus fonciers que de dépenses tandis que les quartiers périphériques et plus aisés étaient des gouffres d’argent public. Leur conclusion était sans appel: en poursuivant le modèle dominant de développement urbain depuis l’après-guerre, les villes américaines s’enlisent financièrement.

Depuis cette époque, j’espérais voir une analyse similaire pour Montréal en me demandant quel serait le résultat considérant le contexte de Montréal avec une mixité possiblement supérieure mais aussi des formes urbaines très variées: de très dense au centre à clairsemé dans ses arrondissements le plus éloignés.

En tant que responsable des données ouvertes de la Ville de Montréal, j’ai bien essayé de prioriser la publication des données nécessaires à une telle analyse, mais bon, je ne pouvais pas non plus mettre de l’avant mes intérêts personnels dans la priorisation. Quand j’ai quitté la Ville, les terrains d’unité d’évaluation foncières avaient été publiés mais il manquait encore le montant de taxes. Heureusement, l’équipe des données ouvertes a poursuivi son travail acharné -et je leur lève mon chapeau trois fois. Ceci a permis de sortir les données tant espérées

Cet article présente donc le résultat d’une première analyse spatiale de la contribution au budget de la ville. Le modèle ne peut pas être aussi poussé que celui d’Urban3 fautes d’avoir les données de dépenses assez détaillées. Enfin ceci est le travail d’un amateur de la chose urbaine et je partage ces analyses ici pour ouvrir la discussion sur le sujet. Les conclusions ressemblent à celles de Urban3, avec plusieurs bémols toutefois.

Avant de me lancer dans le contenu, j’ajoute qu’en cours d’analyse, l’équipe d’Anagraph, spécialisée en méthodes d’analyse géospatiale, a bien voulu contribuer en temps et en outils. Cela a permis d’assurer une certaine qualité dans le traitement tout en ajoutant certains outils d’analyse que je vais pointer par moment.

Une vue à 30 000 pieds d’altitude

En l’absence de données de dépenses géolocalisées, j’ai utilisé un proxy pour évaluer les revenus par “unité de dépense d’infrastructure”, à savoir des kilomètres linéaires de rue. Pour le dire plus concrètement: pour l’analyse principale, je vais évaluer le nombre de dollars générés par mètre linéaire de rue dans différents secteurs. Dans une section de discussion des résultats, je vais élaborer un peu plus en détail ce choix mais pour l’expliquer le plus simplement possible, un mètre de rue représente une approximation facile pour les dépenses les plus liées à la forme de la ville, notamment voirie et réseaux d’eaux qui représentent 55% du budget d’investissement de la ville. Ceci va donner des dollars de revenu foncier par mètre linéaire de rue qui seront regroupés par quartiers, en l’occurrence les aires de dissémination de Statistique Canada.

Avant d’entrer dans la présentation des résultats, il est important de préciser que cette analyse n’est pas une critique ou une reconnaissance du mode de vie en fonction d’où vivent les gens, ce n’est pas une critique sociale. C’est une contribution à la réflexion sur les politiques publiques, plus précisément quels sont les incitatifs et les contradictions créés par les politiques en place et l’impôt foncier en particulier.

Quelques statistiques d’ensemble

Les données d’unité d’évaluation foncière permettent de catégoriser chaque unité en fonction de son usage: résidentiel, commercial, industriel, etc. Le gros de la discussion sur les villes se concentre sur le résidentiel; c’est effectivement ce qui a le plus d’impact sur tout un chacun. Toutefois, le résidentiel n’est qu’une partie de l’histoire puisque que seulement la moitié des revenus viennent du résidentiel (1.8G$ pour le résidentiel et le même chiffre pour le non résidentiel). Le non-résidentiel a donc une part non négligeable qui mériterait aussi d’être analysé.

Pour donner une idée du volume, nous avons 499 784 unités foncières, d’une valeur de 226G$ et rapportant 3.6G$ pour 2021. Petite précision ici: on parle bien de la Ville de Montréal, ce qui exclut donc les villes dites liées: Ville Mont-Royal, Westmount, Baie d’Urfé et une douzaine d’autres.

Répartition des revenus fonciers par type d'usage pour la Ville de Montréal

Dans le vif du sujet

J’explique dans la section méthodologie comment j’obtiens les résultats ci-dessous pour ceux que cela intéresse. À partir de là, le plus simple est de sauter directement les résultats avec des représentations graphiques.

Tous revenus fonciers par kilomètre de rue

Pour comprendre carte: autant la couleur que la hauteur des blocs sont fonction des revenus fonciers par mètre de rue linéaire. En d’autres termes, ce qui est haut et blanc-jaune génère beaucoup de revenu par mètre de rue, en l’occurrence plus de 25 000$/m pour les zone les plus élevées, tandis que les zones rouge-ocre sont celles qui en génèrent le moins. Le rouge le plus sombre s’applique à des revenus de moins de 300$/m de rue. Chaque zone correspond à une aire de dissémination de Statistique Canada. Les aires de dissémination sont définies pour représenter à la fois une fourchette de population (entre 300 et 1500) et avoir une certaine cohérences socio-démographique. Le premier critère explique pourquoi certaines aires sont très étendues géographiquement: elles représentent relativement peu de monde, soit du fait que ce sont des zones industrielles, des parcs ou toute autre raison.

La première chose qui saute aux yeux: la contribution sans commune mesure du Centre-Ville dans les revenus municipaux. Cette première visualisation comprend tous les types de revenus fonciers et clairement les tours à bureaux et les commerces sont une source importante de revenus fonciers. On comprendra, à juste titre, les préoccupations de nombreux acteurs concernant la santé du Centre-ville dans un contexte (post-)pandémique. Évidemment, il y a du résidentiel au centre-ville, mais c’est avant tout le commercial qui pèse lourd dans la balance. L’aire de dissémination qui rapporte le plus par mètre de rue comprend plusieurs des principales tours à bureau de Montréal, dont la tour Ville-Marie. En fait le Centre-Ville génère tellement de revenu, qu’il “écrase” tout le reste et ça rend difficilement intelligible le reste des résultats.

On notera aussi la contribution notable des secteurs industriels de Saint-Laurent, le port de Montréal, et le secteur de l’intersection entre le 40 et la 25, des zones assez étendues car industrielles et qui vont “disparaître” quand on va se concentrer sur les revenus résidentiels.

Étant donné qu’une large partie de la discussion publique entoure le résidentiel, il est possible de sortir les revenus de bâtiments non-résidentiels de la représentation.

Donc si on retire le non résidentiel de l’équation, nous obtenons ceci:

Visualisation 3D interactive des revenus fonciers résidentiels par kilomètre linéaire de rue selon les aires dissémination. Pour changer la perspective 3D, appuyez sur la touche *Ctlr* en même temps que vous déplacez la souris. Accès en plein écran

Ici, on peut se permettre de comparer des pommes avec des pommes: les revenus générés par des gens qui ont besoin de se loger. Commençons par quelques constats avant de discuter de la conséquence de ce qu’on voit:

Le Centre-ville demeure un centre de revenu important. Toutefois, ici nous avons un Centre-ville plus étendu qui s’étire aux arrondissements adjacents: Le Plateau—Mont-Royal, Rosemont—La-petite-Patrie, Le Sud-Ouest, Outremont, Cote-des-neiges, ou encore l’Île-des-soeurs.

Les quartiers périphériques rapportent généralement moins de revenu par mètre de rue, à quelques exceptions près. Comme on va le voir après, ces exceptions dans les quartiers périphériques sont parfois des artéfacts de données mais sont souvent liés à des espaces plus denses, par exemple des blocs appartements. Globalement on ne peut qu’être frappé par l’ampleur des différences entre les aires le plus « productives » et celles qui le sont moins, allant de 8000$/m à parfois moins de 100$/m.

Le portrait d’ensemble est tout de même semblable à celui obtenu par Urban3: les quartiers centraux et denses génèrent nettement plus de revenus par unité d’infrastructure urbaine que les quartiers moins denses. Toutefois, cette similitude vient avec un certain nombre de bémols que je couvre plus bas.

Anagraph a développé une méthode permettant de découper le territoire selon des hexagones de taille fixe et d’y projeter des valeurs comme les revenus fonciers. Cette approche permet d’avoir une visualisation plus cohérente, évitant d’avoir des aires de tailles très variées; cela évite aussi certains artefacts de données liés au découpage des aires de dissémination. Toutefois, cela introduit aussi des effets de bords et peut amener à perdre, par exemple, l’uniformité socio-démographique qu’amènent les aires de dissémination. Bref, aucune approche n’est parfaite. La visualisation ci-dessous montre les données de revenus de taxe foncière brutes (sans ratio par kilomètre de rue) pour tous les usages et pour le résidentiel seulement; la même échelle est utilisée dans les deux cas, ce qui permet de constater l’impact du non-résidentiel.

Visualisation 3D interactive des revenus fonciers développée par Anagraph. Maintenir la touche Ctrl en déplaçant la souris pour changer le point de vue. Accès en plein écran

Les revenus fonciers et les revenus familiaux

L’argumentaire de Urban3 repose en partie sur le fait que les quartiers centraux sont plus modestes et pourtant génèrent plus de revenus. Toutefois, Urban3 ne fournit pas vraiment de démonstration en se contentant d’une analyse géospatiale sans coupler avec des données socio-démographiques. Considérant que Montréal présente possiblement une plus grande mixité sociale dans ses quartiers (du moins c’est une hypothèse plausible), on ne peut pas se contenter de dire que les quartiers centraux sont généralement plus modestes, L’avantage d’utiliser les aires de dissémination de Statistique Canada comme découpage, c’est qu’il est possible de conjuguer les données foncières avec des indicateurs socio-démographiques.

L’équipe d’Anagraph a eu la gentillesse de me partager un ensemble de données qu’ils ont monté permettant de mettre les revenus fonciers en rapport avec le revenu médian après impôt des ménages dans chaque aires de dissémination .

Si on fait une régression linéaire, à l’échelle des aires de dissémination entre ces deux variables, on obtient un nuage de point sans tendance visibles. En calculant le facteur de corrélation on obtient -0.17, ce qui est une absence de corrélation (ou si corrélation il y a, c’est très faible). L’absence de corrélation signifie que peu importe le revenu des ménages, chacun paie en moyenne une part à peu près égale. La majorité des politiques publiques essaient d’avoir un effet progressif, c’est-à-dire que les personnes aisées contribuent plus que celles qui le sont moins. Avec cette première régression, il apparaît assez clairement que la taxe foncière n’est pas progressive.

Pour pousser l’investigation un peu plus loin, j’ai essayé de faire des regroupements par fourchettes de salaire médian et ici on obtient un portrait plus intéressant qu’une régression linéaire ne peut effectivement pas capter:

Contribution foncière en fonction du salaire médian des ménages après impôts

Pour comprendre le graphique: chaque point (bleu) correspond aux revenus fonciers moyens des aires de dissémination correspondant à une fourchette de revenus médians de ménage après impôt. Par exemple, les aires de dissémination où les ménages ont un revenu médian entre 75k$ et 80k$ génèrent un revenu foncier moyen de 500$ par mètre de rue.

Les barres verticales jaunes fournissent une indication du nombre d’aires de dissémination pour chaque fourchette de revenus familiaux; par exemple il y a plus de 500 aires de dissémination où le revenu familiale est compris entre 40k$ et 45k$. Les revenus au-dessus de 100k$ sont groupés en une seule catégorie. Comme on peut le voir, dans la moyenne, les tranches de revenus faibles ont une surcontribution et globalement, chaque tranche de revenu contribue moins que celle qui la précède. Il y a seulement dans la tranche au-dessus de 90k$ que la tendance remonte un peu. De manière générale, la tranche à moins de 40k$ contribue 30% plus que la tranche 55k$ - 90k$. Je rappelle qu’on parle d’un ratio de contribution par mètre linéaire de rue, donc individuellement les foyers à revenus élevés plus d’impôts fonciers, mais collectivement ils ont moins d’impact dans le financement des infrastructures municipales (des exemples concrets plus bas vont venir expliquer cela).

Comme on a pu le voir dans les visualisations précédentes, on note une forte disparité géographique entre un centre-ville étendu et les zones plus périphériques. Il est possible d’essayer de représenter celle-ci de manière statistique. De manière visuelle, il m’a semblé que ce centre-ville étendu s’étire de manière concentrique à partir du Mont-Royal à peu près. J’ai donc divisé les aires de dissémination, de manière quelque peu arbitraire, entre celles à moins de 7km du Mont-Royal et celles à plus de 7km, ce qui donne ceci:

Contribution foncière en fonction du salaire médian des ménages après impôts selon la proximité au centre de la ville

Beaucoup à dire sur ce graphique. D’abord, on confirme la contribution des quartiers plus centraux, mais ce n’est pas vraiment une surprise. Ce qui est plus intéressant, c’est la forme des courbes: pour les zones plus centrales, nous avons encore une contribution forte des foyers avec des revenus faibles (moins de 35k$); toutefois nous observons une contribution forte des salaires de plus de 60k$. Il faut prendre les chiffres entre 80k$ et 95k$ avec des pincettes car le nombre d’aires de dissémination considéré est très faible. Toutefois, pour les aires de dissémination où les foyers ont des revenus supérieurs à 60k$, la contribution foncière moyenne est de 1242$/m, alors que pour la tranche 25k$-60k$, c’est moins de 1000$/m

Portrait très différent dans les zones périphériques où la courbe de contribution est constamment à la baisse, avec une régularité très claire. Seuls les revenus de plus 100k$ arrivent, de peu, à renverser cette tendance.

Dans la section discussion, je vais amener certains bémols liés à mes hypothèses mais dans l’ensemble, on peut tirer deux grandes conclusions:

Premièrement, on confirme de manière plus statistique la surcontribution des quartiers centraux;
Deuxièmement, on note, à la grandeur du territoire, une certaine regressivité de la contribution foncière, c’est-à-dire une plus grande contribution des revenus les plus faibles. Toutefois, cette tendance à la regressivité a une variable géographique et se manifeste surtout dans les quartiers périphériques.

En d’autres termes, pour reprendre un peu le vocabulaire de l’article de StrongTown, les infrastructures des quartiers riches et périphériques sont subventionnées par le reste de la population.

Digression sur l’impôt foncier et les finances municipales

Avant d’entrer plus dans la discussion des résultats, il convient de parler de l’impôt foncier. Il est calculé sur base de la valeur du terrain et des bâtiments qui sont dessus. Des calculs complexes sont appliqués; par exemple pour chaque unité d’évaluation il y a en fait entre 5 et 10 taxes et taux qui s’appliquent: taxe de base, taxe de l’ARTM, taxe de l’eau, taxe spéciale, etc. À travers le temps, les édiles montréalais ont fait des tentatives pour moduler la taxation, et la rendre progressive. Par exemple, il y a un taux plus élevé pour les résidences d’une valeur supérieure à 750k$.

Clairement cette taxe n’a pas été faite pour avantager ou désavantager certaines populations, pour être progressive ou régressive, c’est « juste » un mécanisme pour générer des revenus, un mécanisme par ailleurs assez vieux: Jules César avait créé l’Ostiarum, un impôt basé sur le nombre de portes et la France révolutionnaire l’Impôt sur les portes et fenêtres; des proxys intéressants pour évaluer la richesse des propriétaires.

Toutefois, beaucoup d’experts en finance municipale critiquent la dépendance des finances municipales à l’impôt foncier, notamment au Québec, ainsi que ses impacts sur le développement des villes. Tel que mentionné dans une série d’articles de presse récemment, l’impôt foncier crée toutes sortes de problèmes dont un incitatif fort au développement et à l’étalement urbain plutôt qu’au redéveloppement et à la densification. Comme on peut le voir dans la présente analyse, cet impôt ne tient pas compte de la forme urbaine et encore moins de la capacité de payer des résidents. Enfin, il est très peu paramétrable: pour garantir une impartialité (compréhensible), les facteurs pouvant être intégrés dans le calcul de l’impôt foncier sont très limités; par exemple, à ma connaissance, on ne peut pas faire varier le taux d’impôt foncier selon les revenus ou la nature locative d’un bâtiment. Bref, l’impôt foncier est l’ami (qui génère des revenus) que tout le monde aime détester.

Pour avoir une meilleure compréhension des besoins en revenus, il est utile d’avoir une petite perspective sur les dépenses. Et ces dépenses varient sur des échelles de temps très importantes. Des infrastructures comme les réseaux d’eaux (et par extension ce qui va « dessus », les routes) ont des cycles de vie qui s’étendent sur plusieurs décennies, souvent une bonne cinquantaine d’années quand ce n’est pas plus (il arrivait encore récemment de refaire des conduites d’eau centenaires faites en briques). Pour les parties plus centrales de Montréal, on est souvent au deuxième cycle de vie. Par contre, pour plusieurs quartiers, surtout au format banlieue, on n’est pas toujours rendu au terme du premier cycle. Ainsi la prise en compte du renouvellement de certaines des infrastructures les plus coûteuses n’est pas encore évidente pour les zones qui datent, mettons, des années 70 et postérieures. En d’autres termes, il semble souvent facile de développer de nouveaux quartiers qui vont rapporter des revenus rapidement… jusqu’au jour où il faut payer la dette d’infrastructure.

Enfin pour Montréal en particulier, l’allocation des revenus et des dépenses est en partie décorrélée. Plus spécifiquement, si tout le monde paie uniformément ses taxes à « la ville-centre », le budget est lui scindé, selon des paramètres, entre les arrondissements et certaines services centraux. Comme je l’expliquais dans un billet de blogue il y a déjà 8 ans, les paramètres d’allocation des budgets des arrondissements soulèvent déjà quelques questions, notamment dans sa répartition entre les quartiers centraux et les quartiers périphériques.

Quelques nuances utiles

La présente section souligne que, malgré tous mes efforts, les résultats ci-dessus sont à prendre avec un grain de sel.

Les bémols de l’analyse géospatiale

Le ratio revenu foncier / mètre de rue est intéressant mais a évidemment des limites. Outre qu’on pourrait me critiquer pour l’invention d’indicateurs étranges, tous les coûts d’opération et d’infrastructure de la ville ne sont pas liés à des kilomètres de rue: les coûts de sécurités publiques (plus gros poste de dépense), la culture ou encore la gestion des parcs ne sont pas nécessairement liés au nombre de kilomètres de rue. Donc le ratio utilisé ici permet d’analyser la contribution au financement de certaines dépenses municipales mais pas à l’ensemble du budget d’une ville. L’analyse de Urban3 était capable d’être plus globale. En prenant en compte ce bémol, la présente analyse donne toutefois une idée de la capacité de financement des infrastructures les plus coûteuses: routes, réseau d’eaux potables et usées.

Cependant, même pour l’analyse de Urban3, il faut bien être conscient qu’il y a une limite à ce genre d’approche: comment bien intégrer l’usage (et la dégradation accélérée) des rues par les navetteurs? Comment modéliser et affecter les coûts de parcs utilisés par des personnes venant de partout? La présente analyse bénéficierait évidemment d’être approfondie avec une modélisation juste des dépenses et en même temps aucune modélisation ne pourra refléter la richesse de la vie urbaine et des coûts d’opération et de maintenance qui s’y rattachent.

J’ajoute qu’à ces limites méthodologiques, l’analyse présente des incohérences liées au découpage de Statistique Canada qui n’a pas été fait pour s’attarder au réseau routier. Ainsi, surtout dans les aires de petite taille (donc très denses), il arrive parfois que les rues adjacentes ne soient pas incluses, ce qui sort des ratios exagérément élevés du fait d’un dénominateur ridiculement petit. Pour deux aires de dissémination assez petites, j’ai même dû modifier manuellement le résultat du calcul car générant des résultats hors norme. Le découpage en hexagone d’Anagraph permet de contourner ce problème et, montrant un profil de résultat similaire, permet de conclure que l’analyse avec les aires des dissémination n’est pas aberrante non plus.

Les bémols de l’analyse socio-démographique

Les données de Statistique Canada sont intéressantes, mais très agrégées aussi. Le revenu médian après impôt est une indication utile mais qui a ses limites (et pareil pour tous les indicateurs disponibles). Il faudrait beaucoup de temps pour être capable de faire une analyse plus poussée. Le revenu médian permet d’avoir une idée d’où se situe l’individu moyen d’un quartier même s’il y a une très grande hétérogénéité, ce qui est mieux que rien et permet d’avoir une tendance.

Sur l’utilisation des infrastructures en milieu dense

Un des principaux facteurs que je ne peux pas évaluer est de savoir si les infrastructures en milieu denses sont plus couteuses car plus complexes ou s’usent plus vite. Les rues en milieu dense sont effectivement plus utilisées, ça nécessite aussi plus d’artères; toutefois cet usage est autant si ce n’est plus un usage de transit qu’un usage local. Certes, les infrastructures d’eau nécessaires pour connecter une tour d’habitation sont sûrement plus coûteuses que celles pour un bungalow, mais dans quel ordre de grandeur?

Il m’est difficile de le dire, et c’est la principale faiblesse de la présente analyse. Une indication qu’on ne parle pas de différences significatives toutefois: les paramètres d’allocation de budget des arrondissements se basent surtout sur la quantité d’actifs et non sur le nombre de personnes desservies, par exemple. Comme vous pourrez le voir dans les exemples spécifiques ci-dessous, les ordres de grandeurs sont tels qu’il faudrait vraiment que les infrastructures en milieu denses coûtent incroyablement plus cher pour compenser les effets du manque de densité.

Quelques exemples concrets

Histoire de valider la solidité de l’approche et juste voir à quoi correspondent ces données, il est possible de prendre quelques secteurs représentatifs pour se faire une idée plus… visuelle! Encore une fois: le but n’est pas de pointer du doigt le style de vie d’untel ou unetelle, le but est de regarder ce que produit une politique publique particulière qu’est l’impôt foncier. Ces exemples concrets visent à incarner les statistiques ci-dessus.

En plus des indicateurs utilisés jusqu’ici, j’ajoute quelques autres données qui permettent de comprendre un peu mieux le mode d’habitation d’un quartier:

Le nombre moyen d’habitants par logement
L’empreinte au sol de chaque habitant, obtenu en prenant la somme des surfaces des terrains résidentiel divisée par le nombre d’habitant
La valeur moyenne du compte de taxe par logement.

Pour commencer, si on regarde du coté de Saint-Laurent, à un jet de pierre d’un de l’autre, nous avons deux situations très différentes:


Saint-Laurent - Bungalows Revenu foncier par km: 261$/m Revenu médian après taxe des foyers: 56 576$ Habitant par logement: 2.71 Empreinte au sol par habitant: 117m² Taxe par logement: 2626$/an	Saint-Laurent - Blocs appartements Revenu foncier par km: 2241$/m Revenu médian après taxe des foyers: 41 600$ Habitant par logement: 1.99 Empreinte au sol par habitant: 18.4m² Taxe par logement: 959$/an

D’un coté, une zone peu dense, avec des bungalows et des terrains assez généreux; de l’autre des “barres” d’immeubles assez denses et pas nécessairement très attirantes. Les bungalows génèrent un revenu foncier de 261$/mètre de rue tandis que le revenu médian après impôt des foyers est de 56 576$/an. Dans les tours, on obtient un revenu foncier de 2241$/mètre de rue, pour un revenu médian de 41600$. Dix fois plus de revenus par mètre de rue! Quant aux revenus des ménages, on se trouve dans le segment assez central de la fourchette, bien que la zone de bungalow jouisse de revenus 36% plus élevés.

Dans la visualisation 3D des revenus fonciers par mètre de rue, une bonne partie des “pics” (les zones plus hautes et plus claires) dans les secteurs hors du centre-ville étendu sont des zones à forte densité comme ici: tours d’habitation, blocs appartements et autres au milieu de zones généralement caractérisées par une densité moindre comme c’est le cas avec les bungalows.


Outremont - Quartier à hauts revenus Revenu foncier par km: 1543$/m Revenu médian après taxe des foyers: 105 856$ Habitant par logement: 2.48 Empreinte au sol par habitant: 91m² Taxe par logement: 4934$/an	Cote-des-Neiges - Quartier à faibles revenus Revenu foncier par km: 618$/m Revenu médian après taxe des foyers: 34 355$ Habitant par logement: 1.94 Empreinte au sol par habitant: 26.7m² Taxe par logement: 930$/an

Si on se tourne vers un quartier un peu plus central: Outremont et Cote-des-neiges. Là aussi à un jet de pierre l’un de l’autre, deux réalités très différentes: un quartier riche, avec un revenu médian par foyer de 105 856$ mais aussi une certaine densité, relativement peu de terrain, générant 1543$/m de rue; significativement plus que les bungalows de Saint-Laurent. Non loin de là, un secteur avec des revenus de ménage significativement plus faibles à 34 355$/an, des habitations en appartement moins serrées que des barres d’immeuble, avec une élévation assez limitée (3-4 étages) et produisant des revenus fonciers de 618$/mètre de rue, un chiffre plus faible que le quartier voisin mieux nanti à côté, mais toujours significativement plus élevé que les bungalows.


Île-Bizard - Quartier à hauts revenus excentré Revenu foncier par km: 284$/m Revenu médian après taxe des foyers: 112 640$ Habitant par logement: 3.21 Empreinte au sol par habitant: 261m² Taxe par logement: 4384$/an	Parc-Extension - Quartier à faibles revenus plus central Revenu foncier par km: 918$/m Revenu médian après taxe des foyers: 25 232$ Habitant par logement: 1.66 Empreinte au sol par habitant: 23.8m² Taxe par logement: 967$/an

Maintenant, allons dans le secteur le plus éloigné de Montréal: L’île-Bizard. Je me permets d’aller dans ce coin car pour y être allé marché, je n’avais pu que constater les développements type McMansion, des maisons dont l’évaluation foncière dépasse souvent allègrement le million. C’est d’ailleurs cohérent avec les revenus moyens, de l’ordre de 112 640$/an. Et si les revenus fonciers sont supérieurs au secteur des bungalows de Saint-Laurent, c’est de peu, soit 284$/m.

Comme le montre cet exemple, en matière de revenu foncier, la valeur élevée d’une maison ne peut pas compenser une forme urbaine peu dense. Même si les propriétaires de ces maisons trouvent qu’individuellement ils payent beaucoup d’impôt foncier, 4384$ annuellement en moyenne, collectivement ils représentent des quartiers qui ont plus de difficultés à couvrir les dépenses d’infrastructures communes. À noter que la valeur de compte de taxe ici est similaire au quartier aisé d’Outremont ci-dessus, mais avec un niveau d’“étalement” nettement plus important: tandis que l’empreinte au sol par habitant est de 91m² pour Outremont contre 261m² pour L’Île-Bizard.

À l’autre bout du spectre des revenus, le secteur Acadie de Parc-Extension. Des logements compacts mais avec une élévation limitée (3 niveaux). Des revenus des ménages très modestes à 25 232$/an, parmi les plus bas de Montréal, et une contribution financière de l’ordre de 918$/mètre de rue, soit nettement plus que les deux quartiers à faible densité de Saint-Laurent ou L’Île-Bizard

Centre-Ville

Revenu foncier par km: 3323$/m
Revenu médian après taxe des foyers: 24 256$
Habitant par logement: 1.3
Empreinte au sol par habitant: 12.3m²
Taxe par logement: 1446$/an

Enfin on ne peut faire l’impasse sur le Centre-ville produit beaucoup de revenus fonciers avec des revenus médians passablement bas. Ici, une secteur représentatif autour de l’Université Concordia avec des revenus de 24 256$ pour une contribution record de 3323$/mètre de rue. La logique est un peu similaire au secteur Acadie, mais encore plus exagérée qui, comparé à l’Île-Bizard, pour un revenu de foyer 4 fois inférieur contribue presque 12 fois plus aux revenus municipaux! Pour mémoire, bien que nous soyons dans le centre-ville, avec une forte présence de commerces, les chiffres ici se limitent aux revenus résidentiels!

J’ai volontairement pris quelques exemples extrêmes tout en me limitant à creuser certains secteurs que je connais un peu pour m’y être rendu et parce que sur l’analyse cartographique ils étaient représentatifs de certaines tendances.

Propriétaires, locataires, étudiants et ménages

Je profite de ces cas concrets pour faire un petit détour sur un autre bémol: propriétaires et locataires. Il n’existe, à ma connaissance, aucune information sur le statut de location d’une unité. On peut toutefois parier que les blocs appartements comme ceux dans les “barres” de Saint-Laurent ou encore dans les exemples de Côte-des-neiges, Acadie et du Centre-Ville sont occupés par des locataires.

On pourrait ainsi rétorquer que ce n’est pas la personne qui réside (et dont on a le revenu médian) qui paie la taxe foncière mais bien le propriétaire, qui lui ne figure pas dans les indicateurs de Statistiques Canada. Ceci est juste, mais je fais ici l’hypothèse que le propriétaire n’est pas dans une démarche altruiste: il paie des taxes foncières parce qu’il a des locataires qui lui permettent de financer sa propriété. En d’autres termes, les locataires paient l’impôt foncier bien qu’indirectement.

Autre élément qui mélange sûrement les choses: les étudiants. L’exemple dans le Centre-Ville, proche de Concordia, n’est pas évident. Il y a dans le secteur des blocs clairement dédiés aux étudiants qui ont évidemment des revenus faibles. Ont-ils des bourses? Ont-ils des jobs étudiantes? Sont-ils aidés par leurs parents? S’endettent-ils? Impossible à dire évidemment. Mettons qu’ ici, on peut s’arrêter au fait qu’a priori ce n’est pas la population qui a le plus de revenus discrétionnaires. Malgré tout, là encore, ils contribuent (indirectement) de manière significative aux revenus de la ville.

Enfin, la statistique de revenu utilisé, le revenu par ménage soulève des questions sur le nombre de personnes par ménage. Une grande maison a plus de chances d’abriter une famille, potentiellement avec deux adultes à revenus alors qu’un logement au centre-ville peut ne contenir qu’un étudiant… à moins que ce soit 3 étudiants en colocation! Ainsi, dans les exemples au-dessus, le quartier de l’Île-Bizard avait une moyenne de 3.21 habitants par logement alors que pour Parc-Extension et le Centre-ville c’était respectivement 1.66 et 1.3.

Là aussi je vais fournir une rapide indication que le nombre d’habitants dans une maison est certes important mais ne reverse pas les conclusions. J’ai fait une analyse complémentaire en calculant les revenus par mètre carré habitable et par habitant. Mis sur une carte nous obtenons ceci:

Revenus fonciers par metre carré par habitant

Les zones les plus claires représentent des revenus inférieurs à 2$/m²/habitant, tandis que les zones plus foncées sont autour de 20$/m²/habitant. Encore une fois, on note des différences très significatives, même en intégrant le fait que les quartiers périphériques ont généralement plus d’habitant par logement.

Conséquence sur les politiques publiques

Après avoir couvert beaucoup de terrain, nous revenons aux conclusions d’Urban3 et StrongTowns qui voient dans les résultats obtenus des recommandations assez claires. Ici, je vais marcher sur des œufs car c’est vraiment un terrain glissant et complexe.

Leurs principales recommandations tournent autour de deux axes:

Renforcer la qualité des infrastructures dans les quartiers modestes, ce qui aurait pour effet d’augmenter la valeur foncière et générer donc plus de revenu pour la ville.
Densifier.

Le premier point vient d’une hypothèse: les infrastructures dans les centre-villes sont plus usées, ce qui nuit à la valeur foncière des immeubles et donc à la quantité de taxes générées. À contrario, les zones excentrées, souvent plus récentes, sont souvent en meilleur état. Ainsi le potentiel de gain en taxe foncière pour chaque dollar investi est plus élevé dans les quartier centraux.

Évidemment d’un point de vue des finances de la ville, cela parait très logique… mais à quel coût pour les populations qui y vivent? À n’en pas douter, une augmentation de la valeur foncière serait repassée à ceux qui sont souvent des locataires et qui ont le moins de capacité à payer. En même temps est-ce juste de laisser ceux qui contribuent le plus aux finances publiques dans des infrastructures plus désuètes?

Donc en théorie, il semblerait intéressant de mettre plus d’effort dans les infrastructures des quartiers denses notamment parce qu’ils contribuent plus. Mais il semble difficile d’aller dans cette direction sans réfléchir aux impacts.

Quant à la densification, le sujet est chaudement discuté actuellement au Québec. Les endroits qui génèrent le plus de revenus dans les exemples ci-dessus sont des immeubles massifs, dépassant volontiers 10 étages. Or, lisez Jan Gehl ou Jane Jacob: la hauteur a un coût élevé sur la qualité de vie. Les discussions actuelles sur le sort du bassin Peel où les promoteurs immobiliers demandent de pouvoir construire plus haut sont parlantes. Bizarrement, les élus se retrouvent à défendre une position qui enlève, a priori, des revenus à la Ville; ce n’est probablement pas pour ruiner la ville mais plus lié à la connaissance de l’impact des constructions résidentielles élevées sur la dynamique locale que les élus agissent ainsi.

Bref, densifier, certes, mais en respectant un espace qui respire. Parmi les exemples exposés ci-dessus, celui qui semble le plus en ligne avec les principes urbanistiques et architecturaux est celui de Parc-Extension avec des constructions sur 3 niveaux et de l’espace pour des arbres et un peu de verdure. Évidemment, je ne juge pas l’intérieur de ces bâtiments, ni leur qualité de construction, mais vu de l’extérieur et en regardant les revenus générés, ça semble un équilibre intéressant. Cette notion d’équilibre est importante: le but n’est pas de générer le maximum de revenus, le but est de couvrir les coûts de fonctionnement de la Ville permettant de livrer des services de qualité et pour tous. La modélisation géospatiale des coûts apporterait sans nul doute une compréhension plus approfondie permettant de définir un niveau de revenu nécessaire pour couvrir les frais d’opération en fonction des différentes formes urbaines.

Enfin, il est important de souligne que le champ de bataille est beaucoup plus vaste que Montréal. Si Montréal offre une large variété de formes urbaines et donc la possibilité d’explorer l’effet de la fiscalité foncière sur ces différentes forment, il n’en reste pas moins que les zones à développer y sont rares et le prix des terrains incite déjà (trop?) à la densification pour les promoteurs. Le potentiel de réflexion est plus aigu pour les régions périphériques à Montréal et plus généralement à l’ensemble des villes en croissance: comment développer de manière responsable (financièrement) et humaine.

On voit plusieurs articles de presse soulignant d’un coté des maires conscients des enjeux, ne serait-ce que d’un point de vue environnemental, volontaires pour densifier et de l’autre coté un enjeu d’acceptabilité (sur lequel surfent d’autres élus) pour maintenir le statu quo d’une faible densité. Le présent article démontre, je l’espère, les conséquences d’une faible densité: ce n’est pas viable financièrement et ce n’est pas socialement juste en plus d’être un frein à un avenir sobre en carbone.

La difficulté, c’est d’avoir des discussions informées et approfondies sur ces sujets complexes et… passablement ennuyeux. Il est possible d’avoir des quartiers vivants et assez denses. Ce n’est pas tout rien: la monster house avec garage triple ou un champ morne de tours anonymes de 20 étages. Montréal et d’autres villes à travers le monde regorgent d’équilibres intéressants, denses et agréables; des articles s’en font écho. Les données ressorties montrent que des quartiers avec des constructions à 3-4 étages, même dans des secteurs assez modestes peuvent générer des revenus significatifs. Ce type de construction, que certains comme Jan Gehl nomment « à échelle humaine », ont tout le potentiel pour créer de milieux de vie résilients et agréables à vivre. L’insertion de quelques tours peut se faire lorsque bien réfléchi et planifié. La difficulté est de ne pas se contenter de formules simplificatrices et de trouver le temps et les moyens pour impliquer la population, non pas pour savoir si la densification est opportune, mais plutôt comment bien la faire.

Conclusion

Comment assurer la pérennité des finances des villes? Comment contribuer à une qualité de vie urbaine? Comment limiter et faire face aux changements climatiques? Pour bien des personnes (et j’en suis), la “forme” des villes est un facteur important pour toutes ces questions. Mais comme pour toute question complexe, les réponses simples sont souvent mauvaises.

La présente analyse a été réalisé en quelques (dizaines d’) heures par un amateur à l’intersection de différents champs de pratique: analyse de données, gestion des villes, urbanisme. Pour avoir une réelle clarté, il faudrait que des experts de chacun de ces champs (incluant aussi la fiscalité, la finance, etc.) y passent des centaines d’heures. Toutefois on voit ressortir quelques tendances.

En premier lieu, les analyses réalisées par Urban3 semblent se confirmer à Montréal. En l’absence de données de coûts, on ne peut être certain de la balance finale, mais les quartiers denses génèrent significativement plus de revenus fonciers. La proximité au centre de Montréal joue un rôle, mais plus du fait de la forme que de la proximité à proprement parler: des résidences proches l’un de l’autre (donc également proche du centre) peuvent générer des revenus très différents selon leur forme. C’est donc plus la forme urbaine qui est le facteur déterminant.

Dans ce contexte, les personnes à revenu plus modestes, qui ont tendance à se loger dans des appartements, contribuent (indirectement) de manière disproportionnée aux revenus municipaux tandis que les personnes plus aisées et surtout lorsqu’elle décident de s’établir un peu plus loin, avec des terrains plus généreux, ne contribuent que très peu.

Est-il possible de renverser la tendance? Avant de chercher à renverser une tendance, il faudrait confirmer les conclusions. Advenant qu’elles se confirment? Deux avenues: l’existant et le nouveau.

Pour le nouveau, il est certain que c’est un signal à la densification. D’un point de vue financier en tous cas, l’avantage est évident. Toutefois, il faut aussi être attentif à conserver des quartiers agréables. C’est pour cela que le critère financier ne peut être le seul critère de réflexion. On notera que des quartiers récents, avec une élévation importante, comme Griffintown, génèrent beaucoup de revenus, mais pas de manière démesurée par rapport à des quartiers comme le Plateau–Mont-Royal (1600-3200$/m contre 1000-2200$/m), sachant que les données socio-démographique pointent vers des revenus familiaux médians significativement plus élevés dans Griffintown.

Pour l’existant? La recommandation d’Urban3 d’investir dans les infrastructures publiques dans les quartiers denses ou modestes est sans nulle doute intéressante du point de vue financier: d’abord il y aurait là une certaine logique considérant que ces quartiers contribuent largement (une forme d’utilisateur-payeur renversé), toutefois l’objectif visé (réhausser la valeur des logements) aurait un effet évident sur les résidents les plus vulnérables… surtout dans le contexte actuelle de flambée de prix. Une telle approche devrait donc se combiner avec une protection des résidents vulnérables: les locataires certes, mais aussi certains propriétaires pour qui une hausse de la valeur foncière serait difficile à absorber.

En complément, il serait possible de faire évoluer progressivement la taxe foncière pour prendre en compte des paramètres physiques: densité, taille, etc. Là aussi, ce n’est en aucun cas une solution magique, ça soulève le même genre d’enjeu que le point précédent mais permettrait de rétablir une logique à tout le moins dans les contributions. À cela s’ajoute les possibilités de diversification des revenus afin de réduire la représentation de la valeur foncière dans les budgets municipaux.

Toutes ces questions permettent d’ouvrir sur une multitdes d’enjeux connexes: transition écologique, résilience et entraide locale, crise du logement et même identité: qu’est-ce qui nous constitue? Qu’est-ce qui nous lie? Volontairement, je ne rentre pas dans ces considérations étant donné la longueur déjà exagérée de ce billet. Toutefois, la fiscalité municipale est un facteur sous-jacent de tous ces enjeux.

Pour finir, je vais redire que le but n’est pas de pointer du doigt telle personne ou la maison dans laquelle elle vit. La question fondamentale est de savoir comment créer des expériences de vie riches et agréables en ville et cela de manière durable, y compris financièrement. Je suis de ceux qui ont vécu péniblement la pandémie faute d’espace extérieur pour mes enfants. L’idée n’est donc pas de dire que tout le monde doit vivre dans des tours de 20 étages.

L’idée est d’envisager la meilleure forme possible pour nos villes: offrir un confort de vie pour tous, notamment via des espaces partagés agréables, bien maintenus et donc fonctionnant dans un cadre financier viable. L’équilibre budgétaire ne doit pas dicter la forme de la ville, au risque d’en dénaturer l’essence, mais doit être un critère de design, un facteur de politique publique permettant d’atteindre un cadre de vie riche et attirant financé de manière juste et cohérente. La présente analyse haut niveau montre que la situation actuelle ne répond pas à ces critères et va plutôt dans le sens inverse.

Un peu de méthodologie

Ensembles de données utilisés

Données de taxes foncières
Unités d’évaluation foncière
Réseau routier de la ville de Montréal
Aires de distribution de Statistique Canada
Données socio-démographiques de Statistique Canada selon le recensement de 2015, assignées aux aires de distribution (monté et fourni par Anagraph)

Version simplifiée des étapes de traitement des données

Le point de départ sont les données de taxes disponible qui doivent être sélectionnées pour seulement une année (en l’occurrence 2021) puis de faire la somme des différentes taxes appliquée à un même unité. Ensuite cette sommation des taxes pour une année peut être combinées avec les unités d’évaluation foncière par la clé qui est l’identifiant d’unité foncière qui est présent dans les deux ensembles. Avec cela il est possible d’avoir pour chaque unité: le territoire géographique couvert par l’unité, l’usage et les taxes.

Comme il peut y avoir plusieurs unités sur un même terrain (condos, etc.), il faut ensuite regrouper et donc sommer les valeurs de taxe foncière par polygone au sol. Ainsi nous obtenons une somme de taxes pour différents polygones. Comme cette somme cumule des données résidentielles et non résidentielle (par exemple un même bâtiment ayant au rez-de-chaussée un commerce et à l’étage au-dessus un appartement), il faut, pour chaque enregistrement, un champ pour les taxes résidentielles et un champ pour les taxes non-résidentielles.

En parallèle, en partant des données du réseau de voirie, j’ai exclu les voies hors budget municipal: autoroutes et voies privées. À cause du découpage de Statistique Canada qui ne suit pas toujours le contours des rues, il faut aussi redécouper le réseau de voirie à ses intersections avec les aires de dissémination pour optimiser l’allocation des rues aux bonnes aires de dissémination.

Avec cela, il devient possible de faire un traitement géospatial pour faire la sommes des taxes (résidentielles et non résidentielles) pour une aires de dissémination, de la même manière, les longueurs totales de rue. Reste ensuite à diviser le taxes par les longueurs de rue pour obtenir le ratio de revenus par mètre de rue.

Une jointure avec les données socio-démographiques permettent ensuite de mettre toutes ces valeurs ensemble.

Les choix de visualisation

La présentation contient plusieurs modes de visualisation différents, surtout pour la cartographie: 3D avec découpage sur les aires de dissémination, 3D avec découpage hexagonal, carte 2D type “choropleth” (gradient de couleur). Lorsque j’ai vu la visualisation d’Urban3 qui utilise de la 3D, je me suis demandé la pertinence d’un tel choix qui alourdi et rend plus difficile la compréhension. En faisant moi-même le travail, j’ai compris que l’usage de la 3D ne tenait pas nécessairement du gadget.

Les graduations avec des intervalles constants permettent de bien voir les valeurs extrêmes, mais on perd la finesse dans les intermédiaires. Les graduations en quantiles ou plus intelligentes (Jenks), permettent de mieux catégoriser mais perdent les écarts parfois significatifs au sein d’une même catégorie. En 3D, la hauteur permet de représenter linéairement les écarts tandis que le code couleur, en utilisant des quantiles, permet d’avoir une catégorisation rapide. Bref, la 3D, bien qu’un peu lourde, présente un intérêt non négligeable ici.

Code et données

Une version simplifiée des requêtes SQL utilisées pour faire le traitement de données est disponible sur Gist.
Extraction des données traitées en GeoJSON

Outils utilisés

PostgreSQL avec l’extension géospatial PostGIS
QGIS connecté à PostgreSQL pour visualiser sur des cartes
Le Studio Plot.ly pour les graphiques
Kepler.gl pour la visualisation 3D, connecté sur Carto
La suite GDAL (ogr2ogr et shp2psql) pour le traitement et l’import des données
Google Street View pour illustrer les quartiers utilisés comme référence
Les outils (et cerveaux) d’Anagraph

« We're doomed! » Et que faire avec

Sun, 19 Sep 2021 07:00:00 +0000

Je ne sais pas vous, mais personnellement je pense que nous sommes foutus.

Attendez, je vais préciser un peu ma pensée: je pense qu’il est désormais impossible de contenir le réchauffement planétaire en-deçà de 1.5°C. Regardons les chiffres froidement: nous sommes déjà, en 2021, à une augmentation de 1.1°C. Selon un rapport récent du GIEC, en suivant la trajectoire actuelle, on devrait atteindre le 1.5°C d’augmentation en 2030… 2040 si on est chanceux. Je tiens à signaler que depuis 20 ans, l’augmentation de température suit pas mal toujours le scénario le plus pessimiste du GIEC. Chaque année, ou presque, la production de GES anthropiques augmente par rapport à l’année précédente. Fait important toutefois: cette croissance ralentie de manière évidente, on peut envisager d’atteindre le pic de production de GES prochainement.

Sauf que voilà: la durée de vie du CO2 dans l’atmosphère est de 100 ans, l’inertie est énorme. Donc, mettons qu’on atteigne bientôt le pic de production de GES, on en a encore pour plusieurs années avant de revenir à un niveau acceptable, c’est-à-dire arrêter de faire augmenter la concentration de CO2 dans l’air. Pour vous en convaincre, je vous propose un exercice assez simple: Nous sommes actuellement à une production avoisinant les 30Gt eq.CO2/an. Mettons, pour l’hypothèse, que le niveau acceptable pour arrêter de faire augmenter la concentration atmosphérique, correspondant donc à la capacité d’absorption de la planète est de 15Gt eq.CO2/an^**. En gros ça veut dire que tant que la courbe ci-dessous est au-dessus de 15, on continue à faire augmenter la température…

Scénarios d'évolution des GES anthropiques

Grosso modo, le sommet de la courbe de production annuelle (qu’on simplifie en courbe normale) corresponds à la zone d’augmentation la plus abrupte de la courbe cumulative, son intégrale , qui correspond à une courbe logistique. Preuve que les maths, même de base, ça sert.

Bref pour dire ça simplement, une fois le pic de production atteint, on continue encore à augmenter la concentration de CO2 atmosphérique pendant des décennies. Le graphique ci-dessus se base sur des données de l’Agence internationale de l’énergie, autant pour l’historique que pour les deux scenarios des premières années post-pandémie; la trajectoire jusqu’en 2050 est la mienne à partir des scenarios de L’AIE. Notez que mon scénario GIEC, avec 10% d’augmentation et un pic atteint avant 2030 est plus optimiste que le rapport qui vient de sortir qui table sur 16% d’augmentation d’ici 2030 sur base des “contributions déterminées au niveau national” déposées par les pays.

Imaginez: les voitures thermiques qui sont vendues aujourd’hui, elles vont continuer à rouler combien de temps? 15 ans? En 2035 elles seront encore en fonction possiblement. C’est encore pire pour les procédés industriels mis en œuvre aujourd’hui dont les investissements ont été soigneusement établis pour s’amortir souvent sur des décennies. À moins que de nombreux gouvernements investissent/subventionnent massivement pour remplacer ces voitures et procédés industriels (ce qui semble peu probable vu l’état des finances publiques un peu partout), le retrait des sources de pollution va se faire bien trop lentement.

Bref, je n’ai pas un doctorat en modélisation d’émission de GES; un peu comme pour les cas de COVID-19, je me contente de regarder les taux d’évolution et partir du principe que ces taux ne peuvent pas varier rapidement; ils suivent une trajectoire qui n’accepte pas vraiment de cassure, sauf situation exceptionnelle (les deux cassures dans le graph sont la crise financière de 2008 et la pandémie, tout porte à croire que pour la pandémie comme pour la crise de 2008, on n’évitera pas un rebond). Et si la COVID m’a démontré quelque chose: il est beaucoup plus fréquent que les choses s’étirent plus dans le temps que souhaité.

En d’autres termes, le rythme d’augmentation des températures va se poursuivre pendant des décennies, le 1.5°C sera dépassé, et il sera même dépassé “bientôt”, inutile de continuer à s’accrocher à l’hypothèse qu’on restera dans cet intervalle vivable.

J’écris ceci avec en tête la prochaine sortie de la série tirée du cycle Fondation d’Asimov. Ceux qui me suivent se rappellent que j’ai déjà utilisé Fondation comme inspiration. Ici je vais le prendre dans le sens le plus strict de cette fiction: le principe de base repose sur une technique développée dans un futur lointain, la psychohistoire, une science statistique qui permet à son créateur, Hari Seldon, de déterminer que l’empire galactique alors hégémonique est voué à s’effondrer très lentement, sur des siècles. Si rien n’est fait, une période de chaos galactique s’étirera sur au moins un millénaire. En utilisant les principes de la psychohistoire, le scientifique pense possible de semer la graine -la Fondation- qui permettra de stabiliser beaucoup plus rapidement la galaxie. Le chaos est inévitable, mais durera moins longtemps. Je ne vous ai pas trop divulgaché la future série, on apprend l’ensemble de ces éléments dans les premières pages du roman du premier tome.

Le lecteur aura rapidement compris le parallèle et la pertinence de produire cette épopée à la “télévision” par les temps qui courent. L’idée d’Asimov ici est que l’histoire est têtue. Elle peut être influencée, mais à la marge… marge qui, un jour lointain, devient le principe dominant. Quand le sens de l’histoire est de nous envoyer vers une période difficile, il n’est pas vraiment possible de l’éviter complètement. Il est possible d’atténuer (un peu) cette période, il est possible de la raccourcir. Certains me diront, avec justesse: c’est une fiction. Certes, ça l’est, mais Asimov s’est basé sur le fonctionnement de l’histoire pour développer son idée, et quand on regarde la question des changements climatiques, on ne peut qu’y trouver un écho évident (de même pour la pandémie d’ailleurs).

Pourquoi faire le parallèle avec Fondation, hormis pour le plaisir intellectuel de la chose? Personnellement, je pense que c’est important car ça nous aide à chercher les bons signaux et à envisager la meilleure posture possible.

Les bons signaux: bien que la tendance générale est mauvaise (cf. mes premiers paragraphes), les graines de la stabilisation sont semées. Ainsi depuis les années 2000, il y a une désynchronisation entre l’augmentation des extrants économiques (e.g le PIB) et la production de GES. En d’autres termes, l’intensité de production de GES a pris un virage à cette époque qui nous permet aujourd’hui d’envisager d’atteindre le sommet de la production de GES. J’étais parmi les premiers à me lamenter de l’échec du protocole de Kyoto à l’époque, je pense qu’avec le recul il a tout de même permis de commencer la vague de fond. Évidemment insuffisamment, évidemment par rapport aux objectifs qui étaient de rigueur à l’époque c’est un échec cuisant. Mais dans le sens de l’histoire de l’époque, c’était une sorte de Fondation, le premier signal faible du changement à venir. On peut se lamenter de l’échec du protocole de Kyoto, on peut se féliciter qu’à l’époque des gens, des pays, ont posé ce geste qui a l’air presque anachronique par rapport à la lenteur de la réaction mondiale.

Ce sur quoi je veux mettre l’accent ici, c’est le changement de trajectoire, l’inflexion dans la courbe. Inflexion souvent à peine perceptible sur le moment mais qui préside pourtant à l’évolution sur le long terme.

La posture à prendre. C’est triste à dire, mais on s’en va, en tant qu’humanité, vers pas mal de souffrance. Nos générations et surtout les générations qui vont suivre ne vont surement pas l’avoir facile. Et disons-le, ils vont nous haïr parce qu’en rétrospective, il semblera invraisemblable que nos générations n’ont pas agit plus promptement alors que tous les indicateurs pointaient vers le rouge. Un peu comme Hari Seldon, nous contemplons un abysse que nous savons inévitable.

Cependant, je ne suis pas un adepte de la collapsologie non plus. Je ne pense pas que l’humanité va s’effondrer. Des pays vont possiblement s’effondrer ou fortement chuter. Dans les décennies à venir, des crises, des spasmes, possiblement comparables à ce que nous avons vécu avec la pandémie, peut-être plus difficiles, vont se produire. Et c’est assez inévitable. Ce qui ne veut pas dire que la vie de toute l’humanité sera misérable tout le temps. Je pense que c’est important d’envisager le futur ainsi, car c’est ce qui est de plus probable. Nous voyons déjà les effets d’un réchauffement de 1.1°C, c’est indéniable. Maintenir une sorte de narratif que tout ira bien si on s’arrête à une augmentation de 1.49°C et qu’à 1.5°C tout fout le camp (j’exagère, je sais) n’aide pas à se préparer adéquatement.

Se préparer adéquatement? Ça veut d’abord dire qu’en plus de l’effort colossal à mettre pour baisser la production de GES, il faut également investir dans les contre-mesures: aide internationale aux pays les plus vulnérables, développement de stratégies d’adaptation, etc. C’est grosso modo c’est ce que nous dit Antonio Guterres (merci à François pour la citation):

« We need a breakthrough on protecting people and their livelihoods, with at least half of all public climate finance committed to building resilience and helping people adapt. And we need much greater solidarity, including full delivery of the long-standing climate finance pledge to help developing countries take climate action. There is no alternative if we are to achieve a safer, more sustainable and prosperous future for all.»

Antonio Guterres, UN Agencies Present Latest Climate Science, 16 septembre 2021

Ça va être difficile parce qu’au début on va avoir l’impression de faire des trucs dans le vide. C’est comme au tennis, quand on débute, on a toujours l’impression qu’on prépare notre mouvement trop tôt par rapport à la balle qui semble encore bien loin, et la balle arrive toujours sur nous plus vite qu’on pense.

Je souligne en particulier le morceau suivant “we need much greater solidarity”. On a vu pendant la pandémie que c’était un facteur clé. Malgré les efforts individuels et collectifs, c’était toutefois insuffisant. Des infrastructures sociales sont nécessaires pour soutenir une solidarité pérenne et ça met du temps à se construire. Malheureusement, au Québec et ailleurs, on prend le chemin inverse alors que plusieurs mouvements politiques multiplient les tactiques pour diviser les populations selon plusieurs axes, tout en sapant la légitimité des institutions en place (ce qui peut amener à se poser la question si les institutions en place sont les bonnes, c’est un autre débat).

La posture à prendre, c’est aussi accepter que ce n’est pas une bataille ou une guerre. Nous ne “vaincrons” pas. Personne ne pourra dire sur son lit de mort “j’ai vaincu la crise climatique”. Il faut accepter, comme les personnages dans Fondation, que nous sommes voués à rester de petits engrenages. Fondation se déroule sur des siècles, au début du cycle, chaque chapitre couvre simplement une génération. Mais chaque génération est importante! Chacune a un rôle à jouer et le joue, même au moment le plus ingrat.

Et c’est un peu ma conclusion pour le moment: même si clairement les choses vont dans la mauvaise direction, même si nos actions les plus audacieuses dans notre vie ne permettront pas de radicalement changer les choses, nous devons quand même agir en sachant que c’est important. Que les actions que nous menons, aussi petites soient-elles à l’échelle du grand tout, sont importantes et nécessaires.

Je sais que ce n’était pas nécessairement le message que Camus voulait passer avec Le mythe de Sisyphe, mais c’est un peu ainsi que le ressens: on va devoir pousser notre pierre dans un monde absurde et ingrat, sans jamais en voir la fin, et on va devoir le faire heureux de le faire et convaincu de la nécessité de pousser cette pierre. “Il faut imaginer Sisyphe heureux” conclut Camus.

« Les dieux avaient condamné Sisyphe à rouler sans cesse un rocher jusqu’au sommet d’une montagne d’où la pierre retombait par son propre poids. Ils avaient pensé avec quelque raison qu’il n’est pas de punition plus terrible que le travail inutile et sans espoir…»

Albert Camus, Le mythe de Sisyphe, 1942.

Je dédie ce billet à Louise Guay dont le décès m’attriste profondément. D’abord parce que Louise, dans sa recherche perpétuelle du beau n’hésitait pas à pousser sa pierre en dépit de l’absurde qui l’entourait. Ensuite parce que ses actions soulignent à quel point nous, en tant que société et en tant qu’individus, n’accordons pas assez de temps à ceux qui pensent le changement.

^**J’en ai aucune idée du seuil réel d’absorption de la terre. Je me suis permis de prendre une valeur un peu inférieure à 1990 qu’on prend souvent pour référence, on sait que la température commençait déjà à augmenter à l’époque mais dans une mesure nettement moindre. Je prends ici les chiffres liés à l’énergie. En réalité les chiffres sont plus élevés, la biomasse, notammant l’élevage intensive bovin contribuent à augmenter les chiffres, mais prenons le modèle le plus simple.

Dataholic

Aikido: 20 ans et une ceinture noire plus tard

Mais alors, pourquoi l’aikido?

GPT & Co: ça ne change rien (2/2)

Quelle contribution face aux crises longues?

Ivan Illich -une critique radicale la technologie

Les conséquences, aujourd’hui

Doctrine du choc au service d’une précarisation

Appauvrissement sous toutes ses formes

Hyperactivation de l’attention

Isolement et perte de capacité de l’action collective

Accélération et indisponibilité

N’est-ce pas simplement le capitalisme?

Mais alors, que faire?

En conclusion

GPT & Co: Ça change tout, et ça change rien (1/2)

Comprendre la bête

Fonction 1: Produire du contenu cohérent

Fonction 2: Interpréter le langage humain

Fonction 3: Connaitre tout… et inventer au besoin

Mais pourquoi faire ça?

Une interface fiable?

Hype et adoption

Accélération des cycles d’adoption

Petit détour par l’AGI

Flop? Adoption lente? Adoption rapide?

Expérimentations GPTiennes: assistant vocal

Commande vocale pour courriel

Comment ça marche

Est-ce que ça marche?

Méthodologie et commentaires techniques

GPT et la sécurité routière, addendum

Bref récapitulatif

Les résultats

Comment ça marche

Limites de ma méthode et tests supplémentaires

Système vs utilisateur

Ce n’est pas parfait, mais tout de même…

En annexe: quelques exemples mentionnés dans le texte

Obligation du casque à vélo, version utilisateur

Obligation du casque à vélo, version système

Arrêt quatre directions

Simulation d’un entretien d’embauche

Peut-on apprendre la sécurité routière à GPT-3?

Une brève histoire de code de sécurité routière

Un peu de théorie

Commençons par les résultats

Quelques exemples

Mais comment y marche le truc?

L’embedding

Le fine-tuning

Conclusion pas finale

L'innovation va-t-elle nous sauver?

Une typologie grossière de l’innovation

Nous sauver?

Une analogie douteuse: le jardinage

Une fuite en avant

20 ans au Québec et quelques réflexions

Qui paie la Ville? Densité, fiscalité & équité

Version courte et manquant sérieusement de subtilité

(à sauter si vous comptez lire la version longue)

Version complète (et plus nuancée)

Une vue à 30 000 pieds d’altitude

Quelques statistiques d’ensemble

Dans le vif du sujet

Les revenus fonciers et les revenus familiaux

Digression sur l’impôt foncier et les finances municipales

Quelques nuances utiles

Les bémols de l’analyse géospatiale

Les bémols de l’analyse socio-démographique

Sur l’utilisation des infrastructures en milieu dense

Quelques exemples concrets

Propriétaires, locataires, étudiants et ménages

Conséquence sur les politiques publiques

Conclusion

Un peu de méthodologie

Ensembles de données utilisés

Version simplifiée des étapes de traitement des données

Les choix de visualisation

Code et données

Obligation du casque à vélo, version `utilisateur`

Obligation du casque à vélo, version `système`