Sunday, January 18, 2026

6. L'apprentissage des catégories et la perception...

 6a (1 des 2 textes)

Harnad, S. (2017) To Cognize is to Categorize: Cognition is Categorization, in Lefebvre, C. and Cohen, H., Eds. Handbook of Categorization. Elsevier.

 TRADUCTION


RÉSUMÉ : Nous-autres, les organismes, sommes des systèmes sensorimoteurs. Les choses du monde entrent en contact avec nos surfaces sensorielles, et nous interagissons avec elles en fonction de ce que ce contact sensori-moteur "offre". Toutes nos catégories consistent en des façons dont nous nous comportons différemment envers différents types de choses - les choses que nous mangeons ou ne mangeons pas, avec lesquelles nous nous appuyons ou que nous fuyons, ou les choses que nous décrivons, à travers notre langage, comme des nombres premiers, les affordances, les discriminables absolus ou les vérités. C'est tout ce que la cognition est pour, et à propos. 

 

Pensar es olvidar diferencias, es generalizar, abstraer. 

En el abarrotado mundo de Funes no hab’a sino detalles, casi inmediatos. Borges ("Funes el memorioso") Funes le mémorieux


 

1. Systèmes sensori-moteurs. Les organismes sont des systèmes sensorimoteurs. Les choses du monde entrent en contact avec nos surfaces sensorielles, et nous interagissons avec elles en fonction de ce que ce contact sensori-moteur "offre" (Gibson 1979).

 

2. Caractéristiques sensorimotrices invariantes (« Affordances »). Dire cela n'est pas se déclarer "Gibsonien" (quoi que cela veuille dire). Il s'agit simplement de souligner que ce qu'un système sensori-moteur peut faire est déterminé par ce qui peut être extrait de ses interactions motrices avec son entrée sensorielle. Si vous manquez de capteurs sonar, votre système sensorimoteur ne peut pas faire ce que peut faire une chauve-souris, du moins pas sans l'aide d'instruments. La stimulation lumineuse permet une vision des couleurs pour ceux d'entre nous qui ont le bon appareil sensoriel, mais pas pour ceux d'entre nous qui sont daltoniens. Le fait géométrique que, lorsque nous nous déplaçons, les "ombres" projetées sur notre rétine par des objets proches se déplacent plus rapidement que les ombres d'autres objets signifie que, pour ceux d'entre nous qui ont une vision normale, notre apport visuel permet une perception de la profondeur.

 

De faits plus compliqués de géométrie projective et solide, il s'ensuit qu'une forme tridimensionnelle, comme, par exemple, un boomerang, peut être reconnue comme étant la même forme Ð et la même taille Ð même si la taille et la forme de son ombre sur notre rétine change lorsque nous nous déplaçons par rapport à elle ou qu'elle se déplace par rapport à nous. Sa forme est dite invariante sous ces transformations sensorimotrices, et nos systèmes visuels peuvent détecter et extraire cette invariance, et la traduire en une constance visuelle. Nous continuons donc à voir un boomerang de la même forme et de la même taille même si la forme et la taille de ses ombres rétiniennes changent constamment.

 

3. Catégorisation. Jusqu'à présent, les affordances que j'ai mentionnées dépendaient soit des bons capteurs, comme dans le cas du sonar et de la couleur, soit des bons détecteurs d'invariance, comme dans le cas de la perception de la profondeur et de la constance de la forme/taille. Avoir la capacité de détecter la stimulation ou de détecter les invariants dans la stimulation n'est pas anodin ; ceci est confirmé par le fait que la robotique sensorimotrice et la physiologie sensorimotrice n'ont jusqu'à présent réussi à dupliquer et à expliquer qu'une petite partie de ce sous-ensemble de nos capacités sensorimotrices. Mais nous sommes déjà bien ici sur le territoire de la catégorisation, car, pour le dire de manière plus simple et plus générale : la catégorisation est toute interaction différentielle systématique entre un système sensori-moteur autonome et adaptatif et son monde : Systématique, car nous ne voulons pas d'interactions arbitraires comme les effets du vent soufflant sur le sable dans le désert doivent être considérés comme une catégorisation (bien qu'il y ait peut-être encore des similitudes inhérentes qui méritent d'être notées). Ni le vent ni le sable ne sont un système sensori-moteur autonome ; ce sont, conjointement, de simples systèmes dynamiques, des systèmes qui interagissent et changent selon les lois de la physique.

 

Tout dans la nature est un système dynamique, bien sûr, mais certaines choses ne sont pas seulement des systèmes dynamiques, et la catégorisation fait référence à un type particulier de système dynamique. Le sable interagit également « différemment » avec le vent : soufflez-le par ici et il ira par là ; soufflez comme ça et ça va comme ça. Mais ce n'est ni le bon type de systématicité ni le bon type de différentiation. Ce n'est pas non plus le bon type d'adaptabilité (bien qu'encore une fois, la théorie de la catégorisation a probablement beaucoup à apprendre des interactions dynamiques ordinaires aussi, même si elles ne comptent pas comme une catégorisation).

 

Les systèmes dynamiques sont des systèmes qui changent dans le temps. Il est donc déjà clair que la catégorisation aura aussi quelque chose à voir avec les changements dans le temps. Mais les changements adaptatifs dans les systèmes autonomes sont ceux dans lesquels les états internes au sein du système autonome changent systématiquement avec le temps, de sorte que, pour le dire simplement, exactement la même entrée ne produira pas exactement la même sortie dans le temps, à chaque fois, comme elle le fait dans l'interaction entre le vent et le sable (chaque fois que le vent souffle exactement dans la même direction et que le sable est exactement dans la même configuration). La catégorisation ne concerne donc pas exactement la même sortie se produisant chaque fois qu'il y a exactement la même entrée. Les catégories sont des sortes, et la catégorisation se produit lorsque la même sortie se produit avec le même type d'entrée, plutôt qu'exactement la même entrée. Et une sortie différente se produit avec un type d'entrée différent. C'est donc de là que vient le "différentiel".

 

4. Apprentissage. L'adaptabilité vient avec l'historique en temps réel. Les systèmes sensorimoteurs autonomes et adaptatifs catégorisent quand ils répondent différemment à différents types d'entrées, mais la façon de montrer qu'ils sont en effet des systèmes adaptatifs - plutôt que simplement apparentés à des configurations très particulières et complexes de sable qui répondent simplement (et ont toujours répondu) différemment à différents types d'entrées dans la façon dont le sable ordinaire réagit (et a toujours répondu) au vent de différentes directions - est de montrer qu'à un moment donné il n'en était pas ainsi : qu'il n'a pas toujours répondu différemment comme il le fait maintenant. En d'autres termes (bien qu'il soit facile d'y voir exactement le contraire) : la catégorisation est intimement liée à l'apprentissage.

 

Pourquoi aurait-on pu y voir le contraire ? Parce que si, au lieu d'être des concepteurs et des explicateurs des systèmes sensori-moteurs et de leurs capacités, nous nous étions simplement préoccupés de ce qu'il y a dans le monde, nous aurions pu confondre le problème de la catégorisation avec le simple problème d'identifier ce qui existe ( que les systèmes sensori-moteurs peuvent ensuite catégoriser). Mais c'est le côté ontique des catégories, concerné par ce qui existe et ce qui n'existe pas, et il vaut probablement mieux laisser cela aux spécialistes respectifs des différentes sortes de choses qui existent (spécialistes des animaux, des végétaux ou des minéraux, pour faire simple) . Les genres de choses là-bas dans le monde sont, si vous voulez, la somme totale des affordances potentielles du monde aux systèmes sensori-moteurs comme nous. Mais le problème de la catégorisation n'est pas de déterminer quels types de choses il y a, mais comment il se fait que des systèmes sensori-moteurs comme nous parviennent à détecter ces types qu'ils peuvent et détectent : comment ils parviennent à y répondre différemment.

 

5. Catégories innées. Maintenant, il se peut que nous soyons tous nés avec la capacité de réagir différemment à toutes sortes de choses auxquelles nous réagissons différemment, sans jamais avoir à apprendre à le faire (et il y en a, comme Jerry Fodor (1975, 1981, 1998), qui écrivent parfois comme s'ils croyaient que c'était effectivement le cas). L'apprentissage peut être trivial; peut-être que toutes les invariances que nous pouvons détecter, nous pourrions déjà les détecter de manière innée, sans avoir besoin de changements internes qui dépendent du temps ou de toute interaction différentielle plus compliquée du type que nous appelons apprentissage.

 

Ce type de nativisme extrême à propos des catégories n'est généralement pas loin de quelque chose d'encore plus extrême que le nativisme, qui est l'idée que nos catégories n'ont même pas été « apprises » par adaptation évolutive : la capacité de catégoriser est en quelque sorte préstructurée dans notre cerveau de la même façon. façon dont la structure de l'atome de carbone est venue préstructurée du Big Bang, sans avoir besoin de quelque chose comme "apprendre" pour le façonner.

(La théorie de Fodor pourrait bien être surnommée une théorie du "Big Bang" sur l'origine de notre capacité de catégorisation.)

 

Chomsky (par exemple, 1976) a fait une conjecture similaire - à propos d'un sous-ensemble très spécial de notre capacité de catégorisation, à savoir, la capacité de générer et de détecter toutes et uniquement les chaînes de mots qui sont grammaticales selon la Grammaire Universelle (UG) sous-jacente à toutes. langues naturelles possibles : la conformité UG est l'invariant sous-jacent en question et, selon Chomsky, notre capacité à détecter et à générer des chaînes de mots conformes à UG n'est façonnée ni par l'apprentissage ni par l'évolution ; il est plutôt en quelque sorte inhérent à la structure de notre cerveau comme une question d'inévitabilité structurelle, directement à partir du Big Bang. Cette théorie très spécifique, sur l'UG en particulier, ne doit pas être confondue avec la théorie beaucoup plus générale de Fodor selon laquelle toutes les catégories sont non apprises et non évoluées ; dans le cas de l'UG, il existe des preuves considérables de «pauvreté du stimulus» suggérant que l'UG n'est pas apprenable par les enfants sur la base des données qu'ils entendent et produisent dans le temps qu'ils prennent pour apprendre leur première langue; dans le cas de la plupart des autres catégories, cependant, il n'y a pas de telles preuves.

 

6. Catégories apprises. Toutes les preuves suggèrent que la plupart de nos catégories sont apprises. Pour avoir une idée de cela, ouvrez un dictionnaire au hasard et choisissez une demi-douzaine de mots de "contenu" (en sautant les mots de fonction tels que "si", "pas" ou "le"). Vous y trouverez des noms, des verbes, des adjectifs et des adverbes désignant tous des catégories (sortes d'objets, d'événements, d'états, de caractéristiques, d'actions). La question à se poser est la suivante : suis-je né en sachant ce qui est et n'est pas dans ces catégories, ou ai-je dû l'apprendre ?

 

On peut aussi poser la même question à propos des noms propres, même s'ils n'apparaissent pas dans les dictionnaires : les noms propres désignent des individus (par exemple, des personnes, des lieux) plutôt que des genres, mais pour un système sensori-moteur, un individu est effectivement tout autant un genre comme la chose qu'un mot contenu désigne : que ce soit Jerry Fodor ou un boomerang, encore faut-il que mon système visuel puisse distinguer lesquelles de ses ombres sont des ombres de Jerry Fodor et lesquelles sont des ombres de boomerang. Comment? 

 

7. Apprentissage supervisé. Et tout n'est pas aussi simple que dans ce cas. Considérez le problème plus célèbre et plus difficile du tri des poussins nouveau-nés en mâles et femelles. Je ne sais pas si Fodor pense que cette capacité pourrait être innée, mais le grand maître, les ceintures noires du 8ème degré sur cette planète - dont il y en a peu, la plupart au Japon - disent que cela prend des années et des années de formation par essais et erreurs sous la supervision de maîtres pour atteindre le niveau de ceinture noire ; il n'y a pas de raccourcis et la plupart des aspirants ne dépassent jamais le niveau de la ceinture brune. (Nous y reviendrons.) La catégorisation, semble-t-il, est une compétence sensorimotrice, bien que la majeure partie du poids soit sur la partie sensorielle (et la sortie est généralement catégorique, c'est-à-dire discrète plutôt que continue) ; et, comme toutes les compétences, elle doit être apprise.

 

Alors qu'est-ce qu'apprendre ? Il est plus facile de dire ce qu'un système fait lorsqu'il apprend que de dire comment il le fait : l'apprentissage se produit lorsqu'un système échantillonne des entrées et génère des sorties en réponse à celles-ci sur la base d'essais et d'erreurs, ses performances étant guidées par une rétroaction corrective. Les choses arrivent, nous faisons quelque chose en réponse ; si ce que nous avons fait était la bonne chose, il y a une sorte de conséquence ; si c'était la mauvaise chose, il y a une autre sorte de conséquence. Si nos performances ne montrent aucune amélioration avec le temps, alors nous sommes comme le sable dans le vent. Si nos performances s'améliorent - plus de résultats corrects, moins d'erreurs - alors nous apprenons. (Notez que cela présuppose qu'il existe une erreur ou une mauvaise catégorisation : rien de tel ne se produit dans le cas du vent, soufflant sur le sable.)

 

Cette esquisse d'apprentissage devrait nous rappeler BF Skinner, behaviorisme ; et les programmes de récompense et de punition (Catania & Harnad 1988). Car c'est Skinner qui a souligné que nous apprenons sur la base de la rétroaction des conséquences de notre comportement. Mais ce que Skinner n'a pas fourni, c'est le mécanisme interne de cette capacité sensorimotrice que nous et tant de nos semblables avons, tout comme Gibson n'a pas fourni le mécanisme pour capter les affordances. Ces deux penseurs pensaient que fournir des mécanismes internes n'était pas nécessaire ou n'était pas de la responsabilité de leur discipline. Ils ne s'intéressaient qu'à la description des entrées et des interactions sensorimotrices, et non à la manière dont un système sensorimoteur pouvait réellement faire ces choses. Ainsi, alors qu'ils commençaient déjà à effleurer la surface du « quoi » de notre capacité de catégorisation, en termes d'entrées/sorties, ni l'un ni l'autre ne s'intéressait au « comment ».

 

8. Apprentissage instrumental (opérant, renforcement). Laissons également de côté la question du "comment" pour le moment, et notons que ce qu'on appelle l'apprentissage opérant ou instrumental - dans lequel, par exemple, un pigeon est entraîné à picorer une touche chaque fois qu'il voit un cercle noir et à une autre touche chaque fois qu'il voit un cercle blanc (avec de la nourriture comme rétroaction pour faire la bonne chose et pas de nourriture comme rétroaction pour faire la mauvaise chose) - est déjà un cas primitif de catégorisation. Il s'agit d'une réponse différentielle systématique à différents types d'entrées, effectuée par un système adaptatif autonome qui a d'abord répondu de manière aléatoire, mais a appris à adapter ses réponses sous la direction d'une rétroaction de correction d'erreur (grâce, vraisemblablement, à une sorte de changement adaptatif dans son état interne).

 

Le cas du noir contre le blanc est relativement trivial, car l'appareil sensoriel de l'animal a déjà ces deux types d'entrées bien séparées à l'avance - bien que si, après s'être entraînés uniquement sur le noir et le blanc, nous commencions à les "transformer" progressivement en les uns les autres comme des nuances de gris, et testé ces nuances intermédiaires sans rétroaction, le pigeon montrerait un "gradient de généralisation" lisse, picorant plus sur la touche "noire" plus l'entrée était proche du noir, plus sur la touche blanche plus le l'entrée était au blanc et approchait un niveau de performance aléatoire à mi-chemin entre les deux. Il en serait de même pour un être humain dans cette situation.

 

9. Catégories de couleurs. Mais si l'animal avait une vision des couleurs et que nous utilisions le bleu et le vert comme entrées, le motif serait différent. Il y aurait toujours une confusion maximale au point médian bleu-vert, mais de chaque côté de cette limite, le choix correct de la touche et la quantité d'appuis augmenteraient beaucoup plus brusquement - on pourrait même dire "catégoriquement" - qu'avec des nuances de gris . La raison en est qu'entre le noir et le blanc, il n'y a pas de frontière de catégorie innée, alors qu'entre le vert et le bleu, il y en a (chez les animaux ayant une vision normale des couleurs vert/bleu). La situation est assez similaire au chaud et au froid, où il y a un point neutre à mi-chemin entre les deux pôles, ne sentant ni froid ni chaud, puis une différence qualitative relativement abrupte entre la plage "chaude" et la plage "froide" dans les deux sens . 

 

10. Perception catégorielle. Ce changement de perception relativement brusque à la frontière est appelé "perception catégorique" (CP) et dans le cas de la perception des couleurs, l'effet est inné. Les ondes lumineuses varient en fréquence. Nous sommes aveugles aux fréquences supérieures au rouge (infrarouge, longueur d'onde d'environ 800 nm) ou inférieures au violet (ultraviolet, longueur d'onde d'environ 400 nm), mais si nous n'avions pas de couleur CP, le continuum du rouge au violet ressemblerait beaucoup à des nuances de gris. , sans aucune de ces "bandes" qualitatives séparées par des mélanges neutres que nous voyons tous dans l'arc-en-ciel ou le spectre.

 

Nos catégories de couleurs sont détectées par un mécanisme complexe de récepteurs sensoriels, pas encore entièrement compris, dont les composants incluent non seulement la fréquence de la lumière, mais d'autres propriétés de la lumière, telles que la luminosité et la saturation, et un mécanisme interne de trois détecteurs spécialisés accordés sélectivement à certaines régions. du spectre de fréquences (rouge, vert et bleu), avec une relation "processus opposant" mutuellement inhibitrice entre leurs activités (le rouge s'opposant au vert et le bleu s'opposant au jaune). Le résultat de ce mécanisme inné d'extraction d'invariance est que certaines gammes de fréquences sont automatiquement "compressées": nous les voyons toutes comme des nuances variables de la même couleur qualitative. Ces plages compressées sont alors séparées des régions qualitatives adjacentes, également compressées, par de petites régions frontières qui ressemblent à des mélanges indéfinis, neutres entre les deux catégories adjacentes. Et tout comme il y a une compression dans chaque gamme de couleurs, il y a une expansion entre elles : les différences de fréquence de taille égale semblent beaucoup plus petites et sont plus difficiles à détecter lorsqu'elles se trouvent dans une catégorie de couleurs que lorsqu'elles traversent la frontière d'une catégorie à l'autre ( Berlin & Kay 1969 ; Harnad 2003).

 

Bien que la CP couleur de base soit innée plutôt que le résultat de l'apprentissage, elle répond toujours à notre définition de la catégorisation parce que le processus d'essais et d'erreurs en temps réel qui a "façonné" la CP grâce à la rétroaction corrective des erreurs des conséquences adaptatives était une évolution darwinienne. Ceux de nos ancêtres qui pouvaient faire des distinctions rapides et précises basées sur la couleur ont survécu et se sont reproduits plus que ceux qui ne le pouvaient pas. Cette sélection naturelle a servi de rétroaction "correctrice d'erreurs" sur la variation génétique par essais et erreurs. Il y a probablement plus de leçons à tirer de l'analogie entre les catégories acquises par l'apprentissage et par l'évolution ainsi que des caractéristiques spécifiques du mécanisme sous-jacent à la couleur CP -- mais cela nous ramène à la question du "comment" soulevée plus tôt, à laquelle nous avons promis de revenir.

 

11. Algorithmes d'apprentissage. Les algorithmes d'apprentissage automatique issus de la recherche sur l'intelligence artificielle, les algorithmes génétiques issus de la recherche sur la vie artificielle et les algorithmes connexionnistes issus de la recherche sur les réseaux neuronaux ont tous fourni des mécanismes candidats pour effectuer le "comment" de la catégorisation.

 

Il existe en général deux types de modèles d'apprentissage : les modèles dits « supervisés » et les modèles « non supervisés ». Les modèles non supervisés sont généralement conçus sur l'hypothèse que les "affordances" d'entrée sont déjà assez saillantes, de sorte que le bon mécanisme de catégorisation sera en mesure de les capter sur la base de la forme de l'entrée à partir d'une exposition répétée et d'une analyse interne seule, sans avoir besoin d'aucune rétroaction externe de correction d'erreur.

 

A titre d'exemple exagéré, si le monde des formes n'était constitué que de boomerangs et de formes de Jerry-Fodor, un mécanisme d'apprentissage non supervisé pourrait facilement trier leurs ombres rétiniennes sur la base de leur seule structure intrinsèque (y compris leurs invariants géométriques projectifs). Mais avec les ombres des abdomens de poussins nouveau-nés, les trier en tant que mâles et femelles aurait probablement besoin de l'aide d'un retour d'information correcteur d'erreurs. Non seulement tenter de les trier sur la seule base de leur paysage structurel intrinsèque reviendrait à chercher une aiguille dans une botte de foin, mais il y a aussi le problème beaucoup plus général que les mêmes choses peuvent souvent être catégorisées de différentes manières. Il serait impossible, sans supervision correctrice d'erreurs, de déterminer quelle voie était correcte dans un contexte donné . Car la bonne catégorisation peut varier selon le contexte : parfois on peut vouloir trier les poussins par sexe, parfois par espèce, parfois par autre chose (Harnad 1987). 

En général, un problème de catégorisation non trivial sera "sous-déterminé". Même s'il n'y a qu'une seule solution correcte, et même si elle peut être trouvée par un mécanisme non supervisé, cela nécessitera d'abord beaucoup d'expositions et de traitements répétés. La distinction figure/fond pourrait ressembler à ceci : comment, en général, notre système visuel parvient-il à traiter les ombres rétiniennes des scènes du monde réel de manière à distinguer ce qui est figure et ce qui est fond ? Dans le cas de figures ambiguës telles que les dessins d'Escher, il peut y avoir plus d'une façon de procéder, mais en général, il existe une méthode par défaut qui fonctionne, et nos systèmes visuels parviennent généralement à la trouver rapidement et de manière fiable pour la plupart. scènes. Il est peu probable qu'ils aient appris à le faire sur la base d'une rétroaction correctrice d'erreurs résultant d'interactions sensorimotrices avec des échantillons des combinaisons possibles infinies de scènes et de leurs ombres.

 

12. Apprentissage non supervisé. Il existe des invariants à la fois morphologiques et géométriques dans les ombres sensorielles des objets, mis en évidence notamment lorsque nous nous déplaçons par rapport à eux ou inversement ; ceux-ci peuvent être extraits par des mécanismes d'apprentissage non supervisés qui échantillonnent la structure et les corrélations (y compris la covariance et l'invariance sous des transformations sensorimotrices dynamiques). De tels mécanismes regroupent les choses en fonction de leurs similitudes et dissemblances structurelles, renforçant à la fois les similitudes et les contrastes. Un exemple de mécanisme non supervisé d'amélioration du contraste et de recherche des limites est «l'inhibition réciproque», dans laquelle l'activité d'un point de l'espace visuel inhibe l'activité des points environnants et vice-versa. Cette concurrence interne tend à mettre en évidence la structure inhérente et offerte par l'input (Hinton & Sejnowsky 1999).

 

13. Apprentissage supervisé. Cependant, ce type de regroupement non supervisé basé sur l'amélioration des similitudes et des corrélations structurelles ne fonctionnera pas si différentes manières de regrouper les mêmes ombres sensorielles sont correctes, en fonction d'autres circonstances (catégorisation dépendante du contexte). Pour résoudre ce problème, une supervision par rétroaction correctrice d'erreurs est également nécessaire ; la structure sensorimotrice et ses affordances seules ne suffisent pas. On pourrait dire que les catégories supervisées sont encore plus sous-déterminées que les catégories non supervisées. Les deux types de catégories sont sous-déterminés, car les ombres sensorielles de leurs membres sont constituées d'un grand nombre de dimensions et de caractéristiques, leurs combinaisons possibles produisant une infinité d'ombres potentielles, rendant difficile à trouver le sous-ensemble d'entre elles qui permettra une catégorisation correcte. Mais les catégories supervisées présentent la difficulté supplémentaire qu'il existe de nombreuses catégorisations correctes (parfois un nombre infini) pour le même ensemble d'ombres.

 

Si vous en doutez, ouvrez à nouveau un dictionnaire, choisissez n'importe quel mot de contenu, disons « table », puis pensez à une table réelle, et pensez à toutes les autres choses que vous auriez pu l'appeler (chose, objet, légume, ouvrage, meuble). , bois dur, Biedermeyer, même "Charlie"). Les autres noms que vous auriez pu lui donner correspondent à d'autres façons dont vous auriez pu le catégoriser. Chaque catégorie a à la fois une "extension" (l'ensemble des choses qui sont membres de cette catégorie) et une "intension" (les caractéristiques qui font que les choses appartiennent à cette catégorie plutôt qu'à une autre). Non seulement toutes les choses sont les membres d'un nombre infini de catégories différentes, mais chacune de leurs caractéristiques et combinaisons de caractéristiques est une base potentielle (affordance) pour les assigner à encore plus de catégories. Jusqu'à présent, ce n'est encore qu'une ontologie. Mais si nous revenons aux entrées sensorielles et au problème auquel est confronté le théoricien essayant d'expliquer comment les systèmes sensori-moteurs peuvent faire ce qu'ils font, alors les entrées sensorielles sont l'ombre d'un nombre potentiellement infini de différentes sortes de choses. La catégorisation est le problème de les trier correctement, en fonction des exigences de la situation.

 

L'apprentissage supervisé peut aider; si l'apprentissage non supervisé ("simple exposition") ne peut pas trouver les caractéristiques gagnantes, peut-être que la formation par essais et erreurs guidée par la rétroaction le fera, comme avec le tri noir / blanc du pigeon et le sexage du poulet. Il existe des algorithmes d'apprentissage supervisé si puissants qu'ils sont assurés de trouver l'aiguille dans la botte de foin, aussi indéterminée soit-elle - tant qu'elle est juste sous-déterminée, pas indéterminée (comme le point médian exact entre le noir et le blanc) ou NP- complet - et tant qu'il y a suffisamment de données, de rétroaction et de temps (comme, pour l'enfant qui apprend une langue, il n'y en a pas, d'où la "pauvreté du stimulus" ; Wexler 1991). Nos algorithmes de catégorisation doivent être capables de faire ce que nous pouvons faire ; donc si nous pouvons catégoriser correctement un ensemble d'entrées, alors ces entrées doivent non seulement avoir les caractéristiques qui peuvent permettre une catégorisation correcte, mais il doit également y avoir un moyen de trouver et d'utiliser ces affordances. (La figure 1 montre comment un réseau neuronal supervisé apprend à trier un ensemble de formulaires en 3 catégories en compressant et en séparant leurs i 

 

LES FIGURES SE TROUVENT DANS LA VERSION ANGLAISE

Figure 1. En haut : 3 ensembles de stimuli présentés au réseau neuronal : bras vertical de L beaucoup plus long, vertical et horizontal à peu près égaux, horizontal beaucoup plus long. En bas à gauche : Position des représentations en unités cachées de chacune des trois catégories après auto-association mais avant apprentissage (les cubes représentent des L à bras longs verticaux, des pyramides L à bras quasi égaux, des sphères L à bras longs horizontaux). En bas à droite : Compression intra-catégorie et séparation entre catégories lorsque le réseau a appris à séparer les trois types d'entrées. (Tiré de Tijsseling & Harnad 1997.)

 

 

14. Des intersections en voie de disparition ? Fodor et d'autres ont parfois suggéré le contraire : ils ont suggéré que l'une des raisons pour lesquelles la plupart des catégories ne peuvent être ni apprises ni évoluées (et doivent donc être "innées" dans un sens plus profond que d'être simplement une adaptation darwinienne) est le problème des "intersections qui disparaissent". : Si vous revenez au dictionnaire, choisissez des mots de contenu, puis recherchez "l'invariance" partagée par toutes les ombres sensorielles d'à peu près n'importe laquelle des choses désignées par ces mots, vous constaterez qu'il n'y en a pas : leur " carrefour" est vide. Quel est le point commun entre toutes les ombres des boomerangs ou des tables Ð sans parler des Jerry Fodors ou des culs de poulet Ð (même en permettant des interactions sensorimotrices dynamiques avec eux) ? Et si cela ne vous convainc pas, alors quelle est l'ombre sensorielle de catégories comme « bonté », « vérité » ou « beauté » ?

 

15. Invariants sensori-moteurs directs. Il n'y a aucune raison pour que les théoriciens de l'invariance reculent devant ce défi. Tout d'abord, il faut souligner que puisque nous parvenons à catégoriser correctement toutes les choses désignées par nos dictionnaires, il y a bien chez nous une capacité dont il faut tenir compte (voir annexe 1). Dire que ces catégories sont « innées » dans un sens cartésien, platonicien ou cosmogonique plutôt que simplement dans un sens darwinien, c'est simplement dire qu'elles sont un mystère inexpliqué, inexplicable. Rejetons donc cela. Supposons que si les organismes peuvent catégoriser, alors il doit y avoir une base sensorimotrice pour cette compétence, et sa source doit être soit l'évolution, soit l'apprentissage, soit les deux. Ce qui signifie qu'il doit y en avoir assez dans ces ombres pour se permettre toute notre capacité de catégorisation.

 

16. Abstraction et ouï-dire. Faut-il que tout soit affaire d'invariants sensori-moteurs directs, toujours ? Non, mais le chemin vers le bien, la vérité et la beauté exige que nous suivions la chaîne d'abstraction qui nous mène des catégories acquises par l'expérience sensorielle directe à celles acquises par « ouï-dire » linguistique :

 

Considérons les cinq façons sensorimotrices dont nous pouvons interagir différemment avec les choses, les cinq types de choses que nous pouvons faire avec les choses : nous pouvons les voir, les reconnaître, les manipuler, les nommer ou les décrire. « Manipuler » en un sens couvre déjà les cinq, parce que manipuler est quelque chose que nous faisons avec les choses ; mais réservons le mot « manipuler » à nos interactions physiques plus directes avec des objets, telles que les toucher, les soulever, les pousser, les construire, les détruire, les manger, les accoupler et les fuir. Les nommer et les décrire est aussi une chose que nous faisons avec eux, mais ne subsumons pas ces deux actes à la manipulation. Voir et reconnaître sont également des choses que nous faisons avec les choses, mais celles-ci aussi sont mieux traitées séparément, plutôt que comme des formes de manipulation. Et "voir" est censé représenter tous les modes de contact sensoriel avec les choses (ouïe, odorat, goût, toucher), pas seulement la vision.

 

Reconnaître est spécial, car ce n'est pas seulement un événement sensoriel passif. Lorsque nous reconnaissons quelque chose, nous le voyons comme une sorte de chose (ou un individu) que nous avons déjà vu. Et il n'y a qu'un pas entre la reconnaissance d'une chose comme un genre ou un individu et le fait de lui donner un nom. Voir demande un équipement sensori-moteur, mais reconnaître en demande plus. Cela nécessite la capacité d'abstraction. Faire abstraction, c'est isoler un sous-ensemble de l'entrée sensorielle et ignorer le reste. Par exemple, nous pouvons voir de nombreuses fleurs dans une scène, mais nous devons faire abstraction pour reconnaître certaines d'entre elles comme étant des primevères. Bien sûr, les voir comme des fleurs est en soi une abstraction. Même distinguer la figure du fond est une abstraction. Tout événement sensori-moteur n'est-il pas abstraction ? 

 

17. Abstraction et amnésie. Pour répondre, il faut se tourner vers la fiction. Borges, dans sa nouvelle de 1944, "Funes the Memorious", décrit une personne qui ne peut pas faire d'abstraction. Un jour, Funes tomba de cheval, et dès lors il ne put plus rien oublier. Il avait une mémoire infinie. Chaque instant successif de son expérience a été stocké pour toujours ; il pourrait rejouer mentalement les « bandes » de son expérience quotidienne par la suite, et il lui faudrait encore plus de temps pour continuer à les revivre qu'il n'en fallait pour les vivre en premier lieu. Sa mémoire était si bonne qu'il a donné des noms propres ou des descriptions à tous les nombres -- "Luis Melin Lafinur, Olimar, azufre, los bastos, la ballena, el gas, la caldera, Napoléon, Agustin de Veda" -- de 1 tous jusqu'à des nombres énormes (voir annexe 2). Chacun était pour lui un individu unique. Mais, par conséquent, il ne pouvait pas faire d'arithmétique ; ne pouvait même pas saisir les concepts de comptage et de nombre. La même perplexité accompagnait sa perception quotidienne. Il ne pouvait pas comprendre pourquoi nous, les gens avec des mémoires ordinaires et fragiles, insistons pour appeler un chien particulier, à un moment particulier, dans un endroit particulier, dans une position particulière, du même nom que nous l'appelons à un autre moment, à un autre moment, lieu, poste. Pour Funes, chaque instant était infiniment unique, et les différents instants étaient incomparables, incommensurables.

 

La mémoire par cœur infinie de Funes était donc un handicap, pas un avantage. Il était incapable d'oublier - pourtant l'oubli sélectif, ou du moins l'ignorance sélective, est ce qui est nécessaire pour reconnaître et nommer les choses. A proprement parler, un vrai Funes ne pourrait même pas exister, ou s'il existait, il ne pourrait être qu'un système sensori-moteur passif, secoué par son environnement (comme le sable par le vent). Borges a dépeint Funes comme ayant des difficultés à saisir les abstractions, mais s'il avait vraiment eu la mémoire infinie et l'incapacité d'oublier sélectivement que Borges lui attribuait, Funes aurait dû être incapable de parler du tout, car nos mots choisissent tous des catégories basées sur l'abstraction. . Il n'aurait pas dû être capable de saisir le concept de chien, encore moins un chien en particulier, ou quoi que ce soit d'autre, qu'il s'agisse d'un individu ou d'une espèce. Il aurait dû être incapable de nommer des nombres, même avec des noms propres, car une numérosité (ou une forme numérique) est elle-même une abstraction. Il devrait y avoir le même problème de reconnaître soit une numéroté ou un chiffre comme étant la même numéroté (chiffre) à une autre occasion que celui de reconnaître un chien comme le même chien, ou comme un chien du tout.

 

18. Invariance et récurrence. Funes était une fiction, mais Luria a décrit une personne réelle qui avait des handicaps qui allaient dans le même sens, mais pas jusqu'à une mémoire infinie. Dans "The Mind of a Mnemonist" (1968), Luria décrit un artiste de la mémoire de scène, "S", qu'il avait remarqué quand S était journaliste parce qu'il ne prenait jamais de notes. S n'avait pas une mémoire par cœur infinie comme celle de Funes, mais une mémoire par cœur bien plus puissante et persistante qu'une personne normale. Lorsqu'il se produisait en tant qu'artiste de la mémoire, il mémorisait de longues chaînes de chiffres entendus une seule fois, ou tous les objets dans le sac à main d'un membre du public. Il pouvait se souvenir des détails exacts de scènes ou de longues séquences. Il souffrait également de synesthésie, ce qui signifie que les événements sensoriels étaient pour lui des expériences polysensorielles plus riches : les sons et les nombres avaient des couleurs et des odeurs ; cela l'aiderait à se souvenir. Mais sa puissante mémoire mécanique était aussi un handicap. Il avait du mal à lire des romans, car lorsqu'une scène était décrite, il visualisait une scène correspondante qu'il avait réellement vue une fois, et bientôt il se perdait à revivre sa mémoire eidétique vivante, incapable de suivre le contenu du roman. Et il avait du mal avec les concepts abstraits, comme les nombres, ou même les généralisations ordinaires que nous faisons tous sans difficulté.

 

Ce que montrent les histoires de Funes et de S, c'est que vivre dans le monde nécessite la capacité de détecter les récurrences, et que cela nécessite à son tour la capacité d'oublier ou du moins d'ignorer ce qui rend chaque instant infiniment unique, et donc incapable de se reproduire exactement. Comme noté précédemment, le concept de Gibson (1979) d'une « affordance » capture bien la capacité requise : les objets permettent certaines interactions sensorimotrices avec eux : une chaise permet de s'asseoir dessus ; les fleurs permettent un tri par couleur, ou par espèce. Ces affordances sont toutes des caractéristiques invariantes de l'input sensoriel, ou de l'interaction sensorimotrice avec l'input, et l'organisme doit être capable de détecter sélectivement ces invariants -- de les abstraire, en ignorant le reste de la variantion. Si toutes les caractéristiques sensorimotrices sont en quelque sorte sur un pied d'égalité et que chaque variation est infiniment unique, alors il ne peut y avoir d'abstraction des invariants qui nous permettent de reconnaître la similitude, la similitude ou l'identité, qu'il s'agisse de genres ou d'individus. 

 

19. Sélection et pondération des fonctionnalités. Le "théorème du vilain petit canard" de Watanabe (1985) capture la même idée. Il décrit comment, considéré seulement logiquement, il n'y a aucune raison de dire que le "vilain petit canard" - l'étrange cygne parmi les nombreux canetons de la fable de Hans Christian Anderson - peut être considéré comme moins similaire à l'un des canetons. que les canetons ne le sont entre eux. La seule raison pour laquelle il semble que les canetons se ressemblent davantage que le cygne est que notre système visuel "pondère" certaines caractéristiques plus lourdement que d'autres - en d'autres termes, il est sélectif, il fait abstraction de certaines caractéristiques comme privilégiées. Car si toutes les caractéristiques ont le même poids et qu'il y a, par exemple, deux canetons et un cygne, dans la position spatiale D1, S, D2, alors bien que D1 et D2 partagent la caractéristique qu'ils sont tous les deux jaunes, et S ne l'est pas, il est également vrai que D1 et S partagent la caractéristique qu'ils sont tous les deux à gauche de D2 dans l'espace, une caractéristique qu'ils ne partagent pas avec D2. Watanabe a souligné que si nous faisions une liste de toutes les caractéristiques (physiques et logiques) de D1, D2 et S, et que nous ne pondérions préférentiellement aucune des caractéristiques par rapport aux autres, alors S partagerait exactement autant de caractéristiques avec D1 en tant que D1 partagé avec D2 (et en tant que D2 partagé avec S). Il s'agit d'un analogue exact de l'effet mémoire de Borges et Luria, car la liste des fonctionnalités est en fait infinie (elle comprend également des fonctionnalités, ainsi que des fonctionnalités négatives, telles que "pas plus gros qu'une boîte à pain", pas double, pas triple , etc.), donc à moins que certaines caractéristiques ne soient arbitrairement sélectionnées et qu'on leur donne un poids supplémentaire, tout est également (et infiniment) similaire à tout le reste.

 

Mais bien sûr, nos systèmes sensori-moteurs n'accordent pas le même poids à toutes les caractéristiques ; ils ne détectent même pas toutes les fonctionnalités. Et parmi les caractéristiques qu'ils détectent, certaines (telles que la forme et la couleur) sont plus saillantes que d'autres (telles que la position spatiale et le nombre de plumes). Et non seulement les caractéristiques détectées sont finies et pondérées de manière différentielle, mais notre mémoire pour elles est encore plus finie : nous pouvons voir, pendant qu'elles sont présentes, bien plus de caractéristiques que nous ne pouvons nous en souvenir par la suite.

 

20. Discrimination versus catégorisation. La meilleure illustration en est la différence entre discrimination relative et discrimination absolue soulignée par George Miller dans son célèbre article de 1956 sur les limites de traitement de l'information de notre cerveau : « The Magical Number 7+/-2 ». Si vous montrez à quelqu'un une forme inconnue et aléatoire et que vous montrez immédiatement après la même forme ou une forme légèrement différente, il sera en mesure de vous dire si les deux formes successives étaient identiques ou différentes. Il s'agit d'une discrimination relative, basée sur une comparaison par paires successives simultanées ou rapides. Mais si au lieu de cela on ne montre qu'une seule des deux formes, isolée, et demande laquelle des deux il s'agit, et si la différence entre elles est suffisamment petite, alors le spectateur sera incapable de dire laquelle il s'agit. Quelle doit être la différence ? La "différence juste perceptible" ou JND est la plus petite différence que nous pouvons détecter dans les comparaisons relatives par paires. Mais identifier une forme isolément, c'est faire une discrimination absolue (c'est-à-dire une catégorisation), et Miller a montré que les limites de la discrimination absolue étaient beaucoup plus étroites que celles de la discrimination relative.

 

Appelons discrimination relative « discrimination » et discrimination absolue « catégorisation ». Les différences doivent être beaucoup plus importantes pour identifier le type ou l'individualité de quelque chose que pour le distinguer de quelque chose d'autre qui est simultanément présent ou vu en succession rapide. Miller a souligné que si les différences ne concernent qu'une seule dimension sensorielle, telle que la taille, alors le nombre de JND que nous pouvons discriminer est très grand et la taille du JND est très petite et dépend de la dimension en question. En revanche, le nombre de régions le long de la dimension pour lesquelles nous pouvons catégoriser l'objet isolément est d'environ sept. Si nous essayons de subdiviser une dimension plus finement que cela, les erreurs de catégorisation augmentent. 

Cette limite de la capacité de catégorisation a aussi sa contrepartie dans la mémoire : si on nous donne une chaîne de chiffres à retenir, nous -- contrairement au S de Luria, qui peut se souvenir d'un très grand nombre d'entre eux -- ne pouvons en rappeler qu'environ 7. Si la chaîne est plus longtemps, les erreurs et les interférences augmentent.

 

21. Recodage et sélection des fonctionnalités. Existe-t-il un moyen d'augmenter notre capacité à faire des catégorisations ? Une façon consiste à ajouter plus de dimensions de variation; c'est probablement l'une des façons dont la synesthésie de S l'a aidé. Mais une dimensionnalité encore plus élevée a ses limites et n'approche jamais le pouvoir de résolution du JND de discrimination sensorielle.

 

Une autre façon d'augmenter la mémoire consiste à recoder. Miller a montré que si nous devons nous souvenir d'une chaîne de 0 et de 1, alors une chaîne de 7 éléments est à peu près notre limite. Mais si nous apprenons d'abord à recoder les chiffres en, disons, des triplets en code binaire, en utilisant leurs noms décimaux - de sorte que 001 s'appelle "un", 010 s'appelle "deux", 011 s'appelle "trois" etc., et nous surapprenons ce code, afin que nous puissions lire les chaînes automatiquement dans le nouveau code, puis nous pouvons nous souvenir de trois fois plus de chiffres. La limite 7 est toujours là, mais elle opère maintenant sur les triplets binaires dans lesquels nous avons recodé les chiffres : 101 n'est plus trois éléments : il est recodé en un « morceau », « cinq ». Nous avons appris à voir les chaînes en termes de gros morceaux -- et ce sont ces nouveaux morceaux qui sont maintenant soumis à la limite de 7, pas les chiffres binaires simples.

 

Recoder en surapprenant de plus gros morceaux est un moyen d'améliorer la mémoire par cœur pour les séquences, mais quelque chose de similaire fonctionne au niveau des caractéristiques des objets : bien que le nombre de caractéristiques que nos systèmes sensoriels peuvent détecter dans un objet ne soit pas infini, il est suffisamment grand pour que si nous voyons deux objets différents, partageant une ou quelques caractéristiques, nous ne pourrons pas nécessairement détecter qu'ils partagent des caractéristiques, donc qu'il s'agit du même type d'objet. Ceci est à nouveau un symptôme de la "sous-détermination" mentionnée précédemment, et est lié au soi-disant "problème d'attribution de crédits" dans l'apprentissage automatique : comment trouver la caractéristique ou la règle gagnante parmi de nombreuses possibilités (Sutton 1984) ?

 

Pour pouvoir abstraire les caractéristiques partagées, nous avons besoin d'une formation supervisée à la catégorisation (également appelée "apprentissage par renforcement"), avec des essais et des erreurs et des commentaires correctifs basés sur un échantillon suffisamment grand pour permettre à notre cerveau de résoudre le problème d'attribution de crédits et d'abstraire le invariants sous-jacents à la variation. Le résultat, si l'apprentissage est réussi, est que les entrées sont recodées, comme elles le sont dans la mémorisation de la chaîne de chiffres ; les fonctionnalités sont repondérées. Les objets qui sont de même espèce, parce qu'ils partagent des caractéristiques invariantes, sont par conséquent considérés comme plus similaires les uns aux autres ; et les objets de types différents, ne partageant pas les invariants, sont considérés comme plus différents.

 

Cette amélioration intra-catégorielle de la similarité perçue et l'amélioration inter-catégorielle des différences perçues est à nouveau la perception catégorique (CP) décrite précédemment dans le cas de la couleur. Les "ombres" sensorielles de fréquence, d'intensité et de saturation de la lumière ont été recodées et repondérées par nos récepteurs de couleur évolués afin de détecter et d'améliorer sélectivement les gammes spectrales que nous voyons par conséquent comme rouge, jaune, etc.

 

22. Perception catégorielle apprise et hypothèse de Whorf/Sapir. Lorsque la PC est un effet d'apprentissage, c'est une sorte d'effet whorfien. Whorf (1956) a suggéré que la façon dont les objets nous apparaissent dépend de la façon dont nous les trions et les nommons. Il a cité les couleurs comme un exemple de la façon dont la langue et la culture façonnent la façon dont les choses nous semblent, mais les preuves suggèrent que les frontières qualitatives des couleurs le long du spectre visible sont le résultat de détecteurs de caractéristiques innés plutôt que d'apprendre à trier et à nommer les couleurs dans manières particulières. Des effets de CP appris se produisent, mais ils sont plus subtils que la CP de couleur et ne peuvent être démontrés qu'en laboratoire psychophysique (Goldstone 1994, 2001; Livingston et al. 1998).

 

LES FIGURES SE TROUVENT DANS LA VERSION ANGLAISE

Figure 2 illustre cela pour une tâche dans laquelle les sujets ont appris la catégorisation des textures. Pour une tâche de catégorisation facile, il n'y avait pas de différence avant et après l'apprentissage, mais pour une tâche difficile, l'apprentissage a provoqué une compression intra-catégorie et une séparation entre catégories. (De Pevtzow & Harnad 1997). 

 

Figure 2. Gauche : Exemples des catégories de texture Easy (en haut) et Hard (en bas). Droite : Ratio de précision de la discrimination après/avant l'apprentissage (Post/Pré) dans la tâche facile et la tâche difficile pour les apprenants uniquement. La séparation est indiquée par un rapport >1 et la compression par un rapport <1. Les barres d'erreur indiquent l'erreur standard. Il existe une compression significative à l'intérieur et une séparation quasi significative entre pour la tâche difficile, mais une séparation non significative uniquement pour la tâche facile. (De Pevtzow & Harnad 1997.)

 

Pourtant, la CP apprise fonctionne à peu près de la même manière que la CP innée : certaines caractéristiques sont sélectivement améliorées, d'autres sont supprimées, faisant ainsi ressortir les points communs sous-jacents aux catégories ou aux types. Cela fonctionne comme une sorte de filtre d'entrée, siphonnant les catégories sur la base de leurs caractéristiques invariantes, et ignorant ou réduisant la saillance des caractéristiques non invariantes. Les mécanismes d'apprentissage supervisés et non supervisés discutés précédemment ont été proposés comme mécanismes potentiels de cette capacité d'abstraction, les interactions sensorimotrices nous aidant également à converger vers les bonnes affordances, à résoudre la sous-détermination et à résoudre le problème d'attribution de crédits.

 

Où cela laisse-t-il alors la distinction concrète/abstraite et le problème des intersections fuyantes ? En quel sens une primevère est-elle concrète et un nombre premier abstrait ? Et comment la « rondeur » est-elle plus abstraite que la « ronde », et la « propriété » plus abstraite encore ? L'identification d'une catégorie est toujours basée sur l'abstraction, comme nous le montre l'exemple de Funes. Reconnaître un mur comme un mur plutôt que, disons, comme un sol, nous oblige à abstraire certaines de ses caractéristiques, dont la verticalité, par opposition à l'horizontalité, est ici essentielle (et les interactions sensorimotrices et les affordances aident évidemment à réduire les options) . Mais dans les cas les plus difficiles et les plus sous-déterminés comme le sexage des poulets, qu'est-ce qui détermine quelles caractéristiques sont essentielles ? (L'essentiel de cette sous-détermination est là dans la blague du Maine : "Comment va ta femme ?" "Par rapport à quoi ?")

 

23. Réduction de l'incertitude. Bien que la catégorisation soit un jugement absolu, en ce qu'elle est basée sur l'identification d'un objet isolé, elle est relative dans un autre sens : les caractéristiques invariantes qui doivent être sélectivement abstraites dépendent entièrement des alternatives, parmi lesquelles l'objet isolé doit être trié. "Comparé à quoi?" L'invariance est relative à la variance. L'information, comme nous l'apprend la théorie formelle de l'information, est quelque chose qui réduit l'incertitude entre les alternatives. Ainsi, lorsque nous apprenons à catégoriser les choses, nous apprenons à trier les alternatives qui pourraient être confondues les unes avec les autres. Trier les murs des sols est plutôt trivial, car la différence d'affordance est déjà si évidente, mais trier le sexe des poussins nouveau-nés est plus difficile, et on dit même que les caractéristiques invariantes sont ineffables dans ce cas : elles ne peuvent pas être décrites avec des mots. C'est pourquoi la seule façon de les apprendre est de suivre des mois ou des années de formation de renforcement par essais et erreurs guidés par des commentaires sous la supervision de maîtres.

 

24. Apprentissage explicite. Mais ne confondons pas le fait qu'il est difficile de les rendre explicites verbalement pour le fait qu'il y a quelque chose d'invisible ou de mystérieux dans les caractéristiques sous-jacentes au sexage des poulets - ou dans toute autre catégorisation subtile. Biederman a fait une analyse informatique des abdomens de poussins nouveau-nés et a identifié les invariants gagnants décrits en termes de ses caractéristiques "geon" (Biederman & Shiffrar 1987). Il a ensuite été en mesure d'enseigner les caractéristiques et les règles par le biais d'instructions explicites à un échantillon de novices afin qu'en peu de temps, ils aient pu faire l'amour avec des filles au niveau de la ceinture brune, sinon au niveau de la ceinture noire. Selon les grands maîtres, ces progrès auraient dû leur prendre des mois de formation supervisée par essais et erreurs.

 

Donc, si nous acceptons que toute catégorisation, grande ou petite, dépende de l'abstraction sélective de certaines caractéristiques et de l'ignorance d'autres, alors toutes les catégories sont abstraites. Seul Funes vit dans le monde du concret, et c'est le monde du simple flux expérientiel passif d'un instant infiniment unique au suivant (comme le sable dans le vent). Car faire quoi que ce soit de systématique ou d'adaptatif avec l'input nécessiterait une abstraction, qu'elle soit innée ou apprise : la détection de la récurrence d'une chose du même genre.

 

25. La catégorisation est de l’abstraction. Qu'en est-il des degrés d'abstraction ? (Ayant, avec G.B. Shaw, identifié la profession de la catégorisation - l'abstraction - nous sommes maintenant simplement en train de marchander sur le prix.) Quand je trie les choses comme des instances d'une chose ronde et d'une chose non ronde, je trie les choses. Cette chose est ronde, cette chose n'est pas ronde. Lorsque je trie des choses en tant qu'instances de rondeur et de non-rondité, je trie des caractéristiques des choses. Ou plutôt, les choses que je trie sont des traits (appelés aussi propriétés, quand on n'en parle pas seulement au sens sensori-moteur). Et les caractéristiques elles-mêmes sont aussi des choses : la rondeur est une caractéristique, une pomme ne l'est pas (bien que toute chose, même une pomme, puisse aussi faire partie, donc une caractéristique, d'une autre chose).

 

26. Mise à la terre sensorimotrice : directe et dérivée. En principe, tout ce tri et cette dénomination pourraient s'appliquer directement aux entrées sensorimotrices ; mais une grande partie du tri et de la dénomination de ce que nous considérons comme des choses plus abstraites, comme les nombres, s'applique aux symboles plutôt qu'aux interactions sensorimotrices directes avec les objets. Je nomme ou décris un objet, puis je le catégorise : « Un nombre est une numéroté invariante » (ignorant la variation des genres ou des individus concernés). Cette simple proposition illustre déjà la valeur adaptative du langage : le langage permet d'acquérir indirectement de nouvelles catégories, par « ouï-dire », sans avoir à passer par le processus long et risqué de l'apprentissage direct par essais et erreurs. Quelqu'un qui connaît déjà peut juste me dire les caractéristiques d'un X qui me permettront de le reconnaître comme un X.

 

(C'est un peu comme ce que Biederman a fait pour ses sujets expérimentaux, en leur disant quelles caractéristiques utiliser pour le sexe des poulets, sauf que sa méthode n'était pas du pur ouï-dire, mais hybride : c'était du show-and-tell, pas seulement du tell, parce qu'il ne s'est pas contenté de décrire verbalement les caractéristiques critiques ; il les a également soulignées et illustrées visuellement. Il n'a pas d'abord préformé ses sujets sur la dénomination des géons, comme les sujets de Miller étaient préformés sur la dénomination des triplets binaires.)

 

27. L'avantage adaptatif du langage : ouï-dire. Si Biederman avait tout fait avec des mots, par pur ouï-dire, il aurait démontré le pouvoir complet et unique de transmission de catégories du langage : dans l'apprentissage sensori-moteur, l'abstraction se produit généralement de manière implicite. Le réseau neuronal dans le cerveau de l'apprenant fait tout le travail, et l'apprenant n'est que le bénéficiaire du résultat. La preuve en est que les personnes parfaitement capables de trier et de nommer correctement les choses ne peuvent généralement pas vous dire comment elles le font. Ils peuvent essayer de vous dire quelles fonctionnalités et règles ils utilisent, mais le plus souvent, leur explication est incomplète, voire tout simplement fausse. C'est ce qui fait des sciences cognitives une science ; car si nous pouvions tous expliquer, simplement par introspection, comment nous sommes capables de faire tout ce que nous pouvons faire, alors notre introspection aurait fait tout le travail des sciences cognitives pour cela (voir annexe 1). En pratique, nous ne pouvons généralement pas rendre explicites nos connaissances implicites, tout comme les maîtres sexeurs de poulets ne le pouvaient pas. Pourtant, quelle que soit la connaissance explicite que nous avons, nous pouvons la transmettre les uns aux autres beaucoup plus efficacement par ouï-dire que si nous devions l'apprendre à la dure, par une expérience d'essais et d'erreurs. C'est ce qui a donné au langage le puissant avantage adaptatif qu'il avait pour notre espèce Cangelosi & Harnad 2001; voir figure 3).

 

 LES FIGURES SE TROUVENT DANS LA VERSION ANGLAISE

Figure 3. Une simulation de vie artificielle de butineurs de champignons. Les catégories-champignons peuvent être apprises de deux manières différentes, par « labeur » sensorimoteur (apprentissage par essais et erreurs avec rétroaction des conséquences des erreurs) ou par « vol » linguistique (apprentissage en entendant la catégorie décrite ; ouï-dire). En très peu de générations, les « voleurs » linguistiques survivent et se reproduisent plus que les travailleurs sensori-moteurs. (Mais notez que les catégories basées sur la langue doivent être fondées sur des catégories sensorimotrices : il ne peut pas s'agir de vol jusqu'au bout.) (D'après Cangelosi & Harnad 2001.)

 

Où cela laisse-t-il alors les nombres premiers, par rapport aux primevères ? A peu près à égalité, vraiment. Pour ma part, je ne sais pas ce que sont les primevères. Je ne suis même pas sûr que ce soient des roses. Mais je suis sûr que je pourrais découvrir, soit par une expérience directe d'essais et d'erreurs, mes suppositions corrigées par les commentaires des maîtres, et mes réseaux de neurones internes résolvant activement et implicitement le problème d'attribution de crédits pour moi, convergeant finalement vers les invariants gagnants ; ou, si les grands maîtres sont disposés et capables de rendre les invariants explicites pour moi par des mots, je pourrais découvrir ce que sont les primevères par ouï-dire. Cela ne peut pas être du ouï-dire jusqu'au bout, cependant. Il aura fallu que j'apprenne des choses au niveau du sol de manière dure, sensorimotrice, pour que les mots utilisés par les grands maîtres aient un sens pour moi. Les mots devraient nommer des catégories que j'ai déjà. 

Est-ce différent avec les nombres premiers ? Je sais qu'ils sont une sorte de numéro. Il faudra que je me fasse parler de l'affacturage, et je devrai probablement l'essayer sur certains nombres pour voir ce qu'il permet, avant de reconnaître que certains types de nombres permettent l'affacturage et d'autres non. Il en va de même pour découvrir ce que la preuve déductive permet, lorsqu'ils m'en disent plus sur d'autres caractéristiques des nombres premiers. J'aurai dû apprendre les nombres eux-mêmes de première main, supervisés par des rétroactions en nombres absolument discriminants, tels que fournis par les arithméticiens ceinture jaune - car ici aussi, il ne peut pas s'agir de ouï-dire jusqu'au bout. (J'aurai également besoin de faire l'expérience du comptage de première main, et en particulier de ce que "l'ajout d'un" à quelque chose, encore et encore, offre.)

 

28. Discriminables et Affordances absolues. Mais y a-t-il un sens dans lequel les primevères ou leurs caractéristiques sont plus « réelles » que les nombres premiers et leurs caractéristiques ? Y a-t-il plus de raisons de douter que l'un soit vraiment "là-bas" que l'autre ? Le sens dans lequel l'un d'eux est là-bas est qu'ils sont tous les deux absolus discriminables : les deux ont des affordances sensorimotrices que je peux détecter, soit implicitement, par une expérience concrète d'essais et d'erreurs, guidée par une rétroaction corrective (pas nécessairement d'un enseignant en direct , soit dit en passant : si, par exemple, les primevères étaient comestibles, et toutes les autres fleurs toxiques, ou les nombres premiers étaient fongibles, et toutes les autres sans valeur, le retour des conséquences des interactions sensorimotrices suffirait à la surveillance) ; ou explicitement, à travers des descriptions verbales (tant que les mots utilisés sont déjà fondés, directement ou récursivement, sur une expérience concrète d'essais et d'erreurs ; Harnad 1990). Les affordances ne sont pas imposées par moi ; ce sont des contraintes "externes", des propriétés du monde extérieur, si vous voulez, qui régissent ses interactions sensorimotrices avec moi. Et ce que je sais du monde extérieur n'est que par ce qu'il offre (à mes sens, et à toutes les prothèses sensorielles que je peux utiliser pour les augmenter). Que 2+2 soit 4 plutôt que 5 est donc autant une contrainte sensorimotrice que le fait que les projections des objets les plus proches se déplacent plus vite le long de ma rétine que celles des objets plus éloignés.

 

29. La science cognitive n'est pas de l’ontologie. Les simples scientifiques cognitifs (les roboticiens sensorimoteurs, en fait) ne devraient pas du tout prétendre faire de l'ontologie, ou devraient au moins restreindre leurs prétentions ontiques à leurs propres variables et termes de l'art - dans ce cas, les systèmes sensorimoteurs et leurs entrées et sorties. De ce fait, tout ce qui "sous-tend" les discriminations absolues - quels que soient les objets, événements ou états distaux qui sont à l'origine des projections proximales sur nos surfaces sensorielles qui nous permettent de les voir, de les reconnaître, de les manipuler, de les nommer et de les décrire - - sont tous sur un pied d'égalité ontologique ; et les discriminations plus subtiles sont inabordables.

 

Où cela laisse-t-il le bien, le vrai et le beau, et leurs invariants sensori-moteurs ? Comme les nombres premiers, ces catégories sont acquises en grande partie par ouï-dire. Les éthiciens, les juristes et les théologiens (sans parler de nos parents) nous disent explicitement quels types d'actes et de personnes sont bons et quels types ne le sont pas, et pourquoi (mais les mots dans leurs descriptions explicites doivent eux-mêmes être fondés, soit directement, soit récursivement , dans les invariants sensori-moteurs : encore une fois, les catégories ne peuvent pas être ouï-dire jusqu'en bas.). Nous pouvons aussi goûter ce qui est bon et ce qui ne l'est pas directement avec nos sens, bien sûr, en goûtant à certaines de leurs conséquences. Nous nous fions peut-être davantage à nos propres goûts sensoriels dans le cas de la beauté, plutôt qu'aux ouï-dire des esthéticiennes ou des critiques, bien que nous soyons sans doute influencés par eux et par leurs théories aussi. Les catégories « vrai » et « faux » que nous échantillonnons amplement par l'expérience sensorielle directe, mais là aussi, la façon dont nous les connaissons est influencée par des ouï-dire ; et bien sûr la théorie formelle de la vérité ressemble de plus en plus à la théorie des nombres premiers, les deux étant contraintes par les affordances de la cohérence formelle.

 

30. La cognition est de la catégorisation. Mais, au fond, toutes nos catégories consistent en des façons dont nous nous comportons différemment envers différents types de choses, que ce soit les choses que nous mangeons ou ne mangeons pas, avec lesquelles nous nous accouplons ou que nous fuyons, ou les choses que nous décrivons, à travers notre langage, comme nombres premiers, affordances, discriminables absolus ou vérités. Et n'est-ce pas tout ce que la cognition est pour - et à propos de? 

 

LES RÉFÉRENCES SE TROUVENT DANS LA VERSION ANGLAISE

-------------------------


Texte 2: TRADUCTION

Harnad, S. (2003b) Categorical Perception. Encyclopedia of Cognitive ScienceNature 
RÉSUMÉ : Les différences peuvent être perçues comme graduelles et quantitatives, comme avec différentes nuances de gris, ou elles peuvent être perçues comme plus abruptes et qualitatives, comme avec différentes couleurs. La première est appelée perception continue et la seconde perception catégorique. La perception catégorielle (PC) peut être innée ou peut être induite par l'apprentissage. Autrefois considérée comme propre à la parole et à la perception des couleurs, la PC s'avère être beaucoup plus générale et peut être liée à la façon dont les réseaux de neurones de notre cerveau détectent les caractéristiques qui nous permettent de trier les choses dans le monde dans leurs catégories appropriées, «déformer» les similitudes et les différences perçues de manière à compresser certaines choses dans la même catégorie et à en séparer d'autres dans différentes catégories.

Catégories : catégorique et continue. Une catégorie, ou genre, est un ensemble de choses. L'appartenance à la catégorie peut être (1) tout ou rien, comme pour "oiseau": quelque chose est soit un oiseau, soit ce n'est pas un oiseau; un pingouin est 100% oiseau, un ornithorynque est 100% non-oiseau. Dans ce cas, nous appellerions la catégorie "catégorielle". Ou l'adhésion peut être (2) une question de degré, comme avec "grand": certaines choses sont plus grandes et d'autres moins grandes. Dans ce cas, la catégorie est "continue" (ou plutôt, le degré d'appartenance correspond à un certain point le long d'un continuum). Il y a aussi des effets de gamme ou de contexte : les éléphants sont relativement gros dans le contexte des animaux, relativement petits dans le contexte des corps en général, si nous incluons les planètes.

De nombreuses catégories, cependant, en particulier les catégories sensorimotrices concrètes (les choses que nous pouvons voir et toucher), sont un mélange des deux : catégorielles à un niveau de grossissement quotidien, mais continues à un niveau plus microscopique. Les catégories de couleurs en sont de bons exemples : les rouges centraux sont clairement des rouges, et non des nuances de jaune. Mais dans la région orange du continuum spectral, le rouge/jaune est une question de degré ; des effets de contexte et de contraste peuvent également déplacer quelque peu ces régions. Peut-être même avec "oiseau", un artiste ou un ingénieur génétique pourrait-il concevoir des cas intermédiaires dans lesquels leur "état d'oiseau" n'était qu'une question de degré.

Résoudre la "confusion florissante et bourdonnante". Les catégories sont importantes car elles déterminent comment nous voyons et agissons sur le monde. Comme l'a noté William James, nous ne voyons pas un continuum de « confusion florissante et bourdonnante », mais un monde ordonné d'objets discrets. Certaines de ces catégories sont "préparées" à l'avance par l'évolution : Le cerveau de la grenouille naît déjà capable de détecter les "mouches" ; il n'a besoin que d'une exposition normale plutôt que d'un apprentissage spécial pour les reconnaître et les attraper. Les humains ont aussi de tels détecteurs de catégories innés : le visage humain lui-même en est probablement un exemple. Il en va de même pour nos catégories de couleurs de base, bien que selon «l'hypothèse de Whorf» (Whorf 1956; également appelée hypothèse de la «relativité linguistique»), les couleurs sont déterminées par la façon dont notre culture et notre langue subdivisent le spectre (nous y reviendrons ).

Mais si quelqu'un ouvre un dictionnaire au hasard et choisit un mot de contenu, il y a de fortes chances qu'il nomme une catégorie que nous avons appris à détecter, plutôt qu'une catégorie que notre cerveau a été naturellement préparé à l'avance par l'évolution à détecter. Le visage humain générique est peut-être une catégorie innée pour nous, peut-être même les diverses émotions de base qu'il peut exprimer, mais sûrement toutes les personnes spécifiques que nous connaissons et pouvons nommer ne le sont pas. "Rouge" et "jaune" peuvent être innés, mais "écarlate" et "cramoisi" ?

La théorie motrice de la perception de la parole. Et qu'en est-il des éléments constitutifs mêmes du langage que nous utilisons pour nommer les catégories : nos sons de parole -- ba, da, ga -- sont-ils innés ou appris ? La première question à laquelle nous devons répondre à leur sujet est de savoir s'il s'agit de catégories catégorielles ou simplement de points arbitraires le long d'un continuum. Il s'avère que si l'on analyse le spectrogramme sonore de ba et pa, par exemple, on trouve que les deux se situent le long d'un continuum acoustique appelé "temps d'apparition de la voix". Avec une technique similaire à celle utilisée pour « transformer » des images visuelles en continu les unes dans les autres, il est possible de « transformer » progressivement un ba en un pa et au-delà en augmentant progressivement le paramètre de voicing.

Liberman et al. (1957) ont rapporté que lorsque les gens écoutent des sons qui varient le long du continuum de voix, ils n'entendent que des ba et des pa, rien entre les deux. Cet effet - dans lequel une qualité perçue saute brusquement d'une catégorie à une autre à un certain point le long d'un continuum, au lieu de changer progressivement - il l'a surnommé "perception catégorique" (PC). Il a suggéré que la PC était unique à la parole, que la PC rendait la parole spéciale et, dans ce qu'on a appelé « la théorie motrice de la perception de la parole », il a suggéré que l'explication de la PC résidait dans l'anatomie de la production de la parole :

Selon la théorie motrice (maintenant abandonnée), la raison pour laquelle nous percevons un changement brusque entre ba et pa est que la façon dont nous entendons les sons de la parole est influencée par la façon dont nous les produisons lorsque nous parlons. Ce qui varie le long de ce continuum, c'est le temps d'apparition de la voix : le "b" de ba est voisé et le "p" de pa ne l'est pas. Mais contrairement à l'appareil de « morphing » synthétique, notre appareil vocal naturel n'est pas capable de produire quoi que ce soit entre ba et pa. Alors quand j'entends un son du continuum de voisement, mon cerveau le perçoit en essayant de le faire correspondre avec ce qu'il aurait dû faire pour le produire. Puisque la seule chose que je peux produire est ba ou pa , je percevrai n'importe lequel des stimuli synthétiques le long du continuum comme ba ou pa, selon celui dont il est le plus proche. Un effet PC similaire est trouvé avec ba/da ; ceux-ci s'étendent aussi sur un continuum acoustiquement, mais vocalement, ba se forme avec les deux lèvres, da avec la pointe de la langue et le palais dur, et notre anatomie n'admet aucun intermédiaire.

La théorie motrice de la perception de la parole expliquait en quoi la parole était spéciale et pourquoi les sons de la parole étaient perçus catégoriquement : la perception sensorielle est médiatisée par la production motrice. Partout où la production est catégorique, la perception sera catégorique ; là où la production est continue, la perception sera continue. Et en effet, les catégories de voyelles comme a/u se sont avérées beaucoup moins catégorielles que ba/pa ou ba/da. (Moins catégorique, mais pas tout à fait continu non plus : nous y reviendrons.)

Distinction acquise. Si la production motrice médiatise la perception sensorielle, alors on suppose que cet effet PC est le résultat de l'apprentissage de la production de la parole. Eimas et al. (1971), cependant, ont constaté que les nourrissons avaient déjà une PC de la parole avant de commencer à parler. Peut-être alors est-ce un effet inné, évolué pour nous "préparer" à apprendre à parler. Mais Kuhl (1987) a découvert que les chinchillas ont également une "PC de la parole" même s'ils n'apprennent jamais à parler et n'ont vraisemblablement pas évolué pour le faire. Lane (1965) a ensuite montré que les effets de PC peuvent être induits par l'apprentissage seul, avec un continuum purement sensoriel (visuel) dans lequel il n'y a pas de discontinuité de production motrice pour médier la discontinuité perceptive. Il a conclu que la PC de la parole n'est pas spéciale après tout, mais simplement un cas particulier de la démonstration classique de Lawrence selon laquelle les stimuli auxquels vous apprenez à faire une réponse différente deviennent plus distinctifs et les stimuli auxquels vous apprenez à faire la même réponse deviennent plus similaires.

Il est également devenu clair que PC n'était pas tout à fait l'effet tout ou rien que Liberman avait pensé à l'origine : ce n'est pas que tous les pa sont indiscernables et tous les ba sont indiscernables : nous pouvons entendre les différences, tout comme nous pouvons voir les différences. entre différentes nuances de rouge. C'est juste que les différences intra-catégories (pa1/pa2 ou red1/red2) sonnent/semblent beaucoup plus petites que les différences inter-catégories (pa2/ba1 ou red2/yellow1), même lorsque la taille des différences physiques sous-jacentes (voicing , longueur d'onde) sont en fait les mêmes.

Compression intra-catégorie et séparation entre catégories. Cela a évolué vers la définition contemporaine de la PC, qui n'est plus propre à la parole ni dépendante de la théorie motrice : la PC se produit chaque fois que les différences perçues au sein d'une catégorie sont compressées et / ou que les différences entre les catégories sont séparées, par rapport à une base de comparaison. La ligne de base peut être la taille réelle des différences physiques impliquées ou, dans le cas de la PC apprise, il peut s'agir de la similitude ou de la discriminabilité perçue au sein et entre les catégories avant que les catégories ne soient apprises, par rapport à après.

L'expérience PC apprise typique serait la suivante : un ensemble de stimuli est testé (généralement par paires) pour la similarité ou la discriminabilité. En cas de similarité, une mise à l'échelle multidimensionnelle peut être utilisée pour mettre à l'échelle la similarité par paires évaluée de l'ensemble de stimuli. Dans le cas de la discriminabilité, des jugements identiques/différents et une analyse de détection de signal peuvent être utilisés pour estimer la discriminabilité par paire d'un ensemble de stimuli. Ensuite, les mêmes sujets ou un ensemble différent sont entraînés, à l'aide d'essais et d'erreurs et de commentaires correctifs, pour trier les stimuli en deux catégories ou plus. Une fois la catégorisation apprise, la similarité ou la discriminabilité sont à nouveau testées et comparées aux données non formées. S'il y a une compression significative au sein d'une catégorie et/ou une séparation entre catégories, cela est défini de manière opérationnelle comme PC (Harnad 1987).

L'hypothèse de Whorf/Sapir. Nous pouvons maintenant revenir à la fois à "l'hypothèse de Whorf" et au PC "plus faible" pour les voyelles : selon l'hypothèse de Whorf (dont les effets de similarité/distinction acquis par Lawrence seraient simplement un cas particulier), les couleurs ne sont perçues catégoriquement que parce qu'elles se produisent à nommer catégoriquement : nos subdivisions du spectre sont arbitraires, apprises et varient selon les cultures et les langues. Mais Berlin & Kay (1969) ont montré que ce n'était pas le cas : non seulement la plupart des cultures et des langues subdivisent et nomment le spectre de couleurs de la même manière, mais même pour ceux qui ne le font pas, les régions de compression et de séparation sont les mêmes. Nous voyons tous les bleus comme plus semblables et les verts comme plus semblables, avec une frontière floue entre eux, que nous ayons ou non nommé la différence. Il n'y a donc pas d'effet d'apprentissage whorfien avec les couleurs : Ou y en a-t-il ?

PC évolué génétiquement. Tout d'abord, revenons aux voyelles. La signature du PC est la compression intra-catégorielle et/ou la séparation inter-catégorielle. La taille de l'effet PC n'est qu'un facteur d'échelle ; c'est cet "effet d'accordéon" de compression/séparation qui est le trait distinctif de PC. A cet égard, l'effet PC "plus faible" pour les voyelles, dont la production motrice est continue plutôt que catégorique, mais dont la perception est par ce critère catégorique, est tout autant un effet PC que les effets ba/pa et ba/da . Mais, comme pour les couleurs, il semble que l'effet soit inné : nos détecteurs de catégories sensorielles pour les couleurs et les sons de la parole naissent déjà "biaisés" par l'évolution : notre spectre perçu de couleurs et de sons de la parole est déjà "déformé" par ces compressions/séparations.

PC apprise. Est-ce tout ce qu'il y a à faire? Apparemment non. Il existe encore les démonstrations de Lane/Lawrence, récemment reproduites et étendues par Goldstone (1994), selon lesquelles la PC peut être induite par l'apprentissage seul. Et il y a aussi les innombrables catégories cataloguées dans nos dictionnaires qui ne pourraient pas être innées (bien que des théoriciens nativistes comme Fodor [1983] aient parfois semblé suggérer que toutes nos catégories sont innées). Il y a même des démonstrations récentes que bien que les catégories primaires de couleur et de parole soient probablement innées, leurs frontières peuvent être modifiées ou même perdues à la suite de l'apprentissage, et des frontières secondaires plus faibles peuvent être générées par l'apprentissage seul (Roberson et al. 2000).

Peut-être que PC remplit une fonction utile dans la catégorisation ? Dans le cas de la PC innée, nos détecteurs sensoriels catégoriquement biaisés sélectionnent leurs catégories préparées de couleurs et de sons de la parole beaucoup plus facilement et de manière fiable que si notre perception avait été continue. Pourrait-il en être de même pour notre répertoire de catégories apprises ?

Modèles informatiques et neuronaux de la PC. La modélisation informatique (Tijsseling & Harnad 1997; Damper & Harnad 2000) a montré que de nombreux types de mécanismes d'apprentissage de catégorie (par exemple, à la fois la rétropropagation et les réseaux compétitifs) affichent des effets de type PC. Dans les réseaux de rétropropagation, les modèles d'activation d'unités cachées qui "représentent" une entrée accumulent une compression intra-catégorie et une séparation entre catégories au fur et à mesure qu'ils apprennent; d'autres types de filets affichent des effets similaires. La PC semble être un moyen pour parvenir à une fin : les entrées qui diffèrent entre elles sont "compressées" dans des représentations internes similaires si elles doivent toutes générer la même sortie ; et ils deviennent plus séparés s'ils doivent générer des sorties différentes. Le "biais" du réseau est ce qui filtre les entrées sur leur catégorie de sortie correcte. Les réseaux accomplissent cela en détectant de manière sélective (après de nombreux essais et erreurs, guidés par un retour de correction d'erreurs) les caractéristiques invariantes qui sont partagées par les membres de la même catégorie et qui les distinguent de manière fiable des membres de différentes catégories ; les filets apprennent à ignorer toutes les autres variations comme non pertinentes pour la catégorisation.

On sait encore très peu de choses sur les mécanismes cérébraux de la perception et de l'apprentissage des catégories. Les modèles informatiques sont en réalité des hypothèses causales sur ce que le cerveau pourrait faire. Les données neuronales fournissent des corrélats de PC et d'apprentissage (Sharma & Dorman 1999). Les différences entre les potentiels liés aux événements enregistrés à partir du cerveau se sont avérées être corrélées avec les différences dans la catégorie perçue du stimulus vu par le sujet. Des études d'imagerie neurale ont montré que ces effets sont localisés et même latéralisés à certaines régions du cerveau chez les sujets qui ont réussi à apprendre la catégorie, et sont absents chez les sujets qui ne l'ont pas fait (Seger et al. 2000).

PC induite par le langage. La PC innée et apprise sont des effets sensori-moteurs : les biais de compression/séparation sont des biais sensori-moteurs, et ont probablement des origines sensori-motrices, que ce soit au cours de l'histoire de vie sensorimotrice de l'organisme, dans le cas de la PC apprise, ou de l'histoire de vie sensorimotrice de l'organisme. espèces, dans le cas de la PC innée. Les modèles d'E/S de réseau neuronal sont également compatibles avec ce fait : leurs biais d'E/S dérivent de leur historique d'E/S. Mais quand on regarde notre répertoire de catégories dans un dictionnaire, il est très peu probable que beaucoup d'entre elles aient eu une histoire sensorimotrice directe de notre vivant, et encore moins du vivant de nos ancêtres. Combien d'entre nous ont vu une licorne dans la vraie vie ? Nous avons vu des images d'eux, mais qu'avaient vu ceux qui ont dessiné ces images pour la première fois ? Et qu'en est-il des catégories que je ne peux ni dessiner ni voir (ni goûter ni toucher) : Qu'en est-il des catégories les plus abstraites, telles que la bonté et la vérité ?

Certaines de nos catégories doivent provenir d'une autre source que l'expérience sensorimotrice directe, et nous revenons ici au langage et à l'hypothèse de Whorf : les catégories, et les PC qui les accompagnent, peuvent-elles être acquises uniquement par le langage ? Encore une fois, certains résultats de simulation de réseaux de neurones suggèrent qu'une fois qu'un ensemble de noms de catégories a été "fondé" par l'expérience sensorimotrice directe, ils peuvent être combinés en combinaisons booléennes (homme = homme et humain) et en combinaisons d'ordre encore plus élevé (baccalauréat = célibataire et homme) qui non seulement sélectionnent les catégories plus abstraites et d'ordre supérieur à la manière des détecteurs sensori-moteurs directs, mais héritent également de leurs effets PC, tout en générant certains des leurs. Le célibataire hérite de la compression/séparation du célibataire et de l'homme, et ajoute une couche de séparation/compression qui lui est propre (Cangelosi et al. 2000, Cangelosi & Harnad 2001).

Ces effets PC induits par le langage restent à démontrer directement chez les sujets humains ; jusqu'à présent, seules les PC sensorimotrices apprises et innées ont été démontrées (Pevtzow & Harnad 1997; Livingston et al. 1998). Ce dernier montre le pouvoir whorfien de la dénomination et de la catégorisation, en déformant notre perception du monde. Cela suffit pour réhabiliter l'hypothèse de Whorf de son échec apparent sur les termes de couleur (et peut-être aussi de son échec apparent sur les termes eskimo snow, Pullum 1989), mais pour montrer qu'il s'agit d'un effet de langage à part entière, et pas simplement d'un vocabulaire. En effet, il faudra montrer que notre perception du monde peut aussi être faussée, non seulement par la façon dont les choses sont nommées mais par ce qu'on nous en dit.


2021: VIDÉO DU Cours 16 mars

PPT 2019:






résumé langue anglaise:




22 comments:

  1. Avant d'afficher ta ciélo, il faut toujours lire les ciélos des autres (et surtout mes répliques) pour ne pas répéter ce qui a dèjà été dit.

    Commencer chaque semaine en lisant le résumé (c. 1000 mots) au haut de sa page dans ce blogue. Préciser toujours sur quoi ta ciélo est basée: quelle lecture, ou quelle vidéo du cours?

    ReplyDelete
  2. Percevoir le monde en catégories est essentiel pour comprendre la réalité. Le cerveau ne traite pas une infinité de petites différences. Il simplifie l’information pour éviter la confusion.

    Deux types de perception existent. La perception continue concerne des variations graduelles, comme des nuances de couleur. La perception catégorielle correspond à des distinctions nettes, par exemple, un objet est un oiseau ou ne l’est pas. En pratique, les deux coexistent : au centre d’une catégorie, tout est clair, mais aux frontières, la distinction devient floue. Donc, le cerveau agit comme un système de tri qui rapproche les ressemblances et accentue les différences.

    Certaines catégories semblent présentes très tôt, comme les visages ou certains sons du langage, mais la plupart sont apprises. L’expérience modifie la perception : répondre différemment à deux choses les rend plus distinctes, alors qu’une même réponse les rend semblables. Donc, apprendre change la façon de voir. Aussi, le langage influence la perception. Nommer une catégorie renforce ou crée des frontières. Ainsi, nous percevons avec nos sens, mais aussi avec nos connaissances et notre culture.

    Percevoir revient donc à organiser le monde pour agir rapidement. Les catégories facilitent les décisions, mais elles peuvent aussi exagérer les différences, y compris entre les personnes et les idées.

    ReplyDelete
    Replies
    1. NAOMIE, bon résumé. La perception catégorielle des couleurs est innée (donc évoluée— câblée dans nos capteurs de traits sensoriels et les processus antagonistes de notre système visuel). La perception catégorielle des phonèmes (/ba/, /da/, /ga/) et des demi-tons musicaux (do, do#, ré) est en partie innée (évoluée) et en partie apprise (par exposition, essai, erreurs, et renforcement).

      Exercice (à tous): échantillionne un dictionnaire pour estimer la proportion des référents des mots de contenu (noms, verbes, adjectifs) qui sont probablement (1a) innés ou (1b) appris, et (2a) séparés par un seuil sensoriel sur un continuum ou (2b) distingués par des traits sensoriel distinctifs (couleur, forme, odeur, goût).

      Delete
    2. En faisant l’exercice avec quelques mots pris au hasard dans un dictionnaire, je remarque que la plupart des catégories sont apprises, et non innées.

      Les catégories innées semblent peu nombreuses. Elles sont surtout liées à nos capacités naturelles, comme certaines couleurs, les visages ou certains sons. Par contre, la majorité des mots (objets, actions, idées) correspondent à des catégories que nous avons apprises avec l’expérience et le langage.

      Pour le type de distinction, il y a aussi une différence. Certaines catégories reposent sur un continuum, comme les couleurs ou les sons, où la différence se fait progressivement. Mais plusieurs autres catégories reposent plutôt sur des caractéristiques précises, comme la forme ou la fonction (par exemple : une chaise, courir, couper). Dans ces cas, ce n’est pas une seule différence qui compte, mais un ensemble de traits.

      Cet exercice me fait comprendre que notre façon de voir le monde ne vient pas seulement de nos sens. Elle dépend beaucoup de l’apprentissage. Nous apprenons à retenir certains éléments importants et à ignorer les autres. Le langage est aussi très important, car il nous aide à organiser et à partager ces catégories.

      En lien avec votre commentaire, je comprends que les catégories innées donnent une base, mais que la majorité se construit avec le temps. Donc, la perception des catégories n’est pas seulement naturelle, mais elle se développe aussi grâce à l’expérience, ce qui change notre façon de percevoir le monde.

      Delete
  3. Harnad dit que catégoriser, c’est agir différemment selon la sorte de chose : faire la bonne action avec le bon type d’objet (ex. s’asseoir sur une chaise, fuir un danger). Pour y arriver, on doit abstraire : ignorer des détails et garder ce qui revient (invariants). L’exemple de Funes montre que si on n’oublie rien, on ne peut plus généraliser, donc on ne peut plus bien catégoriser. L’apprentissage (essais-erreurs + feedback) et le langage aident à trouver les bonnes catégories, mais les mots doivent rester ancrés dans l’expérience.

    ReplyDelete
    Replies
    1. SARAH, bon résumé. L'aspect le plus important de la catégorisation concerne comment la catégorie s'apprend. On apprend directement par essai et erreur à détecter les attributs sensori-moteurs qui distinguent les membres d'une catégorie de ses non-membres ; on apprend en même temps à ignorer les attributs non pertinents. C'est ça l'abstraction perceptive. Elle crée une sorte de « capteur sélectif »

      La contribution du langage dans tout ça, c'est qu'on apprend aussi les noms des catégories, ainsi que les noms des attributs distinctifs des catégories.
      Car les attributs sont aussi des catégories (actuelles ou potentielles), qu'on peut apprendre, et qui peuvent aussi porter des noms, qu'on peut également apprendre.

      Ainsi, en combinant et recombinant les noms des attributs afin de décrire les catégories, on peut faire apprendre verbalement une nouvelle catégorie à ceux qui ne l'ont pas encore apprise en direct.

      Le langage permet ainsi d'apprendre et d'enseigner les catégories indirectement par instruction verbale. Le langage est un outil révolutionnaire. [Peux-tu expliquer cette relation entre l'ancrage direct et l'ancrage indirect des mots et sa relation au problème de l'ancrage des symboles ?]

      Delete
    2. Ce que je retiens surtout de cette semaine, c’est que catégoriser n’est pas seulement mettre des choses dans des classes abstraites, mais plutôt agir différemment envers différents types de choses. Par exemple, reconnaître une chaise, c’est savoir qu’on peut s’asseoir dessus. Catégoriser revient donc à apprendre quels attributs sensorimoteurs sont pertinents pour distinguer une catégorie de ce qui n’en fait pas partie.
      Cet apprentissage se fait d’abord par essais et erreurs. Avec le temps, notre système sensorimoteur apprend à détecter certains invariants et à ignorer les détails non pertinents. Il s'agit de l’abstraction perceptive.

      Le langage change ensuite beaucoup de choses. Une fois que certaines catégories et certains attributs sont déjà ancrés dans l’expérience sensorimotrice, on peut utiliser leurs noms pour enseigner de nouvelles catégories verbalement. Par exemple, on peut apprendre ce qu’est un zèbre comme "cheval + rayures".
      Mais cela ne peut pas toujours fonctionner. Certains mots doivent être ancrés directement dans l’expérience, sinon on aurait seulement des mots définis par d’autres mots. C’est le problème de l’ancrage des symboles. Le langage permet donc d’apprendre des catégories indirectement, mais seulement parce qu’il repose sur une base sensorimotrice déjà ancrée dans le monde.

      Delete
    3. Pour répondre à votre question, l’ancrage direct se produit lorsque nous apprenons une catégorie par expérience sensorimotrice, grâce à des essais et erreurs. Nous apprenons alors à détecter les attributs pertinents qui distinguent les membres d’une catégorie de ses non-membres et à ignorer les attributs non pertinents. L’ancrage indirect se fait par le langage : quelqu’un peut décrire les attributs d’une catégorie en utilisant des mots que nous connaissons déjà. Comme les attributs sont eux-mêmes des catégories, on peut combiner leurs noms pour expliquer une nouvelle catégorie. Cela répond au problème de l’ancrage des symboles : les mots obtiennent leur sens parce qu’ils sont finalement reliés à des catégories apprises directement par l’expérience.

      Delete
    4. ADAM, excellent résumé. C'est quoi ta réplique à l'objection que c'est impossible d'ancrer les catégories « abstraites » comme « démocratie, justice, vérité » ?

      SARAH, tu as bien saisi. C'est quoi le lien entre notre définition de ce que c'est de catégoriser et l'apprentissage des attributs distinctifs d'une catégorie par essai et erreur?

      Delete


  4. Tous les organismes sont des systèmes sensorimoteurs. Nos surfaces sensorielles entrent en contact avec le monde et nous permettent d’interagir avec. Notre interaction avec le monde dépend de la capacité de nos sens qui eux sont limités. Nous percevons certaines propriétés physiques des objets qui demeurent invariantes peut-importe leur configuration. La catégorisation est l’interaction systématique et différentielle entre un système sensorimoteur et son monde. Ce système est adaptable à travers le temps et est donc lié à l'apprentissage. Certaines formes de catégorisations semblent être innées (théorie d’UG de Chomsky) mais la majorité de nos catégorisations sont apprises. Le système apprend en échantillonnant des donnés et en produisant une sortie en rétroaction avec les conséquences des entrées reçues. Il existe deux formes d’apprentissages. L’apprentissage supervisé qui est guidé par l’environnement et permet l’ajustement des sorties pour réduire les erreurs. Ensuite il y a l’apprentissage non-supervisé qui ne contient pas de signaux d’erreur et donc le système regroupe les catégories par lui-même.

    ReplyDelete
    Replies
    1. BENJAMIN, il faute expliquer plutôt que faire une liste de note. Je dois pouvoir constater ce que tu as compris. Que sont l'apprentissage supervisé et n on supervisé?

      Delete
  5. Harnad explique que catégoriser consiste à déterminer quelles caractéristiques permettent de regrouper certaines choses ensemble plutôt que d’autres, ce qui est difficile parce qu’un même objet peut appartenir à plusieurs catégories selon le contexte. Le problème de la catégorisation est donc sous-déterminé : les mêmes entrées sensorielles peuvent être triées de plusieurs façons possibles, et il faut apprendre quelles caractéristiques sont pertinentes. Une fois ces caractéristiques apprises, la perception change : les objets d’une même catégorie paraissent plus semblables et ceux de catégories différentes plus distincts. Harnad appelle ce phénomène la perception catégorielle. Aussi, certaines catégories peuvent être apprises indirectement par le langage, lorsque quelqu’un décrit verbalement les caractéristiques qui permettent de les reconnaître.

    ReplyDelete
    Replies
    1. ALEXANDRA, c’est quoi catégoriser ? Ce n’est pas « regrouper ». Ce qu’on doit faire, c’est apprendre, par essai et erreur, à détecter (comme tu le dis) les caractéristiques qui distinguent les catégories (selon le contexte) : un même objet peut être membre de différentes catégories. Peux-tu donner des exemples ? (L’île des champignons.)

      Normalement, il faut simplement apprendre à détecter les caractéristiques distinctives pour différencier les champignons comestibles des champignons vénéneux, car les caractéristiques sont elles aussi des catégories ! Mais si elles sont longues et difficiles à détecter, cela peut modifier la perception de sorte qu’elles sautent aux yeux (et c’est cela, la perception catégorielle apprise).

      Mais la chose principale qu’on peut faire avec les caractéristiques distinctives (puisqu’elles sont elles aussi des catégories), c’est de leur attribuer un nom : ainsi, quelqu’un qui sait déjà quelles sont les caractéristiques distinctives des champignons comestibles peut les décrire en mots au naufragé. Celui-ci pourra alors se nourrir sans recourir à l’essai et erreur. (Mais pour cela, il faut que le naufragé ait déjà appris le référent du nom des caractéristiques.)

      Delete
  6. Dans les deux textes de Harnad sur la catégorisation et la perception catégorielle, ce qui me paraît particulièrement intéressant est l’idée que l’apprentissage d’une catégorie peut changer la manière dont certaines différences sont perçues. Au départ, certaines différences sensorielles peuvent sembler insignifiantes ou difficiles à distinguer. Mais avec l’apprentissage d’une catégorie, certaines deviennent plus saillantes, tandis que d’autres variations sont progressivement ignorées. La perception catégorielle ne serait donc pas seulement une propriété du système perceptif, mais aussi le résultat d’un apprentissage qui façonne la manière dont les stimuli sont discriminés. En lisant les textes, cette idée m’a rappelé en partie la version faible de l’hypothèse de Sapir-Whorf, selon laquelle le langage peut influencer la manière dont certaines distinctions deviennent perceptuellement saillantes, sans pour autant déterminer entièrement ce que nous sommes capables de percevoir. Chez Harnad toutefois, l’influence principale semble venir de l’apprentissage perceptif et sensorimoteur. Le langage peut aider à apprendre ou transmettre des catégories, mais la base demeure l’ancrage perceptif.

    ReplyDelete
    Replies
    1. MURIELLE, bonne réponse. Maintenant renseigne-toi (avec GPT ou un autre GML) sur ce que c'est que le "deep learning" et comment ça pourrait expliquer comment on apprend à détecter les attributs sensori-moteurs qui distinguent les catégories? Demande une explication simple, et liée avec la « réduction de la dimensionnalité » et la perception catégorielle. -- Puis explique nous ça à la soeur-cadette...

      Delete
    2. MURIELLE, bonne réponse. Maintenant renseigne-toi (avec GPT ou un autre GML) sur ce que c'est que le "deep learning" et comment ça pourrait expliquer comment on apprend à détecter les attributs sensori-moteurs qui distinguent les catégories?

      Demande une explication simple, et liée avec la « réduction de la dimensionnalité » la perception catégorielle, et l'ancrage (grounding) des symboles (les référents des mots de contenu).

      Delete
  7. Semaines 6


    Selon ma lecture des deux textes de Stevan Harnad, penser consiste en grande partie à catégoriser. Les humains comprennent leur environnement en reconnaissant, en distinguant et en classant les objets ou situations dans différentes catégories, ce qui facilite l’interprétation du monde et guide nos actions. La perception, via nos sens comme la vision, permet d’identifier des caractéristiques communes et de former les premières catégories. Toutefois, l’apprentissage ne repose pas uniquement sur l’expérience perceptive : le langage joue un rôle essentiel en transmettant des connaissances et en permettant d’acquérir des catégories plus complexes.

    J’aimerais vous poser quelques questions :

    Toute forme de pensée repose-t-elle uniquement sur la catégorisation ?

    Comment la perception et le langage se complètent-ils dans l’apprentissage des catégories ?

    Les catégories sont-elles toutes apprises par l’expérience ou certaines sont-elles innées ?

    ReplyDelete
    Replies
    1. JOCELYNE, bon résumé.

      1. La catégorisation c'est la cognition discrète; tout ce qui est soit membre soit pas membre, et qui peut être nommé pas des mots de contenu (c'est quoi? Et qu'est-ce qui n'est pas un mot de contenu?).

      Mais il y a aussi la cognition continue: tout ce qui est une question de degré plutôt que tout-ou-rien: la similarité, l'imitation, les habiletés sensori-motrices, la performance musicale, la natation, les sports, la sculpture...

      2. Le complément de l'ancrage sensori-moteur directe est l'ancrage verbal indirecte: peux-tu l'expliquer?

      3. Oui il y a des catégories innées. C'est touché dans les lectures de la semaine 6. Un bon exercice est de parcourir un dictionnaire et identifier la proportion des mots de contenu qui réfèrent aux catégories innées, apprises par l'essai-et-erreur directe, et apprises à partir de la description verbale.

      Delete
  8. En lisant Harnad, je comprends que catégoriser ne consiste pas simplement à détecter des ressemblances dans le monde. Le théorème du vilain petit canard montre que si toutes les caractéristiques comptaient également, tout se ressemblerait de la même manière. Pour qu’une catégorie puisse exister, certaines caractéristiques doivent donc être considérées comme plus importantes que d’autres. L’apprentissage semble alors jouer un rôle central. C’est peut-être par l’expérience et la rétroaction que le système sensorimoteur apprend quelles différences deviennent pertinentes. Une question reste toutefois: cette sélection des caractéristiques est-elle entièrement apprise, ou certaines contraintes viennent-elles déjà de notre système perceptif ?

    ReplyDelete
  9. Ce que notre système sensori-moteur peut faire est en quelque sorte déterminé par les périphériques (capteurs) sensoriels que nous possédons. La catégorisation correspond aux interactions entre le système sensori-moteur autonome et son environnement. Puisque nos systèmes autonomes sont aussi adaptatifs, nous pouvons dire que la catégorisation peut être liée à certains changements qui occurrent au fil du temps. Il y a deux types de catégorisation : la catégorisation innée et la catégorisation apprise. La première correspond à une capacité innée de réagir d’une certaine façon à un stimulus. La deuxième correspond à l’apprentissage de catégories, comme le sens de certains mots, par exemple , est une connaissance apprise.

    ReplyDelete
  10. En me basant sur Harnad, je comprends que l’apprentissage des catégories ne sert pas seulement à mieux reconnaître les objets, mais aussi à changer la manière dont on les perçoit. Au début, certaines différences peuvent être difficiles à voir, mais avec l’expérience, elles deviennent plus évidentes, tandis que d’autres détails sont moins importants. La perception n’est donc pas complètement stable, elle évolue avec l’apprentissage. Catégoriser, ce n’est pas juste classer, mais apprendre à voir le monde d’une certaine façon. Je me demande alors si cette transformation dépend uniquement de l’expérience ou s’il y a aussi une part innée.

    ReplyDelete
  11. Selon moi, Harnad montre que catégoriser, ce n’est pas juste mettre des choses dans des groupes. C’est surtout apprendre à voir quels détails sont importants pour faire la bonne différence entre les choses. Avec l’apprentissage, on finit par voir les membres d’une même catégorie comme plus semblables, et ceux d’une autre catégorie comme plus différents. C’est cela que Harnad appelle la perception catégorielle. J’ai aussi retenu que le langage aide beaucoup, parce qu’on peut apprendre une nouvelle catégorie grâce aux mots, sans toujours passer par l’essai et l’erreur. Mais cela marche seulement si les mots utilisés sont déjà liés à des choses qu’on connaît par expérience. Je trouve cette idée intéressante, parce qu’elle montre que comprendre un mot dépend aussi de notre contact avec le monde.

    ReplyDelete