Informations

Sentier du ruisseau ventral et architecture proposés par le groupe de Poggio

Sentier du ruisseau ventral et architecture proposés par le groupe de Poggio



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pouvez-vous me donner une très brève explication sur toutes les fonctions de l'architecture du flux ventral résumées dans cette figure :

Ce chiffre est tiré de la théorie quantitative de la reconnaissance visuelle immédiate de Serre et al. Prog Brain Res. 2007.

J'ai lu plusieurs articles sur ce modèle, mais je ne comprends toujours pas l'objectif de base, en particulier derrière les deux opérations (opérations de type Gaussienne et de type max)… Alors s'il vous plaît, quelqu'un peut-il m'expliquer en détail le chemin du flux ventral (à partir de V1-V2-V4-IT-PFC) y compris les deux opérations de ce modèle.

Par exemple : je ne comprends pas comment les cellules de S1 sont construites…


Il s'agit d'une architecture de calcul typique proposée comme modèle pour le flux ventral de traitement visuel chez les primates. Il a une longue histoire (par exemple, Neocognitoron de Fukushima était en 1980) et toujours largement accepté dans l'apprentissage automatique (par exemple, l'apprentissage en profondeur) et les neurosciences.

Elle est motivée par l'organisation de cellules simples V1 et de cellules complexes. Les cellules simples de V1 peuvent être approximativement considérées comme des détecteurs de bord à un emplacement rétinien spécifique. C'est pourquoi sur la figure que vous citez, ils sont représentés par un cercle avec une barre (un champ récepteur de bande dessinée). Les cellules simples ne peuvent détecter les choses que très localement, ce qui signifie que si le bord apparaît à un endroit différent de votre champ de vision, il ne répondra pas.

Mathématiquement, vous pouvez penser à un filtre spatial qui détecte un contour (par exemple, un patch de Gabor orienté) multiplié par votre image rétinienne et additionné. Par exemple, le filtre ci-dessous détectera une correspondance avec une barre à 45 degrés alignée sur la zone de couleur chaude, mais aura moins d'activité si la barre est décalée de la position spécifique.

Les cellules complexes dans V1, d'autre part, sont toujours un détecteur de bords, mais ont une certaine invariance de localisation. En d'autres termes, lorsque le bord est légèrement déplacé, la réponse des cellules complexes ne semble pas changer. On pense que cela est dû au fait que les cellules complexes tirent de plusieurs cellules simples avec la même orientation. C'est ce que vous voyez dans votre figure où une seule cellule complexe extrait des informations des mêmes cellules simples d'orientation mais à des emplacements différents.

Mathématiquement, une opération soft-max ou une opération max sur les sorties de cellules simples peut conduire à un bon modèle de cellule complexe. Mais, il n'est pas limité à de telles opérations. En fait, les modèles quadratiques ou autres modèles non linéaires sont également largement utilisés en neurosciences computationnelles.

La hiérarchie complète pour le flux ventral est alors simplement obtenue en s'étendant à plusieurs reprises en utilisant l'analogie simple-cellule-complexe-cellule. Pour chaque pile, la couche de cellules simples extrait une caractéristique locale (en calculant sur la sortie de la cellule complexe de la couche précédente), et la couche de cellules complexes la rend invariante dans l'espace. À partir des bords de V1, on peut obtenir des coins sur le calque suivant, puis des contours complexes et jusqu'aux objets. C'est du moins ainsi que se déroule l'histoire.


Modèles d'apprentissage en profondeur pour le cortex préfontal en reconnaissance d'objets

Le flux ventral sous-tend la reconnaissance et la catégorisation des objets chez les primates humains et non humains, mais l'encodage neuronal dans sa région la plus élevée, le cortex préfrontal (PFC), reste mal compris. Avec les récents progrès de l'apprentissage en profondeur, les réseaux de neurones convolutifs (CNN) optimisés pour les objectifs se sont avérés très précis pour prédire les réponses neuronales dans la zone corticale ventrale la plus élevée, le cortex temporal inférieur (IT), qui a une sélectivité de catégorie élevée basée sur des critères visuels. informations. De plus, les couches intermédiaires du modèle étaient très précises pour prédire les réponses neurales ventrales en amont (en V4). Nous visons à appliquer des CNN axés sur les objectifs pour prédire les réponses neuronales dans le cortex préfrontal ventrolatéral (vlPFC). Étant donné que la recherche suggère que le vPFC intègre des informations d'objet liées au comportement dans la reconnaissance d'objets, nous émettons l'hypothèse que les CNN axés sur les objectifs seront moins performants que les CNN axés sur les données sur les réponses neuronales vlPFC. Nous espérons que nos résultats mettront en lumière le rôle du vlPFC dans le flux ventral et la mesure dans laquelle la région code pour des caractéristiques d'objet liées au comportement.


Résumé

Des études de neurosciences computationnelles ont examiné le système visuel humain grâce à l'imagerie par résonance magnétique fonctionnelle (IRMf) et ont identifié un modèle dans lequel le cerveau des mammifères suit deux voies indépendantes pour reconnaître les tâches de mouvement biologique. D'une part, le flux dorsal analyse les informations de mouvement en appliquant un flux optique, qui prend en compte les caractéristiques rapides. D'autre part, le flux ventral analyse les informations de forme avec des traits lents. L'approche proposée suggère que la perception du mouvement du système visuel humain comprend des interactions de caractéristiques rapides et lentes pour identifier les mouvements biologiques. Les caractéristiques de formulaire dans le système visuel suivent l'application du modèle de base active (ABM) avec une analyse lente incrémentielle des caractéristiques (IncSFA). L'observation épisodique est nécessaire pour extraire les caractéristiques les plus lentes, tandis que les caractéristiques rapides mettent à jour le traitement des informations de mouvement dans chaque image. L'application d'IncSFA offre la possibilité d'abstraire les actions humaines et d'utiliser des prototypes d'action. Cependant, les fonctionnalités rapides sont obtenues à partir de la division du flux optique, ce qui donne la possibilité d'interagir avec le système lorsque la reconnaissance finale est effectuée grâce à une combinaison du flux optique et des informations ABM-IncSFA et grâce à l'application de la machine d'apprentissage extrême du noyau. L'application d'IncSFA dans le flux ventral et l'implication de caractéristiques lentes et rapides dans le mécanisme de reconnaissance sont les contributions majeures de cette recherche. Les deux jeux de données d'action humaine pour le benchmarking (KTH et Weizmann) et les résultats mettent en évidence les performances prometteuses de cette approche dans la modification de modèles.


Contenu

Représentations invariantes Modifier

Un grand défi dans les tâches de reconnaissance visuelle est que le même objet peut être vu dans diverses conditions. Il peut être vu de différentes distances, de différents points de vue, sous différents éclairages, partiellement occlus, etc. De plus, pour des objets de classes particulières, tels que des visages, des transformations spécifiques très complexes peuvent être pertinentes, telles que le changement d'expressions faciales. Pour apprendre à reconnaître les images, il est très bénéfique de factoriser ces variations. Il en résulte un problème de classification beaucoup plus simple et, par conséquent, une grande réduction de la complexité de l'échantillon du modèle.

Une simple expérience de calcul illustre cette idée. Deux instances d'un classificateur ont été entraînées pour distinguer les images d'avions de celles de voitures. Pour la formation et le test de la première instance, des images avec des points de vue arbitraires ont été utilisées. Une autre instance n'a reçu que des images vues d'un point de vue particulier, ce qui équivalait à entraîner et tester le système sur la représentation invariante des images. On peut voir que le deuxième classificateur s'est assez bien comporté même après avoir reçu un seul exemple de chaque catégorie, tandis que les performances du premier classificateur étaient proches d'une estimation aléatoire même après avoir vu 20 exemples.

Les représentations invariantes ont été incorporées dans plusieurs architectures d'apprentissage, telles que les néocognitrons. La plupart de ces architectures, cependant, fournissaient l'invariance par le biais de caractéristiques ou de propriétés conçues sur mesure de l'architecture elle-même. Bien qu'il soit utile de prendre en compte certains types de transformations, telles que les traductions, il est très simple de s'adapter à d'autres types de transformations, telles que les rotations 3D et les expressions faciales changeantes. M-Theory fournit un cadre sur la façon dont de telles transformations peuvent être apprises. En plus d'une plus grande flexibilité, cette théorie suggère également comment le cerveau humain peut avoir des capacités similaires.

Modèles Modifier

Une autre idée centrale de M-Theory est proche dans l'esprit des idées du domaine de la détection compressée. Une implication du lemme de Johnson-Lindenstrauss dit qu'un nombre particulier d'images peut être intégré dans un espace de caractéristiques de faible dimension avec les mêmes distances entre les images en utilisant des projections aléatoires. Ce résultat suggère que le produit scalaire entre l'image observée et une autre image stockée en mémoire, appelée modèle, peut être utilisé comme une caractéristique aidant à distinguer l'image des autres images. Le modèle n'a pas besoin d'être lié à l'image, il peut être choisi au hasard.

Combinaison de modèles et de représentations invariantes Modifier

Les deux idées décrites dans les sections précédentes peuvent être réunies pour construire un cadre d'apprentissage des représentations invariantes. L'observation clé est de savoir comment le produit scalaire entre l'image I et un modèle t se comporte lorsque l'image est transformée (par des transformations telles que des translations, des rotations, des échelles, etc.). Si la transformation g est membre d'un groupe unitaire de transformations, alors ce qui suit est vrai :

En d'autres termes, le produit scalaire de l'image transformée et d'un modèle est égal au produit scalaire de l'image d'origine et du modèle inversement transformé. Par exemple, pour une image pivotée de 90 degrés, le modèle transformé en inverse serait pivoté de -90 degrés.

Dans la section d'introduction, il a été affirmé que la M-Theory permet d'apprendre des représentations invariantes. En effet, les modèles et leurs versions transformées peuvent être appris à partir de l'expérience visuelle - en exposant le système à des séquences de transformations d'objets. Il est plausible que des expériences visuelles similaires se produisent au début de la vie humaine, par exemple lorsque les nourrissons tournent des jouets dans leurs mains. Étant donné que les modèles peuvent être totalement indépendants des images que le système tentera plus tard de classer, les souvenirs de ces expériences visuelles peuvent servir de base pour reconnaître de nombreux types d'objets différents plus tard dans la vie. Cependant, comme il est montré plus loin, pour certains types de transformations, des modèles spécifiques sont nécessaires.

Des orbites aux mesures de distribution Modifier

Pour mettre en œuvre les idées décrites dans les sections précédentes, il faut savoir comment dériver une représentation invariante efficace en termes de calcul d'une image. Une telle représentation unique pour chaque image peut être caractérisée telle qu'elle apparaît par un ensemble de distributions de probabilité unidimensionnelles (distributions empiriques des produits scalaires entre l'image et un ensemble de modèles stockés lors d'un apprentissage non supervisé). Ces distributions de probabilité à leur tour peuvent être décrites soit par des histogrammes, soit par un ensemble de moments statistiques de celui-ci, comme il sera montré ci-dessous.

Une question naturelle se pose : comment comparer deux orbites ? Il existe plusieurs approches possibles. L'un d'eux utilise le fait qu'intuitivement deux orbites empiriques sont les mêmes quel que soit l'ordre de leurs points. Ainsi, on peut considérer une distribution de probabilité P I > induite par l'action du groupe sur les images I ( g I peut être vu comme la réalisation d'une variable aléatoire).

Pour classer une image, la "recette" suivante peut être utilisée :

  1. Mémoriser un ensemble d'images/objets appelés modèles
  2. Mémoriser les transformations observées pour chaque modèle
  3. Calculer les produits scalaires de ses transformations avec image
  4. Calculer l'histogramme des valeurs résultantes, appelé Signature de l'image
  5. Comparez l'histogramme obtenu avec les signatures stockées en mémoire.

Groupes de transformations non compacts Modifier

Dans la "recette" de classification d'images, les groupes de transformations sont approximés avec un nombre fini de transformations. Une telle approximation n'est possible que lorsque le groupe est compact.

Des groupes tels que toutes les traductions et toutes les mises à l'échelle de l'image ne sont pas compacts, car ils permettent des transformations arbitrairement grandes. Cependant, ils sont localement compacts. Pour les groupes localement compacts, l'invariance est réalisable dans une certaine plage de transformations. [2]

L'opportunité de modèles personnalisés pour les groupes non compacts est en conflit avec le principe d'apprentissage des représentations invariantes. Cependant, pour certains types de transformations d'images régulièrement rencontrées, les modèles peuvent être le résultat d'adaptations évolutives. Les données neurobiologiques suggèrent qu'il existe un réglage de type Gabor dans la première couche du cortex visuel. [5] L'optimalité des gabarits de Gabor pour les traductions et les échelles est une explication possible de ce phénomène.

Transformations hors groupe Modifier

De nombreuses transformations intéressantes d'images ne forment pas de groupes. Par exemple, les transformations d'images associées à la rotation 3D de l'objet 3D correspondant ne forment pas un groupe, car il est impossible de définir une transformation inverse (deux objets peuvent se ressembler sous un angle mais différents sous un autre angle). Cependant, l'invariance approximative est toujours réalisable même pour les transformations sans groupe, si la condition de localisation pour les modèles est vérifiée et si la transformation peut être linéarisée localement.

Comme il a été dit dans la section précédente, pour le cas spécifique des traductions et de la mise à l'échelle, la condition de localisation peut être satisfaite en utilisant des modèles génériques de Gabor. Cependant, pour la transformation de cas général (non-groupe), la condition de localisation ne peut être satisfaite que pour une classe d'objets spécifique. [2] Plus précisément, afin de satisfaire la condition, les modèles doivent être similaires aux objets que l'on souhaite reconnaître. Par exemple, si l'on souhaite construire un système pour reconnaître les faces 3D tournées, il faut utiliser d'autres faces 3D tournées comme modèles. Cela peut expliquer l'existence de ces modules spécialisés dans le cerveau en tant que responsable de la reconnaissance faciale. [2] Même avec des modèles personnalisés, un encodage semblable à du bruit des images et des modèles est nécessaire pour la localisation. Cela peut être naturellement réalisé si la transformation non-groupe est traitée sur une couche autre que la première dans l'architecture de reconnaissance hiérarchique.

Architectures hiérarchiques Modifier

La section précédente suggère une motivation pour les architectures de reconnaissance d'images hiérarchiques. Cependant, ils ont aussi d'autres avantages.

Premièrement, les architectures hiérarchiques atteignent le mieux l'objectif d'« analyser » une scène visuelle complexe avec de nombreux objets composés de nombreuses parties, dont la position relative peut grandement varier. Dans ce cas, différents éléments du système doivent réagir à différents objets et pièces. Dans les architectures hiérarchiques, des représentations de pièces à différents niveaux de hiérarchie d'intégration peuvent être stockées à différentes couches de hiérarchie.

Deuxièmement, les architectures hiérarchiques qui ont des représentations invariantes pour des parties d'objets peuvent faciliter l'apprentissage de concepts de composition complexes. Cette facilitation peut se produire par la réutilisation de représentations apprises de parties qui ont été construites auparavant dans le processus d'apprentissage d'autres concepts. En conséquence, la complexité de l'échantillon d'apprentissage des concepts de composition peut être considérablement réduite.

Enfin, les architectures hiérarchiques ont une meilleure tolérance au fouillis. Un problème d'encombrement survient lorsque l'objet cible se trouve devant un arrière-plan non uniforme, qui fonctionne comme un distracteur pour la tâche visuelle. L'architecture hiérarchique fournit des signatures pour des parties d'objets cibles, qui n'incluent pas de parties d'arrière-plan et ne sont pas affectées par les variations d'arrière-plan. [6]

Dans les architectures hiérarchiques, une couche n'est pas nécessairement invariante à toutes les transformations qui sont gérées par la hiérarchie dans son ensemble. Certaines transformations peuvent traverser cette couche vers les couches supérieures, comme dans le cas des transformations sans groupe décrites dans la section précédente. Pour d'autres transformations, un élément de la couche peut produire des représentations invariantes uniquement dans une petite plage de transformations. Par exemple, les éléments des couches inférieures de la hiérarchie ont un petit champ visuel et ne peuvent donc gérer qu'une petite plage de traduction. Pour de telles transformations, la couche doit fournir covariant plutôt que des signatures invariantes. La propriété de covariance peut être écrite comme distr ( ⟨ μ l ( g I ) , μ l ( t ) ⟩ ) = distr ( ⟨ μ l ( I ) , μ l ( g − 1 t ) ⟩ ) (gI),mu _(t) angle )=distr(langle mu _(Je),mu _(g^<-1>t) angle )> , où l est un calque, μ l ( I ) (I)> est la signature de l'image sur ce calque, et d i s t r signifie "distribution des valeurs de l'expression pour tout g G ".

La théorie M est basée sur une théorie quantitative du flux ventral du cortex visuel. [7] [8] Comprendre comment le cortex visuel fonctionne dans la reconnaissance d'objets est toujours une tâche difficile pour les neurosciences. Les humains et les primates sont capables de mémoriser et de reconnaître des objets après avoir vu quelques exemples, contrairement à tous les systèmes de vision industrielle de pointe qui nécessitent généralement beaucoup de données pour reconnaître les objets. Avant l'utilisation des neurosciences visuelles dans la vision par ordinateur a été limitée à la vision précoce pour dériver des algorithmes stéréo (par exemple, [9] ) et pour justifier l'utilisation de filtres DoG (dérivé de gaussien) et plus récemment de filtres Gabor. [10] [11] Aucune attention réelle n'a été accordée aux caractéristiques biologiquement plausibles d'une plus grande complexité. Alors que la vision par ordinateur grand public a toujours été inspirée et contestée par la vision humaine, elle semble n'avoir jamais dépassé les toutes premières étapes du traitement dans les cellules simples de V1 et V2. Bien que certains des systèmes inspirés - à des degrés divers - par les neurosciences, aient été testés sur au moins certaines images naturelles, les modèles neurobiologiques de reconnaissance d'objets dans le cortex n'ont pas encore été étendus pour traiter des bases de données d'images du monde réel. [12]

Le cadre d'apprentissage de la théorie M utilise une nouvelle hypothèse sur la principale fonction de calcul du flux ventral : la représentation de nouveaux objets/images en termes de signature, qui est invariante par rapport aux transformations apprises au cours de l'expérience visuelle. Cela permet une reconnaissance à partir de très peu d'exemples étiquetés - à la limite, un seul.

Les neurosciences suggèrent que les fonctions naturelles à calculer pour un neurone sont un produit scalaire de grande dimension entre un "patch d'image" et un autre patch d'image (appelé modèle) qui est stocké en termes de poids synaptiques (synapses par neurone). Le modèle informatique standard d'un neurone est basé sur un produit scalaire et un seuil. Une autre caractéristique importante du cortex visuel est qu'il est constitué de cellules simples et complexes. Cette idée a été initialement proposée par Hubel et Wiesel. [9] La M-théorie utilise cette idée. Les cellules simples calculent les produits scalaires d'une image et les transformations des modèles ⟨ I , g i t k ⟩ t^ angle > pour i = 1 , . . . , | G |