Le moteur de calculs de similaritésinfographie6_bis.jpg

Le moteur de calculs de similarités IDef(x) propose une chaîne de traitement qui, partant d'une description fine du corpus des métiers, conduit à une opération de transduction vers des fiches d'offres de formation universitaires. De quoi s’agit-il concrètement ? Les Observatoires définissent plusieurs fois par an les présupposés des postes d’une branche professionnelle. Cette fiche se présente sous le forme de fiches, ou prospectus, qui sont le résultat d’une collection d’informations menée par les différents responsables auprès des cabinets de conseil et des cabinets de recrutement (ou chasseurs de têtes). Ces fiches ont été répertoriées par nos soins en étroite collaboration avec les personnels de la Fédération, puis constituées en corpus pour être exploitées dans une base de données des métiers sur la base des compétences, des besoins de formations, des acquis et pré-requis, des évolutions professionnelles. Plusieurs rencontres ont ensuite été organisées avec des membres reconnus de la fédération pour chaque métier afin de recueillir des données d’enquêtes complémentaires. D’un autre côté, les formations publient régulièrement des fiches de description pédagogique de leurs Masters. Plus de 2800 fiches ont été recueillies, puis archivées dans une base de données XML constituées ad hoc. Ces fiches de bases de données contiennent, outre les informations descriptives concernant les responsabilités de Masters, les compétences mises en avant par chaque formation. L'objectif est de dégager une relation de pertinence entre ces deux ensembles textuels sur la base d'un métier donné et dans la perspective de faciliter la lecture des formations par les professionnels.

Partant d'un travail déjà accompli par la Fédération Syntec et partant des opérations de constitution de corpus opérées par I-Def, l'opération se fixe pour objectif de tester l'adéquation entre les descriptifs pour en dégager un score de pertinence de relation synonymique entre les deux fragments textuels.

L'opération part de l'identification de tokens déployés dans les descriptifs métiers. Un ensemble d'expressions, généralement constituées en N-Tuple3, constituent une isotopie définitoire et monosémique d'un métier donné. A partir d’un thesaurus constitué par enquête par notre équipe, il est enfin possible de tracer des relations sémantiques entre des fragments textuels dont on postule dorénavant qu’ils sont engagés dans une relation de similarités, voire de synonymie.

 

Toutefois, la construction d'un processus de traitement de mise en relation des corpus ne saurait être cantonnée à un « match » terme à terme entre les corpus. D'une part, parce que si la solution était aussi simple, il n'y aurait pas besoin d'une chaîne de traitement plus complexe et les professionnels des domaines ne sentiraient pas le besoin de traduire en quelque sorte les mots des uns en aspiration des autres ; d'autre part, les premiers échantillonnages opérés en novembre sur les discours ont montré que le pourcentage du vocabulaire commun entre les univers ne dépassait pas les 10 %.

 

Sur l'ensemble des mots partagés, considérés comme unités, beaucoup sont d'emploi « large » et relèvent de la langue générale : « entreprise », « réunion ». Et, si l'on affine la recherche à un ensemble spécifique de N-Tuples, on réduit l'intersection des co-occurrents à quantité négligeable. La raison de cette divergence trouve sans doute sa source dans l'hétérogénéité des objectifs des professionnels et des offres de formations : les uns travaillent sur l'hyperspécialisation du domaine et le raffinement à l'infini des nuances qui caractérisent la spécialité d’un emploi préconçu pendantFile 5.png que les offres de formation travaillent à inventer un vocabulaire consensuel. En d'autres termes, aucune offre de formation ne prétend former qu'à une et une seule carrière. Ce serait réduire le champ de l'Insertion Professionnelle et attenter à la survie de la formation. Dans le même temps, les métiers du conseil ont connu ces dernières années, comme le montrent de nombreuses analyse sociologiques sur le sujet, une grande diversification4.

 

L'opération I-Def met donc en valeur la nécessité de construire un Thesaurus particulier des métiers et des offres de formation rendant possible la transduction des traits définitoires. En effet, la recherche d'intersection revient à construire une opération de traduction du vocabulaire spécialisé des uns vers la polysémie de la langue naturelle dont on postule qu'elle est illustrée par le corpus des offres de formation. A ce titre, il est devenu nécessaire d'inventer les moyens d'étendre le vocabulaire des N-Tuples à une série de Tuples attestés en langue. Ce dictionnaire de synonymie de co-occurrences, ou Thesaurus des Métiers du Conseil, permet, à partir des ressources I-Def, d'étendre le vocabulaire du robot à un ensemble d'isotopies construites par la langue autour des notions et domaines des fiches métiers. Ce Thesaurus est un pivot qui rend possible la construction du GPS des formations vers les métiers.

 

Les premiers essais de la projection de la ressource sur les corpus que nous avons construits aboutissent à mettre en valeur plus de 350 formations universitaires ; l'identification d'une série de plus de 300 expressions clés classées par domaine rien que pour les métiers du conseil ; l'établissement d'un score de pertinence.

 

A partir d’un ensemble descriptif tel que celui-là, il a été possible de construire une ontologie des compétences à travers les textes des fiches-métiers qui avaient été mis à notre disposition et de rassembler un ensemble d’échantillons de N-tuples sous l’étiquette sémantique des clés de la base initiale. Conformément à un protocole déterminé par une première lecture manuelle du corpus, nous avons défini un ensemble N[1-6]-tuples dont la récurrence pouvait sembler déterminante. Cela signifie que de manière automatique, nous avons déterminé des candidats pertinents pour la caractérisation sémantique d’une unité de texte en postulant qu’il existait des seuils de fréquences de récurrence en-deça et au-delà duquel la récurrence était insignifiante.

Nous présentons ensuite quelques exemples de N[2,3]-Tuples qui ont intégré les échantillons de la base. Ces Tuples constituent un répertoire de co-occurrences pertinentes:

 

<bdd>

<set>

<d>ANIMATION</d>

<p>TRAVAIL</p>

</set>

<set>

<p>PROPOSITION</p>

<p>COMMERCIALE</p>

</set>

<set>

<d>CONDUITE</d>

<p>ENTRETIEN</p>

</set>

 

 

Ces listes se lisent, en l’occurrence par paire. La problématique sous-jacente de ces calculs de co-occurrences est la détermination automatique de champs sémantiques. On impose ainsi une ontologie spécialisée et calculée sur le corpus qui révèle la structure profonde organisant la description du profil. Cette ontologie sert de catégorisation pour l'ensemble des métiers et peut se lire, pour un humain, sous la forme d’une liste thématique:

 

ACTIVITÉ: ANIMATION  : animer + réunion;animer + travail;…

ACTIVITÉ:CONSEIL  :conseil + accompagnement;conseil + organisation;...

ACTIVITÉ:GESTION :gestion + équipe;manager + management; ...

ACTIVITÉ:INTERVENTION  :intervenir + clientèle*;intervenir mission;...