Passer au contenu principal

đŸ€– Comment fonctionne l’algorithme de pertinence ?

Outmind combine pertinence textuelle, contexte, fréquence et fraßcheur pour classer les résultats les plus utiles en premier.

Arthur Caillaud avatar
Écrit par Arthur Caillaud
Mis à jour il y a plus d’une semaine

Notre solution de recherche permet d'indexer et interroger des documents dans de nombreux formats différents.

Lorsqu’un utilisateur lance une recherche, plusieurs techniques sont combinĂ©es afin de prĂ©senter les rĂ©sultats les plus pertinents en fonction de la requĂȘte.


📊 Calcul du Score de Pertinence

La recherche repose sur un calcul de score de pertinence (ou « score de match »).

Pour chaque document trouvĂ©, le moteur attribue un score qui reprĂ©sente dans quelle mesure ce document correspond Ă  la requĂȘte de l’utilisateur.

Ce score est dĂ©terminĂ© par plusieurs facteurs, notamment :

  • Correspondance textuelle : Le moteur analyse dans quelles mesures les mots de la requĂȘte figurent dans le document.

  • La frĂ©quence des mots : Plus un mot apparaĂźt dans un document (et dans des champs importants), plus il contribue au score.

  • Des pondĂ©rations spĂ©cifiques : Certains champs (comme le titre) ont un poids (ou « boost ») plus Ă©levĂ© que d’autres (comme le contenu).


🎯 Priorisation des Champs de Recherche

Pour amĂ©liorer la pertinence, notre moteur de recherche accorde plus d’importance Ă  certains champs que d’autres. ConcrĂštement :

  • Le Titre a un fort impact : Un mot apparaissant dans le champ « titre » peut ĂȘtre pondĂ©rĂ© jusqu’à 10 fois plus fortement qu’un mot dans le contenu.

  • Le Contenu et les Autres Champs : Par exemple, les zones comme le contenu ou certains champs de mĂ©tadonnĂ©es (nom de l’auteur, adresses e-mail) ont une pondĂ©ration plus faible (par exemple, 1 ou 3) par rapport au titre.

Cela signifie que si un document possĂšde le mot recherchĂ© dans son titre, il sera considĂ©rĂ© comme plus pertinent que s’il ne le trouvait que dans le contenu.


🔁 Impact de la FrĂ©quence d’Apparition d’un Mot

Le nombre d’occurrences (ou la frĂ©quence) d’un mot dans un document joue Ă©galement un rĂŽle. Voici comment cela fonctionne :

  • Plus un mot apparaĂźt dans un document, plus cela renforce son score de pertinence pour la requĂȘte, surtout si ce mot apparaĂźt dans un champ bien pondĂ©rĂ© (comme le titre).

  • Moins un mot est frĂ©quent dans le corpus complet, plus la prĂ©sence de ce mot est importante (stratĂ©gie dite des "mots rares")

  • Les fonctions de score intĂšgrent ces occurrences pour calculer un score global qui permet ensuite de classer les documents de maniĂšre Ă  mettre en avant ceux qui correspondent le mieux Ă  la recherche.


đŸš« Gestion des Mots Vides (stopwords)

Pour Ă©viter que des mots trĂšs courants et peu porteurs de sens (par exemple, « le », « la », « les », etc.) ne viennent fausser le calcul du score, notre systĂšme utilise des filtres de stopwords.

  • Ces mots sont automatiquement exclus de l’analyse du texte afin que seuls les mots significatifs influent sur le score.

  • Ces mots sont Ă©galement exclus des surlignages (highlights) afin que l'utilisateur puisse plus facilement se rendre compte de la pertinence des rĂ©sultats.


🧠 Recherche SĂ©mantique et Traitement Linguistique

Notre solution intĂšgre plusieurs techniques de traitement du langage naturel qui permettent d’amĂ©liorer la correspondance :

  • Stemming et Normalisation

GrĂące Ă  des analyseurs spĂ©cialement configurĂ©s notamment pour le français et d'autres langues europĂ©ennes, les mots sont ramenĂ©s Ă  leur racine. Ceci permet par exemple qu’une recherche pour « gĂ©nĂ©ral » puisse aussi trouver « gĂ©nĂ©raux », car les deux termes seront rĂ©duits Ă  une forme commune.

  • Synonymes et Variations

Des filtres de synonymes sont également appliqués, ce qui aide à couvrir des variations linguistiques ou orthographiques.

  • Recherche par Phrase et Expression

En plus d’une recherche classique, le systĂšme utilise des requĂȘtes "phrase" pour donner un coup de pouce aux documents dans lesquels les mots recherchĂ©s apparaissent proches les uns des autres, amĂ©liorant ainsi la cohĂ©rence contextuelle.


🕒 Autres Facteurs (comme la Date)

En plus du contenu textuel, notre algorithme peut également prendre en compte la fraßcheur des documents.

Une fonction de décroissance (dite "gaussienne") est appliquée sur le champ de la date, ce qui signifie que les documents plus récents sont favorisés dans le classement, surtout si leur contenu est pertinent pour la recherche.


📌 En RĂ©sumĂ©

  • Calcul du Score : Le score est un calcul combinant la correspondance des mots, leur frĂ©quence et l’importance du champ dans lequel ils apparaissent.

  • Boosting des Champs : Les mots dans le titre (avec un boost Ă©levĂ©) sont considĂ©rĂ©s comme plus significatifs que ceux du contenu.

  • Impact de la FrĂ©quence : Plus un mot apparaĂźt dans un document, plus celui-ci est considĂ©rĂ© comme pertinent.

  • Exclusion des Mots Vides : Des mots courants (comme « le ») sont automatiquement Ă©liminĂ©s pour se concentrer sur les termes essentiels.

  • Traitement Linguistique : GrĂące au stemming et Ă  l’utilisation de synonymes, diffĂ©rentes formes d’un mot (par exemple, « gĂ©nĂ©ral » vs. « gĂ©nĂ©raux ») sont traitĂ©es de maniĂšre similaire, ce qui enrichit la recherche.

  • FraĂźcheur des Documents : La date du document intervient Ă©galement pour offrir des rĂ©sultats Ă  la fois pertinents et d’actualitĂ©.

Ce systùme de recherche permet donc d’afficher en premier les documents les plus susceptibles de correspondre à l’intention de l’utilisateur, tout en prenant en compte des nuances linguistiques et contextuelles.

Avez-vous trouvé la réponse à votre question ?