Recherche documentaire et initiation à l'informatique

septembre 02, 2010

Recherche documentaire et initiation à l'informatique - La recherche d'information

I – Quelques préalables

1.L'histoire de la recherche d'informations

VERONICA

VERONICA est un système qui fonctionnait sur des serveurs GOPHER et qui permettait de rechercher dans les titres des documents, ou dans les répertoires dans lesquels étaient classés ces documents, les occurrences des termes demandés.

Qu'est-ce qu'un serveur ?

En informatique, les serveurs fonctionnent souvent sous le mode « client → serveur ». Donc, un serveur distribue des informations au client qui se connecte. Il existe plusieurs types de serveurs : le serveur WEB qui stocke des pages web, des serveurs de mails qui distribue le courrier aux clients-utilisateurs.

La recherche sur GOPHER remonte effectivement, avant même le web, depuis la fin des années 60. A l'époque, on tapait des mots-clés, et on les trouvaient soit dans les titres des documents, soit dans les intitulés de l'arborescence.

WAISE

Ce système, WAISE, permettait de faire de l'indexation en texte intégral. C'était un système qui permettait dans un document d'indexer, de faire ressortir les mots significatifs dans le document. Ce système est l'ancêtre du moteur de recherche.

ARCHIE

C'est un système qui permet de faire de la recherche sur des serveurs que l'on appelle FTP. C'est un serveur qui permet de télécharger des documents.

2.Constats

80 % des utilisateurs se servant des moteurs de recherche, se précipitent sur un, deux ou trois mots clés et balayent les résultats. A priori, ce n'est pas la meilleure solution. En moyenne, les utilisateurs passent 80 % de temps à chercher l'information et 20 % à la traiter.

35 % des internautes saisissent un seul mot-clé, 35 % en saisissent deux, en minuscule et sans accent. 25 % d'internautes vont sur la deuxième page, 7 % sur la troisième, et 3 % au delà.

www. abondance. com → parle de la recherche de documents sur internet.

3.Trois grandes catégories d'outil de recherche

les outils humains

On les appelle « annuaires », « répertoires », « guides », … Ces outils humains peuvent avoir une couverture géographique, donc quand on les utilise on ne trouve que des sites hébergés sur le territoire français ou en langue française. La seconde grille de couverture est la couverture thématique. Le troisième type de couverture est spécialisé dans un type de données (images, sites ftp).

Quelques outils : lycos. fr, voilà.fr, aol.fr (français)

demon, yahoo (outil qui au départ était un annuaire et qui est devenu un moteur de recherche), looksmart (anglais).

Un annuaire cherche à être qualitatif et non quantitatif. Un annuaire va référencer des sites et non pas des pages web, donc chaque page web ne va pas être référencée, mais juste le titre du site global. La taille d'un annuaire correspond à 2/3 millions de sites. Un annuaire reprend le système de l'arborescence par catégories, sous catégories, etc … et à la fin une fiche descriptive. Dans les annuaires, il y a des net surfer qui surfent tout le temps sur internet et remplissent des fiches descriptives. Ces net surfer utilisent les moteurs de recherche et quand ils trouvent un site, ils le rajoutent à l'annuaire, ou bien ceux qui créent les sites web demandent à être référencés.

Dans la fiche descriptive, il y a un titre, des mots-clés, un résumé, une adresse (Unified Ressource Locator : URL), et une note sur la qualité du site (aspect visuel, ergonomie, contenu). Donc, si ce que l'on tape dans l'annuaire se retrouve dans la fiche descriptive, on est redirigé vers le site ou bien si la fiche est située dans une catégorie qui correspond au mot tapé.

les moteurs de recherche

Si les annuaires cherchent à être qualitatifs, les moteurs cherchent à être quantitatifs. Sur ces moteurs de recherche, ce sont les pages web, individuellement qui sont référencées (pas d'organisation hiérarchique sous forme d'arborescence). Les moteurs de recherche référencent environ 8 milliards de pages. Contrairement aux annuaires, il n'y a pas de net surfer, mais un programme appelé le « spider », ou « robot ». Dans l'annuaire des moteurs de recherche, il y a 40 % des pages qui sont montrées, et 60 % qui sont des pages web invisibles (protégées par un mot de passe) et les pages web crées dynamiquement (sur mesure). Mais chaque moteur de recherche dispose d'une partie des 40 % d'information disponible (5 % de pages en français).

Le robot trouve de nouvelles pages web grâce au référencement et via les liens des sites qu'il référence déjà. Il recense les mots utilisés le plus souvent dans la page et la met comme mot clé. Il regarde aussi les mots qui apparaissent dans le titre du document, sachant que ces mots-là ont plus de valeur que les mots contenus dans la page web. Il regarde aussi les mots qui ont subi une mise en forme et si les mots apparaissent au début ou à la fin d'un document. Mais le spider a évolué, car il n'était pas assez performant. En effet, il ne pouvait pas comprendre le sens du document, aussi on a crée les balises mots-clés (métatags : mots-clés et résumé). Le seul problème est que les gens créant les sites web ne sont pas toujours honnêtes. La dernière chose importante est l'indice de popularité.

les agents intelligents

LES OUTILS HUMAINS

Ces outils humains peuvent avoir plusieurs couvertures :

une couverture géographique : ces outils-là ne vont connaître que des sites hébergés sur le territoire français, ou en langue française;

une couverture thématique : cela va être une discipline ou un domaine particulier (sites uniquement médicaux, de recherche, juridiques, …

une couverture spécialisée dans un type de données : des outils qui ne vont par exemple référencer que des images ou que des sites sur lesquels on peut télécharger des informations (ftp, html, …)

Les plus connus sont ceux qui ont des couvertures géographiques. Dans le milieu professionnel, on utilise beaucoup les outils à couverture thématique.

Quelques outils :

Outils d'origine francophone : Lycos, Nomade, Aol.

Outils d'origine anglaise : Dmoz, Yahoo (c'est un outil qui au départ, était un annuaire et c'est devenu un moteur de recherche (mais encore aujourd'hui fonction annuaire) dans le but de se diversifier), Looksmart

Un annuaire cherche à être qualitatif et non quantitatif. Une annuaire va référencer des sites et non pas des pages web. Sur un annuaire, chaque page web ne va pas être référencer de manière individuelle. La taille d'un annuaire français, c'est environ 200.000 -300.000 sites et 2 à 3 millions sites anglophone.

Où va se faire la recherche ? On pourrait penser qu'elle se fait dans tous les sites mais en fait elle se fait uniquement dans le service qu'on a utilisé (ici, Dmoz). Dmoz a donc une mémoire qui contient plein de sites.

Annuaires :

Au niveau des annuaires, ils vont reprendre la forme que l'on trouvait déjà chez Veronica : arborescence de catégories et ces catégories sont subdivisées en sous-catégories. Dans les catégories les plus basses, on a une fiche descriptive par site web.

Comment va être remplie cette base de données ? Les net surfer surfent sur internet et cherchent toutes ces données.

Comment ces net surfeur vont-ils trouver les nouveaux sites web et les ajouter ainsi à leur annuaire ? Comment vont-ils savoir que de nouveaux sites ont été créés ?

En premier, ils vont utiliser des moteurs de recherche.

Deuxième solution : les personnes qui font leur site web vont aller sur la page d'accueil de chaque annuaire et vont se faire connaître. Cette démarche s'appelle le « référencement ».

Maintenant, le net surfer va devoir fabriquer une fiche descriptive ?

Il va d'abord mettre un titre. Soit le titre du site, mais il peut aussi mettre autre chose.

Ensuite, il va mettre des mots-clés.

Ensuite, il va mettre un résumé.

Il va mettre aussi une adresse. Comment s'appelle l'adresse d'un site ? L'adresse Url.

Le net surfer va rajouter un dernier élément : une note ou des notes sur la qualité du site (il va évaluer le design du site, son ergonomie et son contenu).

Dmoz va aller chercher dans sa base de données si par exemple le mot « chausson » ou « danse » apparaissent soit dans le titre, soit dans le résumé, soit dans la note, soit dans les fiches descriptives.

LES MOTEURS DE RECHERCHE

Si les annuaires cherchent à être qualitatif, les moteurs de recherche cherchent davantage à être quantitatif. Sur ces moteurs, ce sont les pages web individuellement qui vont être référencés sur la base de données et non l'ensemble du site.

Dans les moteurs, on a pas de catégories, sous-catégories. Il n'y a pas d'organisation hiérarchique.

Le plus gros moteur de recherche est google. Combien de pages sont référencées ? A peu près 8 milliards. C'est donc une base de données énorme.

Contrairement aux annuaires, il n'y a pas de net surfeur. Ils ont tous été limogés et remplacés par un programme. Ce programme porte un nom : on l'appelle souvent « spider », mais aussi « robot ». Ce spider va interagir avec la base de données des différents sites.

Les pages qui sont référencées dans l'ensemble des moteurs de recherche ne représentent que 40 % de l'information disponible. Le reste est ce que l'on appelle le « web invisible ». Il est invisible au moteur de recherche. Ce sont par exemple des pages cachées derrière des mots de passe. Il y a aussi toutes les pages qui n'existent pas en tant que page web, mais qui sont fabriquées dynamiquement (pour chaque combinaison de mots, le site fabrique des pages dynamiquement, au moment de la demande. Elles ne sont pas préexistantes.) Dans ces 40 %, on a les différents moteurs de recherche qui vont se partager ces choses là. Donc si on cherche que dans un, on ne couvre qu'un morceau. Et si on cherche un site en français, cela réduit encore plus la recherche finale : sur google , le nombre de pages en français représente 5 %.

→ Comment est faite cette base de données ? Comment va faire le robot pour trouver de nouvelles pages web ?

Sur les pages d'accueils des moteurs de recherche, il y a, comme pour les annuaires, la possibilité pour les créateurs de site web de se signaler.

Le moteur de recherche va trouver notre site web, même si nous ne nous sommes pas signaler. Ceci est basé sur le fait que lorsqu'on parle du web, on parle d'une toile d'araignée. Il y a donc des liens entre les données. Il suffit que quelqu'un mette un lien vers notre page web et, voilà, nous sommes découvert.

→ Comment le programme fabrique-t-il les fiches descriptives pour une page web ?

Il cherche les mots qui reviennent le plus souvent. Il va chercher la fréquence d'apparition des mots (il annexe un certain nombre de mots). Si, ceux-ci sont très fréquent, il va en conclure que la page web parle de cela. Mais ce n'est pas suffisant, il va falloir affiner ces fiches descriptives pour dire plus exactement de quel sujet l'on traite.

Il va faire bouger les chiffres en fonction des mots qu'il trouve dans le titre (le titre de la page)

Il va aussi aller regarder les mises en forme. Les mots qui ont une mise en forme particulière sont des mots plus importants que les autres. Cela va influer sur les chiffres.

Il va regarder aussi si les mots apparaissent au début ou à la fin du document. Si, les mots sont au début, le pourcentage augmente et réciproquement.

Il va aussi bouger les chiffres en fonction des mots présents dans l'adresse URL.

→ Problème de ce système : dans ce système, même si la machine est puissante, elle n'est pas capable de comprendre le contenu d'un document et ceci est donc très gênant. Alors, les personnes qui géraient les moteurs de recherche ont voulu trouver une solution. D'un côté, on a des annuaires avec des petites bases de données et une intelligence humaine et de l'autre, on a de grosses bases de données, mais pas d'intelligence humaine.

Une personne a eu une idée : elle a proposé de rajouter dans une certaine partie du document des métatags ( ce sont les créateurs des sites qui font leur propre résumé). Il y a plusieurs types de métatags : par mots-clés et résumé → problème : les personnes créant leur site web ne sont pas toujours honnêtes et peuvent tromper les moteurs de recherche en mettant dans les métatags des mots-clés qui ne traduisent pas l'esprit du site.

La dernière chose importante pour remplir cette base de données est l'INDICE DE POPULARITE : aujourd'hui, c'est quelque chose de fondamental, car c'est le critère le plus important pris en compte par les moteurs de recherche. L'indice de popularité va mesurer la popularité d'une page web. Comment peut-faire un programme pour définir si une page est populaire ou non ?

→ Quand il analyse des pages, s'il trouve des liens hypertextes vers d'autres pages, cela ajoute à l'indice de popularité de ces autres pages. Est-ce que ceci calcule bien la cote de popularité ? OUI.

La fraude imaginable serait de créer une page web inexistante qui créé plein de liens hypertextes vers notre site réel. Mais,cette fraude n'est pas possible puisque si l'on fait une recherche approfondie, on trouve une page A qui a des liens vers une page B. L'indice de popularité ne sera pas fonction du nombre de liens hypertextes, mais l'indice de popularité de la page B dépendra du coefficient de popularité de la page A. L'indice de popularité de la page B dépend de l'indice de popularité de la page A.

LES AGENTS INTELLIGENTS

Il existe trois générations d'agents intelligents :

1 - Première génération : les MÉTAMOTEURS de recherche

exemples : metacrawler, kartoo, ixquick

Comment fonctionnent les métamoteurs de recherche ? Le métamoteur va interroger pour nous tous les moteurs de recherche. Ensuite, il récupère tous les résultats. Les doublons sont éliminés.

2 - Deuxième génération : des OUTILS PARAMÉTRABLES QUI VONT FAIRE DE LA VEILLE pour les utilisateurs. Qu'est-ce que c'est que la veille à proprement parlé ? Faire de la veille c'est se tenir au courant des nouveautés. Ce sont des outils qu'on va paramétrer et ces outils vont nous indiquer ce qu'il y a de nouveau.

Deux sortes d'outils de ce genre :

Soit on le paramètre sur notre ordinateur : gratuit ou payant. Ces logiciels que l'on installe sur notre machine sont vraiment professionnels, faits pour.

→ Copernic

Soit on accède à cet outil directement sur la page web.

→ Googlealert

3 - Troisième génération : c'est à partir d'aujourd'hui. On a des outils qui permettent de faire de la RECHERCHE SÉMANTIQUE.

Qu'est-ce que c'est ? Cela fait appel à des notions d'IA (intelligence artificielle).

Par exemple, on fait une recherche sur « géographe », « avocat » ou « médecin ». L'agent intelligent va se dire que l'on peut trouver plusieurs sens au mot cherché. Il va alors demander de préciser la recherche en demandant la précision du domaine recherché.

On cherche « train ». Il y a plusieurs domaines de trains : ferroviaire, avions (trains d'atterrissage), voiture (train arrière, train avant). Il va demander dans quel domaine. Si on dit que c'est le domaine SNCF, il va faire une recherche. Il peut aussi rechercher des pages dans lesquels il n'y a pas écrit le mot « train » (exemple : la voiture d'un train).

→ il comprend le sens, le domaine du mot que l'on recherche.

Remarque sur les métamoteurs :

Si on veut les utiliser : pour utiliser de manière efficace Google, il faut impérativement utiliser des opérateurs. Google nous fournit tout un tas d'opérateurs. Évidemment, le problème est que tous ces métamoteurs n'ont pas le même opérateur.

En général, quand on fait une recherche, notre problème est plutôt, dans un patras d'informations, de dénicher la bonne information → utiliser les métamoteurs ne semblent alors pas une bonne idée sauf si on a une recherche dans un domaine très précis.

Ce qui fait vivre les moteurs de recherche c'est la publicité. Quand on va sur un métamoteur, on va faire marcher le métamoteur pourtant c'est la base de données des moteurs de recherche qui effectue l'ensemble de la tache.

LES OPÉRATEURS ET LA SYNTAXE

QUELQUES NOTIONS DE BASE

Est-ce que l'outil est sensible à la casse (majuscule/minuscule) ? Cela dépend des moteurs :

certains le sont et ne cherchent que les majuscules ou les minuscules

d'autres ne sont pas du tout sensibles (Google)

d'autres recherchent exactement la combinaison majuscules / minuscules

Est-ce qu'il faut taper les accents ? Trois catégories :

sensibles

pas sensibles (Google sauf si on met un plus devant le mot)

entre les deux

Est-ce que l'ordre des mots est important ? On va avoir le même nombre de réponses, mais ce qui va changer c'est l'ordre d'apparition des réponses : le premier mot-clé est le plus important, déterminant.

LES OPÉRATEURS BOOLÉENS

3 opérateurs :

ET = AND * ∩

OU = OR + ∪

NON = -

Ce sont des opérateurs qui permettent de faire de la logique.

Exemple : pour trouver si une année est bissextile : si (a (année X) divisible par quatre ET pas divisible par 100) OU a divisible par 400.

- et + : équi-prioritaires (3*(4+2))

* prévaut sur + et - → parenthèses vont brader les opérations de manière plus simple.

L'opérateur ET se retrouve sur tous les outils de recherche = AND.

Exemple : si on écrit « clearstream AND villepin » → ce qui va être retourné ce sont les pages B et E.

Le OU s'écrit sur Google OR (le OU n'est pas exclusif) → « clearstream OR villepin » (il peut y avoir l'un ou l'autre, mais aussi les deux) → A, B, C, D, E, F.

NON s'écrit – sur google : « clearstream - villepin » → C et F.

Différents opérateurs :

L'OPÉRATEUR PARENTHÈSES

(« clearstream AND villepin) OR affaire » → B, E, D, F, G.

« clearstream AND (villepin OR affaire) » → B, E, F.

→ On a sur tous les outils ce qu'on appelle l'opérateur par défaut : le AND est prioritaire.

L'OPÉRATEUR DE VOISINAGE s'écrit avec des guillemets : « clearstream villepin » → cela veut dire qu'on cherche exactement ce qu'il y a écrit entre les guillemets.

L'OPÉRATEUR DE PROXIMITÉ s'écrit « près de » ou « near ». Cet opérateur va nous permettre de trouver deux mots proches l'un de l'autre.

L'OPÉRATEUR DE TRONCATURE : s'écrit sur tous les outils de la même manière : * → affaire *

Permet d'élargir la recherche en cherchant par exemple « affaire », « affaires », ...

Sur Google, on peut utiliser l'étoile, mais pas dans le sens troncature : l'étoile ne peut être utilisée que entre des guillemets « affaire * villepin » → à ce moment-là, l'étoile peut être remplacée par n'importe quel mot.

Tous les opérateurs qui restent sont des opérateurs de restriction :

→ OPÉRATEURS DE RESTRICTION SUR TITRE permet de chercher des mots dans les titres.

Deux opérateurs de ce type existe sous google :

→ intitle : clearstream ruymbeke : il faut absolument qu'il y a ait le premier mot dans le titre (clearstream) mais pas forcément «ruymbeke» le suivant.

→ allintitle : clearstream ruymbeke : il faut que tous les mots qui suivent soient dans le titre.

→ OPÉRATEURS DE RESTRICTION SUR URL servent tous à chercher des mots recherchés qui apparaissent dans l'adresse de la page. Il existe plusieurs outils dans cette famille : chacun vont chercher sur une partie différente de l'adresse (nom de domaine ; partie derrière le nom de domaine ; partout dans l'URL).

→ OPÉRATEURS DE RESTRICTION SUR LES LIENS HYPERTEXTES : dans le lien hypertexte d'une page A, il doit y avoir le mot recherché. Deux sortes d'opérateurs de ce type :

ceux qui vont chercher sur les mots que l'on voit (par exemple : sur une page A, il y a écrit « un site sur le piratage » et cela est un lien hypertexte) ;

ceux qui vont chercher sur l'adresse cachée dessous.

→ OPÉRATEURS DE RESTRICTION SUR MÉTATAGS

CONTRÔLER ET INTERPRÉTER LES RÉSULTATS :

Lorsque l'on fait une recherche, on a une page de résultats, avec pour chaque résultat le titre de la page, le résumé, la taille du document et on a un lien « en cache » = la dernière fois que le moteur a visité le site. Dès que Google visite une page web, il l'enregistre sur son disque dur. Dans ce cas, on va donc voir la page sur le disque dur de Google, page qui ne sera pas actuelle, mais en l'état de la dernière visite de Google sur ladite page.

Les annuaires vont décerner des distinctions à certains sites qui sont particulièrement de qualité.

Exemples : sur YAHOO, une paire de lunettes, sur lycos, un chien, etc …

Quand ils mettent une médaille comme cela, ces pages apparaissent en premier dans les résultats.

STRATÉGIE DE RECHERCHE

Les étapes de la recherche :

Première étape : ne pas aller sur le web (des fois, on pourrait trouver l'information beaucoup plus vite dans un livre, au lieu d'aller chercher sur le web).

Deuxième étape : quel outil ? → choix de l'outil : annuaire ou moteur ?

Exemple : dans quelle pièce de Shakespeare apparaît le personnage de Caliban ? La démarche a avoir est la suivante : se demander : est-ce que je peux le trouver sur un annuaire (car petite base de données donc plus rapidement trouvé) ? Si non → google.

Dans un annuaire, il y a trois manières de chercher :

→ recherche en descendant dans les catégories, dans les sous-catégories, les sous-sous-catégories, etc …

→ on tape des mots-clés et on va voir les sites proposés comme dans un moteur de recherche ;

→ 7 fois sur 10 : plus efficace : on ne cherche pas trouver le site, mais pour trouver la bonne catégorie.

Il faut mieux utiliser un moteur de recherche : intitle : « Caliban Shakespeare » (ou l'inverse si il n'y a pas de résultats).

Troisième étape : taper les bons mots clés

quand on va taper nos mots-clés, il faut faire attention à utiliser des mots-clés qui sont probables. De plus, il faut être très précis et il faut mieux être bref

Quatrième étape : lorsque l'on fait une recherche, la première chose à faire est de regarder le nombre de résultats et en fonction de la recherche que l'on fait il faut évaluer s'il y a trop ou pas assez de résultats. Si, ceci n'est pas cohérent avec la recherche, il faut mieux refaire la recherche.

Annuaire : Dmoz est un annuaire particulier parce que les net surfer qui travaillent dessus ne sont pas des professionnels. Comme ils ne sont pas rémunérés, la base de données est très riche, mais parfois mal gérée.

Rechercher dans ce blog

Espiritu y pensamiento

Recherche documentaire et initiation à l'informatique - La recherche d'information

Commentaires

Enregistrer un commentaire

Articles les plus consultés

Interactions entre laïcité, fait religieux et travail social (suite)

Serge Antoine