Volumes horaires
- CM 15.0
- Projet -
- TD 15.0
- Stage -
- TP -
- DS 2.0
Crédits ECTS
Crédits ECTS 0.5
Objectif(s)
L'objectif des cours est de montrer les fondements scientifiques des tâches les plus répandues en Recherche d'Information (RI). Le souci principal est de proposer un exposé cohérent des algorithmes classiques développés dans ce domaine, et de connaître le mécanisme des outils de l'internet qu'on emploie tous les jours. Cette étude ne se limite pas à l'application initiale de RI et s'intéresse aussi aux problèmes connexes dans lesquels de nombreuses avancées techniques ont été réalisées ces dernières années.
Contenu(s)
1. Indexation, représentation et compression (2 séances)
-----------------------------------------------------------------
Les constructions du dictionnaire et de l'index inversé, ainsi que la représentation vectorielle des documents, constituent le point de départ dans toutes manipulations et recherche en RI. Dans une collection de documents donnée, construire le dictionnaire ou le vocabulaire correspond à extraire une liste de termes utiles, caractéristiques des documents présents dans la collection. L'autre concept fondamental en RI est la constitution de l'index inversé. Il s'agit ici de construire, pour chaque terme du dictionnaire, la liste des index de documents contenant ce terme. Cette liste, aussi appelée liste inversée, rend l'appariement entre les requêtes et les documents de la collection plus efficace. Pour les très grandes collections de données, un problème majeur est le stockage de l'index et du dictionnaire dans la mémoire ou sur le disque. Le défi dans ces cas est de trouver un moyen de compression simple et rapide des données.
2. Recherche d'Information (3 séances)
---------------------------
---------------------------
Ce chapitre constitue le coeur de ce module. Pour un besoin d'information donné, le système de recherche le transcrit sous forme d'une requête, constituée de mots-clés, et lorsque l'utilisateur regarde le résultat de la recherche, il voit les documents triés par ordre décroissant de pertinence. Si la requête est une expression booléenne, l'utilisation de l'index inversé permet de trouver facilement et en un temps minimal tous les documents qui satisfont cette requête. En revanche, les systèmes booléens purs ne permettent pas de retrouver les documents similaires au besoin d'information de l'utilisateur et ne contenant pas exactement les termes de la requête. Plusieurs modèles ont été développés pour pallier ce problème, depuis les modèles vectoriels jusqu'aux modèles probabilistes. De même, plusieurs stratégies, qui consistent à étendre la requête afin d'y inclure des termes similaires mais non mentionnés originellement par l'utilisateur, ont vues le jour afin d'
enrichir ces différents modèles.
3. Recherche sur le web (1 séance)
-----------------------------------------------
La toile (ou le web) est un entrepôt dynamique et distribué de documents qui, par sa taille, par le manque de supervision dans la génération et la suppression de documents, ainsi que par la diversité du type de ces derniers, rend la recherche bien plus difficile que la recherche traditionnelle effectuée sur des collections classiques. Les premiers moteurs de recherche sur la toile reproduisaient néanmoins directement les méthodes de RI classiques, le défi principal étant de gérer des index inversés de très grandes tailles. La prise en compte, vers la fin des années 90, d'une des caractéristiques essentielle du web, à savoir les liens hypertexte reliant les documents entre eux, a permis, d'une part, de réaliser une meilleure indexation des pages web et, d'autre part, de donner un score de notoriété à chaque page sur la base de la topologie de la toile. Cela a conduit à la
première génération des moteurs de recherche vraiment adaptés au web, dont Google fut le prototype. De nos jours, d'autres éléments sont pris en compte et les modèles utilisés reposent sur des techniques récentes d'apprentissage automatique.
4. Classification de documents. (4 séances)
------------------------------------------------------
Un système de classification de documents a pour but de catégoriser automatiquement une collection de documents suivant un ensemble de classes prédéfinies. Un exemple de tels systèmes est le catégoriseur de courriers électroniques incorporé dans la plupart des boîtes emails et qui place les courriers suspects automatiquement dans le dossier des courriers indésirables. Les systèmes de classification sont généralement conçus avec des techniques issues de l'apprentissage statistique et opèrent en deux phases. La première phase est la phase d'entraînement, lors de laquelle les paramètres du système sont réglés sur une base d'apprentissage contenant des
documents avec leurs classes respectives. Durant cette phase le système apprend l'association entre les documents et leurs classes. C'est lors de la seconde phase, dite de test, que le système assigne une classe à chaque nouveau document entrant. Habituellement, les paramètres des systèmes d'apprentissage sont mis à jour périodiquement pendant le laps de temps où il n'y a pas de traitement à faire sur des documents arrivant.
Notions de bases en probabilités
30% contrôle continu
70% examen terminal :
- 1 épreuve écrite - 1h30
- supports de cours autorisés
- calculatrices non communicantes autorisées.
- En cas de tiers-temps : 1/3 de temps supplémentaire
En cas de non validation d’une UE, le jury peut autoriser l’élève ingénieur à passer des épreuves complémentaires pour la valider.
Code de l'enseignement : KAIN8M14
Langue(s) d'enseignement :
Vous pouvez retrouver ce cours dans la liste de tous les cours.
Cours basés sur le livre
Modèles et Algorithmes en Recherche d'Information et ses Applications. Massih-Reza Amini et Eric Gaussier, 246 pages (avec une trentaine d'exercices corrigés), Editions Eyrolles, Avril 2013, ISBN13 : 978-2-212-13532-9.