|
Turku
Finlande 2006
© E. de Pablo |
|
V/ Localisation et exploration d'une information dans un corpus audiovisuel - exemple et scénario "idéal"
L'hypertextualité et l'exploration d'un corpus audiovisuel
Dans le contexte des AAR au sens d'un SIC (système d'information et de communication), l’hypertextualité est une fonction particulière. Rappelons que la localisation d'information comprise comme une activité particulière d'une veille d'information recouvre:
l'identification ou la localisation stricto sensu d'une information pertinente (par rapport aux besoins ou intérêts, désirs, ... d’un utilisateur/visiteur);
l'exploration du ou des contextes potentiellement pertinents pour "approfondir" la compréhension et la connaissance d'une information localisée;
l'évaluation (la hiérarchisation préférentielle) des ressources "contenant" une information cherchée par rapport à leur intérêt pour l'utilisateur.
La fonction hypertextuelle est concernée surtout par la deuxième et aussi, d'une manière peut-être moins évidente, par la troisième étape dans l'activité de la veille.
Exemple: veille d'information sur le portail thématique audiovisuel "Patrimoine Culturel des minorités et des peuples Indigènes" (PCI)
Comme la plupart des SIC "standard", aussi le PCI propose des outils de base pour accéder à son fonds audiovisuel:
un moteur de recherche multilingue;
un catalogue thématique représentant grossièrement sous forme de grands taxèmes les connaissances du domaine de référence;
un catalogue "collections";
un index des noms d'auteurs ayant contribués à la constitution du fonds.
Le moteur de recherche: état actuel et perspectives
Le moteur de recherche, développé par Francis Lemaitre (ESCoM-FMSH), s'appuie notamment sur une indexation systématique, structurée, normalisée et multilingue du fonds audiovisuel PCI:
systématique: chaque événement scientifique ainsi que chaque "partie" d'un événement scientifique du PCI fait objet d'une indexation;
structurée: l'indexation par mots clés suit un cadre méthodologique et thématique que nous avons spécifié et développé dans le cadre d'une sémiotique textuelle (pour des références, cf. ci-après);
normalisée: le processus de l'indexation suit une procédure établie (priorité aux entités nommées; consignes grammaticales et orthographiques; ...);
multilingue: la plupart des index sont traduits obligatoirement en anglais et espagnol ainsi que d'une manière assez recurrente en allemand, polonais, russe, italien, ...
Ceci dit, il subsistent, actuellement, d'importantes limitations:
l'aspect multilingue de l'indexation n'est pas encore réellement mis en valeur par le moteur de recherche;
l'indexation (aussi bien des fichiers que de n'importe quel segment) se fait d'une manière exclusivement manuelle (cf. les enjeux de l'intégration des technologies "speech to text", du "text mining" et du "knowledge management");
tout en étant "bridés", les index sont produits librement - il n' y a pas recours à un "vocabulaire contrôlé";
tout en étant classifiés dans les grands taxèmes de l'analyse thématique, les index devraient être classifiés (d'une manière automatique ou moins interactive) en des catégories plus spécialisées (correspondant au catalogue thématique du PCI);
enfin, il manque au moteur de recherche actuel un composant - même très simple - d'analyse linguistique permettant de "traduire" la requête d'un utilisateur vers le vocabulaire composant l'index même si cette requête ne reproduit pas exactemment tel ou tel "mot" composant l'index (cf. la distinction nécessaire à maintenir entre le langage interne de description-indexation qui est un méta-langage et les langages propres aux utilisateurs et à l'aide desquels ils expriment leurs besoins, intérêts, désirs d'information - langages d'utilisateurs qui doivent être "traduits" vers le langage de description interne et vice versa).
Références:
la version 1.0 du modèle d'indexation structurée et multilingue du contenu audiovisuel - modèle utilisé pour indexer les ressources audiovisuelles des AAR, PCI, DLC, MDC, etc.
exemple d'une indexation structurée et multilingue (français, anglais, allemand) de l'entretien avec Betty Rojtman sur la modernité et le judaïsme, réalisé en mai 2005 et publié en janvier 2006.
Le catalogue thématique: état actuel et perspectives
Le catalogue thématique propose un accès via une liste structurée de thèmes représentant les connaissances du domaine PCI. Malgré sa forme actuellement encore simple et statique, il s'agit ici d'un outil - potentiellement - très puissant.
Chacun des thèmes composant le catalogue propose une liste d'une ou de plusieurs documents audiovisuels de longueur assez variable. C'est le cas, par exemple, du thème "Hygiène et santé" qui pointe actuellement (en décembre 2006) sur 5 événements scientifiques dont chacun est publié sous forme d'un "vidéo-livre interactif" composé d'un ensemble de "chapitres vidéos" (cf. par exemple, le vidéo-livre de l'entretien avec Gregory Maskarinec sur le chamanisme au Népal).
Ceci dit, contrairement à ce qui est proposé actuellement, un enjeu central pour une version ultérieure du catalogue thématique est que le lien hypertextuel qui a son origine dans un thème spécialisé (i.e.: Hygiène et santé) , ne pointe pas sur le document audiovisuel en entier (i.e. le vidéo-livre contenant l'entretien avec Gregory Maskarinec) mais directement sur le « passage » ou, plutôt les passages où sont développées les informations relatives au thème choisi.
Cela présuppose la segmentation et l'indexation du flux audiovisuel en séquences thématiquement pertinentes - un travail "manuel" assez lourd exigeant les outils nécessaires ainsi qu'une bonne représentation des connaissances (exprimée, par exemple, sous forme de "patterns", de "schémas" thématiques appelés techniquement "graphes conceptuels").
Les thèmes composant la liste du catalogue actuel sont indépendants les uns des autres - ils ne sont pas "connectés" entre eux. Cela a des conséquences importantes sur l'activité de la veille d'information dans le corpus audiovisuel.
Par exemple, un thème à lui seul donnant accès à une liste de passage ne peut représenter que trop partiellement une information recherchée – l’information recherchée est mieux représentée par plusieurs thèmes "ensemble" (par exemple : au lieu de "pratiques d'hygiène et de santé", plutôt "pratiques d’hygiène et de santé" chez les peuples indigènes habitant la région des Andes").
Pour réaliser cet objectif, les thèmes doivent donc être définis sous forme de configurations, de "patterns" ou "schémas" que sont des modèles de connaissances d'un domaine. Techniquement, ces configurations ou schémas forment des graphes conceptuels. Un graphe conceptuel est un objet constitué de n thèmes, de relations (unaires, binaires, ...) entre ces thèmes et de contextes d'enchâssement faisant en sorte qu'un graphe entier peut être "encapsulé" en un autre graphe. Enfin chaque thème - correspondant grosso modo à la notion "concept" dans la théorie des graphes conceptuels (J. Sowa) - possède obligatoirement un champ "référent" qui est composé, dans notre cas, soit par les mots clés provenant de l'indexation soit par le time code localisant un graphe et les mots clés sur le flux audiovisuel.
Former des graphes conceptuels représentant des modèles de connaissances du domaine PCI, présuppose que :
-
tous les thèmes soient définis dans une ontologie référentielle (i.e. une ontologie spécifiant le vocabulaire du langage pour décrire le domaine de connaissances PCI);
- toutes les relations soint définies dans une ontologie relationnelle (i.e. une ontologie spécifiant le vocabulaire du langage pour décrire comment se contracte les différents thèmes pour former des "modèles de connaissances".
La possibilité d'utiliser des graphes conceptuels en veille d'information pour un corpus tel que celui du PCI, permettrait donc d'exprimer une requête, une demande d'information qui sollicite le recours à plusieurs thèmes. Mais l'utilisation des graphes conceptuels permet également:
-
La hiérarchisation de passages (segments) audiovisuels (textuels) selon le degré de proximité entre une demande formulée par l'utilisateur (et "traduite" en un graphe conceptuel) et son contenu (également "traduite", voire plutôt: indexer en graphe conceptuel). Même si aucun passage ne se trouve dans le corpus qui développe exactement l’information recherchée certains passages peuvent développer des informations plus ou moins proches. Par exemple, même s'il n’y a pas, dans le corpus PCI, de passages relatifs aux pratiques d’hygiène chez les indigènes Huarpe on y trouve, néanmoins, des passages sur les pratiques d’hygiène chez les indigènes Mapuche et aussi des passages relatifs à d’autres pratiques chez les indigènes Huarpe, ...).
- (Via les relations entre les thèmes et quelques règles de production de graphes) la construction "dynamique" de contextes potentiellement pertinents pour pouvoir explorer et évaluer une information localisée dans un segment du corpus PCI. Par exemple : le passage sélectionné « exemples de la pratique d’hygiène et de santé chez les indigènes Huarpe », peut-il être complété par d’autres passages proposant, des informations sur ce type de pratique chez d'autres indigènes dans la même région ou ailleurs ou encore des informations sur d'autres pratiques chez les indigènes Huarpe, etc.)?
Ainsi, dans une version ultérieure (pour le PCI, un premier prototype sera disponible vraisemblablement en septembre 2007), le catalogue thématique construira dynamiquement, à partir de la requête d'un utilisateur, les contextes potentiellement pertinents soit pour identifier une information recherchée soit pour explorer, à partir d'une information identifiée et localisée, son univers sémantique.
Références:
Accès à l'éditeur ontologique CoGui, développé par Alain Guiterrez du LIRMM et servant à la réalisation des ontologies référentielles, relationnelles et rhétoriques en vue de la création de graphes conceptuels pour les ressources audiovisuelles faisant partie du fonds des AAR, du PCI, du DLC et du MDC;
Accès à la première version de l'ontologie référentielle, relationnelle et rhétorique pour décrire et indexer les connaissances relatives au domaine "Diversité Linguistique et Culturelle";
Accès à la première version d'une base de graphes patron servant à l'indexation du contenu du corpus audiovisuel "Diversité Linguistique et Culturelle" et à son exploration.
Le catalogue "collections (des vidéos)": état actuel et perspectives
Le catalogue "collections (des vidéos)" présente aussi, dans sa version actuelle, un outil très simple et approximatif d'accès au fonds audiovisuel et de localisation d'une information pertinente dans ce fonds.
Ceci dit, l'hypothèse qui "se cache" derrière cet outil d'accès, c'est celle que toute ressource audiovisuelle composant le fonds du PCI peut être caractérisée par un, voire plusieurs genres de discours (entretien et conférence, certes, mais aussi témoignage, biographie, récit de découverte, chronologie d'événements, description rhétorique - portrait, étopée, prosopopée -, homélie, etc.).
Il s'agit donc à la fois d'examiner les principaux genres de discours qui organisent le corpus PCI et de spécifier une ontologie de genres de discours qui, formellement, fonctionne de la même façon que l'ontologie référentielle citée ci-dessus.
En "croisant" les thèmes interprétés par leurs référents (les mots clés provenant de l'indexation) avec la liste des genres de discours, des requêtes ou encore des guides de requête/d'exploration du genre "récits de découverte de peuples indigènes à ..."/"tableaux de moeurs de peuples ..."/portraits de grands ethnologues ..."/ etc. deviennent possibles. On pourra également filtrer les requêtes par rapport aux actes de discours "de base" tels que "définition", "description - explication - exemple", synthèse, etc.
|
|

|