LaCAS - une plateforme web dédiée à la collecte, au traitement et à la valorisation des études aréales
LaCAS comprend deux portails:
- Le portail LaCAS Data. LaCAS Data est réservé au moissonnage et au traitement (analyse, indexation, structuration...) des données de recherche. Le fonctionnement de ce portail repose sur le logiciel OKAPI ("Open Knowledge Annotation and Publishing Interface").
- Le portail LaCAS Publications. LaCAS Publications est réservé aux projets de publication, de communication et de valorisation des données qu'on peut trouver sur LaCAS Data. Ce portail utilise la technologie du CMS Drupal.
Les activités centrales qui distinguent la plateforme LaCAS
1. Acquisition par curation et moissonnage de données multimodales de recherche qui documentent les études pluridisciplinaires consacrées aux aires (géographiques, culturelles, historiques…) du monde.
En constante progression quantitative (environ 150.000 données documentaires sur LaCAS Data, fin mai 2024), la plateforme LaCAS collecte ses données documentaires dans les principaux entrepôts publics de recherche Hal/Médihal (moissonnage automatique) ainsi que Nakala, Zenodo, Gallica, Calame, Isidore, Persée, Open Alex, Semantic Scholar (curation et moissonnage).
2. Réalisation d'une ontologie du domaine LaCAS.
La plateforme LaCAS est une base de connaissance qui repose sur un modèle conceptuel selon lequel sont gérées et traitées toutes les données. L'ontologie du domaine LaCAS est basée sur les formalismes du web sémantique (triplets rdf/owl 2). Elle est formée de trois modèles principaux:
- le modèle des objets de connaissance LaCAS;
- le modèle du thésaurus LaCAS (cf. ci-après);
- le modèle des ressources documentaires multimodales.
L'ontologie LaCAS bénéficie de travaux antérieurs de modélisation réalisés dans le cadre d'un programme de recherche intitulé "Archives audiovisuelles de la recherche" de l'équipe ESCoM à la Maison des Sciences de l'Homme à Paris entre 2001 et 2016.
3. Réalisation du thésaurus LaCAS dédié aux études aréales.
Organisé en 10 grands domaines de connaissance, le thésaurus LaCAS comprend aujourd'hui (fin mai 2024) environ 8000 termes dont la plupart sont alignés, décrits et documentés par de corpus de données multimodales de recherche.
Un tiers de termes est fairisé. Tous les termes sont soumis à un processus d'alignement sur les référentiels suivants: Wikidata, Dbpédia, Géonames, Loterre (CNRS), Idref, Scan-R, ROR, Viaf, Bnf Rameau, EuroVoc, Pactols, Cocoon/Glottolog, Getty AT&T, Iconclass, thésaurus des objets mobiliers du Ministère de la Culture.
Cependant, un sous-ensemble relativement important de termes n'est pas alignable. Ces termes représentent en effet un contenu conceptuel spécialisé et spécifique à des problématiques aréales qu'aucun référentiel ne prend (encore) en compte.
4) Structuration, indexation et annotation de ressources documentaires multimodales préalablement moissonnées.
Les ressources documentaires moissonnées (cf. supra) sont indexées par lots et/ou individuellement selon des besoins éditoriaux spécifiques (création de collections de données ; publication de dossiers consacrés à une problématique particulière, etc.):
- structuration: une donnée peut être, si pertinent, décomposée en plusieurs segments (cas d'une ressource audiovisuelle), en plusieurs régions (cas d'une ressource visuelle ou 3D) ou plusieurs "chapitres" (cas de ressources textuelles);
- indexation: l'indexation d'un lot de données ou indexation d'une donnée individuellement se fait exclusivement à l'aide du thésaurus LaCAS (cf. supra);
- annotation: les annotations se basent sur des sources extérieures, des contributions de spécialistes et, aujourd'hui également, sur l'usage systématique d'outils d'intelligence artificielle tels que ChatGPT4;
5) Regroupement et création de collections de données
Aussi bien les ressources documentaires que les termes du thésaurus ou encore les données institutionnelles de la recherche (chercheurs, équipes de recherche, établissements de recherche...) peuvent être regroupés pour former des collections ou des "archives vivantes" de la recherche dédiée à une aire géographique, historique ou culturelle, des activités d'un projet de recherche, des contributions scientifiques d'un chercheur, etc.
6) Production d'annuaires en recherche aréale
Lors du moissonnage de données documentaires sont importés, entre autres, le nom de l'auteur ou des auteurs et leur(s) affiliation(s) institutionnelle(s). Sur la base de ses éléments, des annuaires des chercheurs et des équipes (par établissement, par critères disciplinaire, par aire géographique…) sont réalisés et continuellement mis à jour. Un troisième type d'annuaire comprend les projets de recherche en études aréales.
7) Publication/republication de données de recherche sur LaCAS Publications.
Toute donnée enregistrée dans la base de connaissance LaCAS peut servir à des projets de publication et de communication les plus divers.
Sur LaCAS Publications on peut trouver, entres autres, plusieurs séries de publications. Une première série est consacrée aux travaux en cours de chercheurs en études aréales; une deuxième série est consacrée à la connaissance d'une aire bien identifiée et circonscrite; une troisième série est réservée à l'exploration d'une thématique ou d'une problématique particulière dans une perspective comparative, une quatrième série propose des dossiers thématiques sur des aires et époques du passé (récent et lointain).