L’application de nouvelles technologies 3D et de méthodes employant l’intelligence artificielle (IA) soutient clairement la recherche de pointe sur la biodiversité qui nécessite des données de haute qualité (représentations numériques 2D/3D, modèles, métadonnées). L’importance du corpus virtuel pour la représentation et la préservation des données et des connaissances en histoire naturelle est primordiale.
L’intégration du corpus dans une infrastructure ouverte et nationale créera une représentation numérique sans précédent de la mémoire du monde et élargira ainsi considérablement la base de données et de connaissances pour la recherche dans des disciplines fondamentales et appliquées – (biomécanique, ingénierie de l’architecture, robotique, écologie, évolution, botanique et pharmacopée économique, phytopathologie, épidémiologie, pêche, sylviculture, conception et gestion des zones protégées, évaluation de l’impact du changement climatique, etc.).
De nombreux scans représenteront des matériaux et des interfaces similaires (os / air ou os + tissus mous / air, ou kératine / air), l’Intelligence Artificielle (IA) peut permettre d’affiner la résolution des images et de retrouver des interfaces mieux résolues.
Les déformations difféomorphiques permettent de créer un atlas (taxon spécifique) et propager les labels associés aux différentes parties, structures d’intérêts afin de modéliser une surface, ou de circonscrire la zone d’intérêt. L’IA devrait permettre de corriger / optimiser ces processus, ainsi que d’harmoniser l’orientation des piles (stacks) d’images. Dans un second temps l’IA permettra d’optimiser la prédiction de marqueurs (landmarks) (cf Diamond et al. 2021, Devine et al. 2021).
L’indexation s’appuie sur des relations caractères-espèces, dont se déduisent les relations caractères-spécimens puisque l’on a déjà le lien entre spécimens et espèces, relations caractères-spécimens qui permettent d’annoter à grande échelle l’ensemble du corpus, afin d’entraîner les algorithmes de reconnaissance visuelle de caractères descriptifs dans les images. Ces relations caractères-espèces sont extraites de la littérature par fouille de texte.
L’annotation manuelle est associée aux bases terminologiques d’Xper3. Celle-ci fournira également des relations caractères-espèces depuis ses bases de connaissances existantes. Ces relations caractères espèces seront complétées par une fouille de textes sur les descriptions taxonomiques de la littérature.
La fouille de texte et l’analyse d’images permettent d’associer à chaque spécimen un ensemble de caractères descriptifs. Le corpus est indexé à l’aide de ces relations spécimens-caractères, et l’interface de recherche et de navigation s’appuie sur cette indexation.