Un graphe de connaissances à grande échelle, organisé et basé sur une ontologie, des tâches et des points de repère de l’intelligence artificielle

La validation et l’évaluation d’un graphe de connaissances et/ou d’une ontologie visent à évaluer si la ressource couvre de manière adéquate et précise le domaine qu’elle entend modéliser, et si elle permet une exécution efficace des tâches pour lesquelles elle a été conçue.

Les critères couramment utilisés pour évaluer les ontologies basées sur ces aspects comprennent précisionclartécomplétudeconcisionadaptabilitéefficacité de calcul et cohérence22

Précision indique si les définitions et les descriptions des éléments d’une ontologie sont correctes. Clarté mesure si les éléments de l’ontologie sont clairement définis et étiquetés, et compréhensibles pour l’utilisateur. L’obtention d’une précision et d’une clarté élevées a été assurée dans ITO grâce à une longue période de conservation manuelle de plusieurs mois.

Le critère de complétude se préoccupe de savoir si le domaine à modéliser est correctement couvert par l’ontologie, tandis que concision indique dans quelle mesure l’ontologie ne couvre que les éléments pertinents pour le domaine. Les deux critères sont assurés dans ITO grâce à l’approche de développement ascendante qui utilise des données existantes (c’est-à-dire des références extraites de serveurs de préimpression) et des concepts pertinents pour le domaine des processus d’IA au lieu d’une approche descendante qui commence par une ardoise vierge . S’appuyer sur des sources de données existantes, telles que la base de données PWC qui combine l’extraction automatisée de références à partir d’articles sur des serveurs de prépublication et l’annotation participative par plusieurs milliers de contributeurs permet une couverture de domaine élevée. L’exhaustivité a été testée plus avant en utilisant ITO pour annoter une collection de plus de 450 ensembles de données et de références d’IA dans le domaine biomédical, ITO couvrant tous les concepts requis pour annoter tous les ensembles de données13

adaptabilité se préoccupe de savoir si l’ontologie répond aux exigences définies par la gamme de cas d’utilisation pour lesquels elle a été construite. La facilité d’utilisation pratique de l’ITO pour ses applications prévues a été validée dans deux études récemment menées (Barbosa-Silva et al., manuscrit en préparation)12

Efficacité de calcul indique si les tâches anticipées de l’ontologie peuvent être accomplies dans des délais et des performances raisonnables en utilisant les outils disponibles. Même les requêtes complexes liées aux cas d’utilisation décrits ci-dessus peuvent être exécutées en quelques secondes sur du matériel standard lors de l’utilisation de la base de données de graphes Blazegraph hautes performances.

finalement, cohérence exige que l’ontologie soit exempte de toute contradiction. La cohérence interne a été vérifiée à l’aide de Protégé v5.5.0 et du raisonneur elk 0.4.323.24

En outre, des pièges courants dans la conception et la création d’ontologies ont été décrits, qui incluent, par exemple, la création d’éléments d’ontologie non connectés, des annotations lisibles par l’homme manquantes ou des cycles dans les hiérarchies de classes.25,26,27,28† ITO a été vérifié pour ceux-ci avec l’outil de vérification de la qualité de l’ontologie ‘OOPS!’27et les problèmes identifiés ont été résolus.

Les métriques d’évaluation d’ontologie ont été calculées avec l’outil Ontometrics29 et ont été utilisés pour l’évaluation de la qualité de l’ontologie à l’instar de Carriero et al30† Les métriques d’ontologie sont rapportées dans le tableau 4.

Tableau 4 Métriques d’évaluation d’ontologie.

la numéro d’héritage de 1,73 est faible, ce qui suggère que l’ITO est une ontologie profonde, c’est-à-dire que la hiérarchie des classes est bien regroupée et couvre le domaine de manière détaillée. la richesse relationnelle tel que calculé par l’algorithme Ontometrics de 0,002 est faible, ce qui est cependant dû au fait que la grande majorité des relations dans ITO sont capturées au niveau des individus OWL plutôt qu’au niveau des classes. Le rapport axiome/classe est élevé, indiquant une ontologie richement axiomatisée. la population moyenne un nombre de 5,62 indique un bon équilibre entre le nombre d’individus (c’est-à-dire, principalement des résultats de référence) et le nombre de classes dans la hiérarchie des classes utilisée pour structurer ces résultats. la richesse de classe de 0,49 suggère qu’environ la moitié des classes de l’ontologie ne sont pas instanciées par des individus ; cela est dû à Rendez-vousformat de données et sujet branches de l’ontologie qui sont principalement utilisées pour définir les attributs d’autres classes, plutôt que d’être elles-mêmes instanciées. La valeur de profondeur moyenne de 5,36 se situe dans les plages normales pour une ontologie de la taille donnée. La largeur maximale et la cardinalité fraternelle absolue de 4590 et 9037 sont très élevées. Cela est dû à la décision de modélisation de créer une classe de processus appelée Analyse comparative, qui est la superclasse directe du grand nombre de classes représentant les repères dans l’ontologie. Ce choix de conception a également conduit à une métrique d’enchevêtrement élevée, c’est-à-dire un grand nombre de classes avec plusieurs superclasses, puisque les classes de référence ont à la fois une tâche d’IA spécifique et la Analyse comparative classe comme superclasses directes. Bien que ce choix de conception particulier s’écarte des meilleures pratiques de conception d’ontologies, il s’est avéré favorable pour faciliter l’interrogation de l’ontologie, ce qui était un objectif de conception important.

Autres sources de données et travaux connexes

Outre PWC, nous avons également enquêté sur d’autres projets visant à suivre les tâches mondiales de l’IA, des références et des résultats de pointe ont été lancés ces dernières années en tant que sources de données potentielles. Parmi ceux-ci, le Ailaboratoire31 et IA de pointe (https://www.stateoftheart.ai/) se sont démarqués comme les ressources les plus complètes et les plus avancées.

« AIcollaboratory » est un cadre basé sur les données permettant d’explorer les progrès de l’IA. Il est basé sur des données d’articles annotés sur l’IA et sur des données ouvertes provenant, par exemple, de PWC, de métriques d’IA et d’OpenML. Comme pour les projets décrits ci-dessus, les résultats des benchmarks sont organisés hiérarchiquement et peuvent être comparés par tâche. De plus, la plate-forme fournit des diagrammes récapitulatifs qui combinent tous les résultats de référence par classe de tâches de niveau supérieur, par exemple, «Traitement du langage naturel» et affichent les progrès au fil du temps. Nous avons constaté que les données pertinentes dans AIcollaboratory étaient déjà couvertes par PWC et que le projet ne semblait pas être activement maintenu pour le moment.

“State of the art AI” collecte des tâches et des ensembles de données d’IA, des modèles et des articles basés sur des données de PWC, arXiv, DistillPub et autres. Semblable à PWC, il organise les tâches d’IA, permet une comparaison des résultats par tâche et les met à disposition sur une plate-forme Web. Cependant, les données ne sont pas disponibles au téléchargement au moment de la rédaction de cet article et les données pertinentes étaient déjà couvertes par PWC.

Certaines ontologies et taxonomies sont liées à l’ITO. la Ontologie de l’informatique (OSC)32 est une ontologie à grande échelle créée par l’exploration de la littérature qui capture les domaines de recherche et leurs relations en informatique. WikiCSSH fournit un vocabulaire à grande échelle et hiérarchiquement organisé de sujets en informatique dérivé de Wikipedia33† Par rapport à ITO, CSO et WikiCSSH ont une couverture inférieure du domaine des tâches d’IA. En dehors du domaine de l’informatique, les Ontologie de l’atlas cognitif fournit des concepts de cognition humaine qui chevauchent partiellement les concepts de l’IA34

Il existe plusieurs projets connexes qui visent à capturer les résultats scientifiques à travers des graphes de connaissances. la Graphique de connaissances sur l’intelligence artificielle (AI-KG) contient une grande collection d’énoncés de recherche extraits de manuscrits d’IA35† la Graphique des connaissances de la recherche ouverte (ORKG)36 capture les déclarations de recherche dans plusieurs domaines scientifiques. la Dynamique universitaire/industrielle (AIDA) Knowledge Graph décrit 21 millions de publications et 8 millions de brevets et utilise CSO pour les annotations.

Il existe également de multiples initiatives partiellement liées visant à créer de grands graphes de connaissances intégrés dans les sciences de la vie. Le décentralisé nanopublications infrastructure qui capture et intègre les déclarations de recherche et leur provenance, en particulier dans le domaine des sciences de la vie37† Des graphes de connaissances basés sur des ontologies plus centralisés qui ont été récemment publiés incluent OpenBioLink38Hétionet39 et PheKnowLator40

Maintenance et développement futur

Pour garantir la validité du contenu et suivre les développements rapides dans le domaine de l’IA, les nouvelles données disponibles seront périodiquement importées. De plus, le modèle ontologique sous-jacent fera l’objet d’un raffinement continu, et les développements futurs se concentreront également sur la création de correspondances entre l’ITO et d’autres ontologies et graphes de connaissances thématiquement pertinents, en particulier AI-KG, ORKG et CSO.

Leave a Comment

Your email address will not be published.