02.02.2012

Le web 3.0 au service de la recherche scientifique


Le web recèle des trésors parfois trop bien cachés. Philippe Cudré-Mauroux, professeur au Département d’informatique de l’Université de Fribourg, a mis au point un système de classification, basé sur le web sémantique, qui rend les recherches plus fiables, précises et exhaustives. Le projet, intitulé ScienceWISE, a reçu le prix de la meilleure démo et de l’outrageous idea à la 10e International Semantic Web Conference (ISWC) de Bonn.


(Photo: Thinkstock)

Le Prof. Cudré-Mauroux et son équipe ont collaboré avec des physiciens de l’EPFL et du CERN à la réalisation d’un système de recherche qui se réfère non plus à des mots-clés, mais au contenu des articles publiés sur le web. Le système se base sur des ontologies : des réseaux sémantiques qui forment des schémas de données. Ainsi, l’utilisateur peut naviguer à l’intérieur d’un graphe en passant d’un concept à l’autre et en découvrant des thématiques connexes à celle de départ ou de nouvelles définitions.

Les systèmes par mots-clés utilisés par les portails de recherche classiques montrent leurs limites. Il suffit qu’un article, bien que pertinent, ne contienne pas exactement le mot recherché, soit rédigé dans une autre langue ou utilise des synonymes pour qu’il ne soit pas recensé dans les résultats. Ainsi, un grand nombre de références risquent de passer aux oubliettes et le résultat s’en trouve tronqué.

«L’impulsion de ce projet est venue d’Alexey Boyarksy et de Oleg Ruchayskiy, tous deuxphysiciens, respectivement à l’EPFL et au CERN. Au cours de leurs recherches, ils ont pu constater l’inefficacité du système de recherche par mots-clés pour obtenir des résultats pertinents et exhaustifs. Nos compétences en informatique devaient donc résoudre un problème tout à fait concret», explique le Prof. Cudré-Mauroux. En partenariat avec le site http://arXiv.org, le plus grand portail de physique mondial, le professeur et son équipe ont mis au point une ontologie de la matière noire qui démontre l’efficacité de leur système. Celui-ci permet non seulement d’importer automatiquement tous les papiers concernant le sujet depuis l’ensemble du web, mais aussi d’établir un ranking, afin d’offrir les papiers les plus pertinents en premier.

Organiser le web scientifique

Le web sémantique se compose de données structurées qui peuvent être automatiquement traitées par des machines. Ce que d’aucuns qualifient déjà de Web 3.0 ouvre un nouveau champ de possibilités où les données et les services peuvent être mis à disposition, utilisés et combinés librement, aussi bien par des agents humains que par des logiciels automatisés. Sur la base de données brutes en format RDF, des algorithmes effectuent le travail de codification de manière automatique et peuvent même élaborer de nouveaux concepts et les mettre en réseaux. Les experts et les utilisateurs peuvent ensuite affiner cette classification en taguant les papiers qu’ils consultent et en ajoutant des concepts manquants. «ScienceWISE fonctionne déjà très bien et rencontre un grand succès auprès des physiciens, explique Philippe Cudré-Mauroux. Nous aimerions maintenant proposer un système similaire pour classifier les papiers en informatique. Notre ambition est de concevoir un des systèmes les plus importants pour l’organisation de papiers scientifiques.»

Le projet est réalisé en collaboration avec le laboratoire de systèmes d'information répartis du Prof. Karl Aberer à l'EPFL et avec le CERN. Soutenu par le pool de recherche de l’Université de Fribourg, le projet ScienceWISE a obtenu le prix de la meilleure démo et de l’outrageous idea à la 10e International Semantic Web Conference (ISWC) de Bonn, le plus grand forum international de web sémantique.

Plus d’infos:
http://sciencewise.info
http://diuf.unifr.ch/xi/

Contact: Prof. Philippe Cudré-Mauroux, Département d’informatique, 026 300 83 32, philippe.cudre-mauroux@unifr.ch