L'enjeu du Web sémantique est d’enrichir les fichiers de métadonnées pour permettre aux machines d’interpréter leur sens et ainsi faciliter la recherche d’informations pertinentes.
Quiconque utilise les moteurs de recherche a pu constater leurs limites : ils ne traitent que les requêtes simples, basées sur des mots clés, éventuellement combinés à l’aide des opérateurs logiques Et, Ou, Sauf. Par suite, les résultats qu’ils fournissent sont hasardeux. La raison en est que le Web est constitué, à profusion, de documents non structurés, reliés par des liens hypertextes.
C’est ce qui a incité le créateur du Web, Tim Berners-Lee, à l’améliorer avec le Web sémantique. Selon lui, c’est « la prochaine évolution du Web » où les données publiées sur la Toile seront “compréhensibles” par les ordinateurs afin d’apporter à l’utilisateur des réponses plus pertinentes à ses requêtes, formulées en langage naturel. Il sera alors possible, par exemple, de trouver les articles publiés dans des journaux sélectionnés à partir de telle date et couvrant des thèmes bien définis. Pour atteindre cet objectif, le Web sémantique propose de structurer les informations publiées sur le Web, en les enrichissant de données descriptives exploitable par les PC. Cette ambition n’est pas sans en rappeler une autre, apparue au début de l’informatique il s’agissait de doter les ordinateurs de la capacité de comprendre le langage humain afin de permettre à chacun de communiquer avec un ordinateur sans avoir à formaliser sa demande dans les termes et avec la syntaxe propres au langage informatique, que seuls les professionnels maîtrisent.
Ce domaine, à la frontière de la linguistique et de l’informatique, s’appelle le traitement automatisé des langues (TAL). Les nombreux travaux réalisés sur ce thème ont donné lieu à plusieurs applications, aux fortunes diverses, en matière d’interfaçage homme-machine (reconnaissance de la parole, traitement de requêtes en langage naturel...) et de productivité (comme la traduction et l’extraction d’informations). Avec l’émergence du Web, ces questions de traitement sémantique, par des machines, des documents publiés en ligne on t connu un reain d'intérêt.
Mais, bien que proches en apparence, Tal et Web sémantique ne procèdent pas de la même démarche. Celle relative au Tal vise à comprendre le langage humain. Cela passe par des opérations comme la segmentation du texte à traiter afin d’en sélectionner les mots et les phrases; d’identifier les noms propres, les noms communs, les verbes... ; de repérer le sujet, le verbe et les compléments... L’évaluation du sens se fait par confrontation de la phrase ainsi analysée avec une base de connaissances qui définit le sens des mots, relie ceux relevant du même champ sémantique, etc. En clair, le TAL vise à analyser le langage humain afin de le rendre exploitable par les machines.
De son côté, le Web sémantique postule que le langage humain est dépourvu d’une sémantique calculable (exploitable par les ordinateurs) et
qu’il faut donc, pour automatiser certains traitements sur les contenus, enrichir ces derniers d’informations formelles. Le Web sémantique fait l’objet d’un travail de standardisation au sein du World Wide Web Consortium (W3C), aboutissant à la publication des trois spécifications suivantes. La plus connue est XML, complétée plus récemment par RDF 1.0 et OWL 1.0. Comme chacun le sait, XvlL permet de fournir les règles et la syntaxe de définition des documents et données structurés. RDF (Resource Description Framework) fournit des règles pour définir des métadonnées et OWL (Ontology World Language) sert à créer des ontologies.
Les métadonnées sont les informations descriptives associées à une ressource du Web, destinées à en faciliter l’exploitation par un logiciel. Dialecte XML, RDF 1.0 consiste à décrire un contenu Web sous la forme de triplets (en simplifiant : {sujet, verbe, complément}) organisés en graphe. Les ontologies, elles, permettent d’attribuer telle ou telle signification aux métadonnées. Elles formalisent la sémantique d’un domaine pour la rendre interprétable par une machine. Les plus simples, fondées sur le principe des bases de données, décrivent formellement la sémantique qui existe entre les champs d’une base de données. Taxinomies ou thesaurus sont des exemples simples d’ontologie, en ce qu’ils se cantonnent à décrire des liens sémantiques du type "est une sorte de" "est représenté par" etc.
En comparaison, OWL 1.0 est un langage beaucoup plus riche qui ajoute les propriétés de classe équivalente, d’identité de deux ressources, de différences de deux ressources, de contraire, de symétrie, etc., permettant de définir des rapports complexes entre ressources (par exemple "fait partie de" "est localisé dans" "est possédé par" "est associé à"..). Les ontologies les plus abouties autorisent l’intégration de propriétés particulières, de règles d’utilisation et de contraintes. Avec XML, RDF et OWL, les éditeurs de contenus disposent des premières briques du Web sémantique. Mais la route est longue avant que le Web grand public soit doté de capacités sémantiques facilitant la recherche de l’information pertinente. Les premières applications concerneront des contextes plus restreints, par exemple des projets de gestion de la connaissance en entreprise. Là encore, le passage à la pratique ne sera pas immédiat car la création des ontologies est délicate et nécessite de disposer de méthodes et d’outils qui font encore défaut.