Le Web Sémantique

Le World Wide Web (ou WWW) affiche des « pages web » (documents numériques), organisées autour d'une page d'accueil, jouant un point central dans la navigation à l'aide des liens hypertextes et articulées autour d'une structure d'accueil appelée « site web ».

L’idée centrale de l’initiative Web sémantique est de rendre la signification (le signifié) du contenu Web accessible et traitable par la machine. Le Semantic Web crée des langages interprétables par des machines sur la base issue des sciences cognitives. Il y a réduction de la distance entre une approche humaine et une approche machine avec pour cette dernière la capacité de traiter des millions de données en un temps record. Cela permet le développement d'outils et de systèmes sophistiqués qui peuvent fournir des fonctionnalités beaucoup plus élevées au soutien des activités humaines sur le Web. 

Le Web sémantique repose sur la combinaison des technologies suivantes:

  • Métadonnées explicites: elles permettent aux pages Web de porter à la fois la représentation (signifiant) et la signification (signifié).
  • Ontologies: la description des principaux concepts d'un domaine et leurs relations. 
  • Raisonnement logique: tirer des conclusions de la combinaison entre des (méta)données et des ontologies.

HTML : HyperText Mark-up Language

Le HTML est un langage à « balisage » dont le rôle est de formaliser la représentation d'un document contenant des balises de formatage qui est un sous-ensemble du « Standard Generalized Markup Language ». Ce langage s'appuie sur un ensemble de balises prédéfinies, qui contrôlent l'apparence d'une page Web (telles que des listes en gras, en italique, numérotées ou non, des sauts de ligne, etc.) et les liens qu'il établit avec d'autres documents. 

Le langage HTML permet notamment la lecture de documents sur Internet à partir de machines différentes, grâce au protocole HTTP, permettant d'accéder via le réseau à des documents indexés par une adresse unique, appelée URL (Unique Resource Locator).

XML : Extensible Mark-up Language

XML est un méta-langage à balises indépendant d’un domaine (permettant de définir un langage de balisage). XML permet aux utilisateurs de définir leurs propres balises définissant la structure d'une page Web, qui peut ainsi être traitée par une machine informatique. Les balises XML ne décrivent pas l'apparence des pages Web (voir HTML) ! XML sépare le contenu de la mise en forme, une propriété fort utile pour définir différentes représentations et vues à partir de données identiques sur different périphériques.

XML comprend une famille de langages prenant en charge diverses activités autour du langage principal:

  • DTDs (Document Type Definition) et XML schéma : deux languages qui permettent à l’utilisateur de définir son propre vocabulaire.
  • XPath: langage permettant l’accès à des parties de documents XML. L'accès est la condition préalable nécessaire à l'interrogation de documents XML.
  • XQuery: un langage de requête pour XML.
  • XSLT: langage définissant les transformations de XML en HTML ou entre représentations XML. XSLT est un outil essentiel pour la manipulation syntaxique de documents XML.

Dans la conception du Web sémantique, XML fournit la couche de base pour la manipulation syntaxique. Bien que XML soit un langage universel pour définir le balisage, il ne fournit aucun moyen de parler de la sémantique (signification) des données. Par exemple, il n'y a pas de sens associé (signifié) à l'imbrication de balises; il appartient à chaque application de générer une association représentation/signification pour l’importation ou l’exportation de données.

RDFResource Description Format

RDF et RDF Schema fournissent les langages de base pour le Web sémantique

RDF est un langage de description de ressources avec une syntaxe en XML. A la base une déclaration, un triplet consistant en une Entité (appelée ressource dans la terminologie Web), une Propriété et une Valeur (qui peut être une autre ressource). Essentiellement, une déclaration est un fait P (a,b) où P est une propriété binaire et a,b sont des ressources. Dans la conception Web sémantique, RDF définit une couche résidant au-dessus de XML. 

RDF est indépendant d’un domaine en ce sens qu'il ne fait aucune hypothèse sur un domaine d'utilisation particulier. Il appartient à l'utilisateur de définir sa propre terminologie dans un langage de schéma appelé RDF Schema qui constitue un langage ontologique primitif offrant les fonctionnalités suivantes :

  • Organisation d'objets en classes
  • Sous-classe - sous-propriétés - relations.
  • Domaine / plage et restrictions sur les propriétés.

Le pouvoir expressif des schémas RDF et RDF Schéma est délibérément très limité: RDF est limité (en gros) aux prédicats de base binaires, et RDF Schéma est limité (en gros) aux hiérarchies de sous-classes et de sous-propriétés, avec des restrictions de domaines et de « range » de propriétés.

OWL : Ontology Web Language

Une classe déclare des propriétés communes à un ensemble d'objets, des attributs représentant l'état des objets et des méthodes représentant leur comportement. Elle apparaît comme un moule ou une usine à partir desquels il est possible de créer d’autres objets ; dans ce cas, il s’agit d’une instance d'une classe (création d'un objet ayant les propriétés de la classe).

Il existe un certain nombre de cas d’usage caractéristiques du Web sémantique qui nécessitent davantage d'expressivité. Ces extensions comprennent:

  • Disjonction des Classes
  • Combinaisons booléennes de Classes
  • restrictions de cardinalité
  • Caractéristiques spéciales des propriétés
  • Portée locale des propriétés: rdf: range définit la plage d'une propriété, pour toutes les classes. Mais parfois, nous pouvons vouloir limiter la plage, en fonction de la classe.

OWL (Web Ontology Language) est basé sur RDF/S, et cherche à trouver un équilibre entre pouvoir expressif et support de raisonnement efficace. Le raisonnement est important car il permet de:

(a) vérifier la cohérence d'une Ontologie et des Connaissances;

(b) vérifier les relations imprévues entre les Classes et

(c) classer automatiquement les instances dans des Classes.

Logique

La base formelle du langage OWL est une branche de la représentation des connaissances et du raisonnement appelée «logique de description». Bien que cette fondation soit prometteuse, il existe une approche différente de la représentation et du raisonnement fondé sur des règles. Ses principaux avantages sont:

  • Les moteurs de règles existent et sont assez puissants.
  • Les règles sont bien connues et utilisées dans l'informatique traditionnelle et sont plus faciles à apprendre pour les utilisateurs.

Les systèmes de règles peuvent être considérés comme une extension ou une alternative à OWL. La première idée est d’analyser les recherches actuelles en essayant d’intégrer les logiques de description et les règles, tout en maintenant un support de raisonnement quelque peu efficace. Cette dernière idée étudie l’utilisation de RDF / S conjointement avec des règles comme base d’un autre langage d’ontologie Web.

Outre les systèmes de règles classiques, il est intéressant d’envisager des systèmes pouvant traiter des conclusions contradictoires. De tels systèmes sont intéressants pour la modélisation de l'héritage par défaut et des règles avec des exceptions. Ils sont également très utiles pour l'intégration des connaissances, où des incohérences peuvent naturellement se produire lorsque des connaissances provenant de différentes sources sont réunies.

Ontologie

L'Ontologie est un modèle conceptuel qui peut représenter divers projets en termes de hiérarchie de tâches, de produits, de contributeurs, de rôles et de droits. Elle permet de construire sur mesure l'accès et les vues sur les informations d’un projet et cela pour chacun des membres agissant à la mise en oeuvre du projet.

Disposer d’objets identifiés et de relations explicites permet le rapprochement automatique d’une information distante et produite par d’autres, facilitant l’enrichissement, la recherche et le traitement de l'information.

Il est donc indispensable :

  • de concevoir des documents qui disposent de l'information sous une forme accessible par la machine, 
  • et de conserver les liens créés avec des valeurs de relation.

C’est seulement quand ce niveau sémantique existe qu’il devient possible d’employer la puissance de calcul de l'ordinateur afin d’aider l’utilisateur à exploiter l'information dans une plus large mesure que la simple lecture.