El desarrollo de la web semántica sin lugar a dudas es un tema que se ha venido tratando desde ya hace algunos años sin embargo vale la pena hablar un poco más al respecto y conocer sobre este tema.
Para esto es necesario contextualizar brevemente y cabe citar el desarrollo de la Web desde la 1.0 hasta la 3.0 o Web semántica.
Evolución de la Web
La Web 1.0 era de de solo lectura, con consultas de información unidireccional.
En la Web 2.0 los usuarios comienzan a tener un aportación, son personas conectándose, colaborando, interactuando y compartiendo con otras, por medio del uso de redes sociales, blogs, wikis, cloud computing, etc.
Y en la Web 3.0 (web semántica) se presentan aplicaciones Web conectándose a aplicaciones web, con la finalidad de enriquecer la experiencia de las personas, las máquinas nos ayudan a buscar y generar la información y a mejorar la experiencia del usuario.
Web semántica
Consideremos que la Web, tal y como la conocemos, es un gigantesco repositorio de hiperdocumentos cuyo diseño únicamente permite su comprensión por humanos. Estos materiales están confeccionados usando lenguajes de etiquetado que expresan la forma en que los navegadores deben presentar su contenido (colores, maquetación, fuentes, etc.) y no su significado o semántica. Dado el gigantesco y creciente número de estos recursos, los actuales motores de búsqueda son incapaces de ofrecer tasas de precisión mínimamente adecuadas en sus resultados, evidenciando que las técnicas léxico-estadísticas no pueden solucionar por sí solas la problemática de la recuperación de información.
Según Tim Berners Lee (conocido como el padre de las Web actual), la Web semántica es una red de datos que pueden ser procesada directa o indirectamente por máquinas. Es una Web extendida que permitirá a humanos y máquinas trabajar en cooperación mutua.
La idea es pasar de una Web de documentos a una Web de conceptos destacando las relaciones entre los conceptos olvidando los vinculos e hipervinculos y dándole a las máquinas la posibilidad de hacer búsquedas más precisas
Componentes de la Web semántica
Puntos por aclarar, no se trata de inteligencia artificial mágica que le permita a las máquinas entender las palabras de los usuarios, es sólo la habilidad de una máquina para resolver problemas bien definidos a través de operaciones bien definidas que se llevarán a cabo sobre datos existentes bien definidos.
La infraestructura de tecnologías y lenguajes necesaria para la implementación de la Web Semántica se puede esquematizar en varias capas o niveles.
Sin embargo para este post hablaremos de tres en particular, RDF, SparQL y OWL. Estos elementos permiten obtener una definición adecuada de los datos y que en esencia son la base de la Web semántica hablando en términos operativos.
De tal modo estos elementos ayudan a convertir la Web en una infraestructura global en la que es posible compartir, reutilizar datos y documentos entre diferentes aplicaciones y usuarios.
Así pues, RDF es un modelo de datos para los recursos y las relaciones que se pueden establecer entre ellos. Aporta una semántica básica para ese modelo de datos que se se puede representar en XML.
RDF proporciona información descriptiva simple sobre los recurso que se encuentran en la Web y que se utiliza, por ejemplo en directorios, fotos, etc.
SPARQL. Lenguaje de consulta sobre RDF que permite hacer búsquedas sobre los recursos de las bases de datos semánticas utilizando distintas fuentes (un ejemplo puede verse en la DBPedia, esta es un proyecto para la extracción de datos de Wikipedia para proponer una versión de Web semántica. Este proyecto es realizado por la Universidad de Leipzig, Universidad Libre de Berlín y la compañía OpenLink Software.)
OWL mecanismo para desarrollar temas o vocabularios específicos en los cuales se asocian los recursos. Lo que hace OWL es proporcionar un lenguaje para definir ontologías que pueden ser utilizadas a través de diferentes sistemas. Las ontologías incluyen definiciones de conceptos básicos en un campo determinado y la relación entre ellos.
OWL añade más vocabulario para describir propiedades y clases: tales como relaciones entre clases (por ejemplo disyunción), cardinalidad (ejemplo «únicamente uno»), igualdad, tipologías de propiedades más complejas, caracterización de propiedades (ejemplo simetría) o clases enumeradas.
Si quisiéramos hacer una equivalencia con un sistema de bases de datos relacionales esta podría quedar de la siguiente forma:
- RDF equivale a los registros de una base de datos.
- SPARQL equivaldría al lenguaje SQL.
- OWL equivaldría al esquema de la base de datos.
Es de mencionar que el W3C nos presenta una visión de la infraestrutura de la Web con la finalidad de tener una Web única, las especificaciones para los formatos y protocolos Web han de ser compatibles unas con otras y a su vez permitir que (cualquier) hardware y software, utilizado para acceder a la Web, funcione conjuntamente permitiendo la interoperabilidad.
la siguiente imagen muestra una visión de la infraestructura de la Web, el eje sobre el que se desarrolla la mayoría del trabajo en el W3C. La fundación de los URI, HTTP, XML y RDF es el soporte del avance en cinco áreas. Los temas de accesibilidad, internacionalización, independencia de dispositivo, acceso móvil, y control de calidad están presentes en las tecnologías del W3C.
Linked Data
La propuesta de datos enlazados (Linked Data) surge dentro del marco general de la Web semántica. El término «datos enlazados» hace referencia al método con el que se pueden mostrar, intercambiar y conectar datos a través de URIs desreferenciables en la Web.
Linked Data puede ser visto como el corazón de la Web semántica: la integración a gran escala de datos en la Web, la cual pueda ser de utilidad para realizar razonamientos y obtener conocimiento a partir de ellos.
La idea es que por medio de Linked Data podamos ver a Internet como una gran base de datos en donde se puedan llevar a cabo consultas específicas.
Open Data
Un elemento más que puede estar ligado a la Web semántica es Open Data (Datos abiertos) ya que es una forma de publicar datos de organizaciones públicas y privadas, en formatos que sean reutilizables por personas e instituciones.
En su planteamiento, Open Data se asemeja al movimiento Open Source, pero a diferencia de éste no apunta a desarrollar software sino a posibilitar el acceso y la reutilización de datos.
La definición que se encuentra en Wikipedia al respecto es la siguiente: Datos abiertos (Open Data en inglés) es una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control.
Al unirse los elementos de Linked Data y Open Data temos Linking Open Data (un proyecto guiado por el W3C) el cual es un esfuerzo de la comunidad para promover el uso de Linked Open Data.
- La idea se centra en Publicar datasets (de licencia abierta) como Linked Data Web
- Ligar objetos entre diferentes fuentes de datos.
- Tener un mapa actualizado de la nube de Linked Open Data.
Algunos casos de éxito de Linked Data
Y para el caso de bibliotecas hay dos casos que particularmente he tratado de seguir de algún modo y que marcan pauta por la trascendencia en el uso de tecnologías semánticas, estos son:
Europeana y el proyecto de la DPLA (Digital Public Library of America) que se agrupan en el proyecto LODLAM
Dichas siglas hacen referencias a Datos Abiertos Vinculados (o enlazados) en bibliotecas, archivos y museos «Linked Open Data in Libraries, Archives, and Museums». LODLAM es una red informal de entusiastas, técnicos, profesionales y cualquier persona que esté interesada en trabajar con Linked Open Data en galerías, bibliotecas, archivos y museos.
Sitios consultados
Peis Redondo, Eduardo. Ontologías, metadatos y agentes: recuperación “semántica” de la información
Peset, Fernanda; Ferrer-Sapena, Antonia; Subirats-Coll, Imma. “Open data y Linked open data: su impacto en el área de bibliotecas y documentación”. El profesional de la información, 2011, marzo-abril, v. 20, n. 2, pp. 165-173
Berners-Lee. Semantic Web Road map.