Buscar en este blog y otros asociados

martes, 28 de septiembre de 2010

Cómo incorporar inteligencia a los datos difundidos en PDF

Nuevas oportunidades con XMP (Extensible Metadata Platform)

La difusión de datos en formatos tradicionales tales como hojas de cálculo, texto plano, documentos de procesadores de texto, o en el fomato PDF (Portable Document Format) de Adobe, no son nada recomendables para su difusión, pues no aportan información sobre la estructura de los mismos, lo que impide el correcto procesamiento automático por parte de las herramientas de software.

Por esa razón, el año 1991 Statistics Sweden (Suecia) propuso un formato sencillo conocido como PC-Axis, que si bien no deja de ser un documento de texto (txt) incorpora a los datos un cojunto de metadatos estructurales y documentales que facilitan su gestión e interpretación, y permiten que aquéllos sean más facilmente procesables. Posteriomente durante esta década, cinco grandes organismos internacionales conscientes del problema de la difusión de datos en los formatos antes mencionados proponen un nuevo estándar basado en XML que es conocido como SDMX (Statistical Data and Metadata Exchange).

Sin embargo, aún son muchos los Organismos Públicos y Oficinas de Estadísticas que siguen publicando datos en los formatos tradicionales. Entre todos ellos los más usados son las hojas de cálculo Excel (XLS) y los PDF. Posiblemente este último es el peor de los formatos para la distribución de datos; además también se utiliza para la difusión de publicaciones estadísticas que contienen en su interior un importante conjunto de tablas estadísticas, gráficos o mapas.


Renunciando a la capacidad del procesamiento automático de esa información, la posibilidad que nos queda es incorporar a los PDF ciertos metadatos que documenten el contenido de los datos que contienen; para facilitar la búsqueda de los datos en ellos presentes. Para ello, Adobe XMP (Extensible Metadata Platform) facilita la captura, preservación e intercambio de metadatos.

XMP usa XML para describir los metadatos. Dado que está diseñada para existir con cualquier formato de archivo, XMP proporciona una solución flexible para gestionar de forma inteligente los PDF. Al ser completamente personalizable y ampliable, XMP permite que los grupos de trabajo y las organizaciones personalicen los metadatos necesarios para potenciar su producción y flujos de trabajo de publicación.  Adobe XMP permite:

  1. Gestionar y automatizar más eficazmente los medios al permitir que los grupos de trabajo definan los metadatos en función de sus necesidades.
  2. Expresar los metadatos en XML, lo que permite que los usuarios y sistemas que dependen de este lenguaje lo puedan comprender.
  3. Mantener los metadatos a lo largo del curso del flujo de trabajo.
Tal como señalé anteriormente XMP permite incorporar a los PDF el conjunto de metadatos que se desee, pero también se pueden incorporar por defecto los metadatos de algunos estándares tales como Dublin Core.

Para saber más: 

No hay comentarios:

Publicar un comentario