Ayuda
Ir al contenido

Dialnet


Resumen de Procesamiento de páginas web con herramientas Java y XML

Mireia Ribera

  • a partir del interés de extraer la información contenida en la Web, el artículo ofrece una visión de la familia de estándares HTML (HyperText Markup Language) y de su posible tratamiento informático. Ahora bien, dado el alto número de errores existentes en los documentos de Internet y la dificultad de un tratamiento informático directo, la autora expone la necesidad de un procesamiento previo con una herramienta de reparación de páginas web llamada Tidy; una vez se han obtenido documentos XHTML (eXtensible HTML) bien formados, la autora describe las posibilidades de las APIs (Application Program Interfaces) SAX (Simple API for XML) y DOM (Document Object Model) en Java para su ulterior tratamiento


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus