Procesamiento de páginas web con herramientas Java y XML

Autores: Mireia Ribera
Localización: Novática: Revista de la Asociación de Técnicos de Informática, ISSN 0211-2124, Nº. 179, 2006 (Ejemplar dedicado a: Factores clave de éxito en Ingeniería del Software), págs. 57-61
Idioma: español
Texto completo no disponible (Saber más ...)
Resumen
- a partir del interés de extraer la información contenida en la Web, el artículo ofrece una visión de la familia de estándares HTML (HyperText Markup Language) y de su posible tratamiento informático. Ahora bien, dado el alto número de errores existentes en los documentos de Internet y la dificultad de un tratamiento informático directo, la autora expone la necesidad de un procesamiento previo con una herramienta de reparación de páginas web llamada Tidy; una vez se han obtenido documentos XHTML (eXtensible HTML) bien formados, la autora describe las posibilidades de las APIs (Application Program Interfaces) SAX (Simple API for XML) y DOM (Document Object Model) en Java para su ulterior tratamiento

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: