a partir del interés de extraer la información contenida en la Web, el artículo ofrece una visión de la familia de estándares HTML (HyperText Markup Language) y de su posible tratamiento informático. Ahora bien, dado el alto número de errores existentes en los documentos de Internet y la dificultad de un tratamiento informático directo, la autora expone la necesidad de un procesamiento previo con una herramienta de reparación de páginas web llamada Tidy; una vez se han obtenido documentos XHTML (eXtensible HTML) bien formados, la autora describe las posibilidades de las APIs (Application Program Interfaces) SAX (Simple API for XML) y DOM (Document Object Model) en Java para su ulterior tratamiento
© 2001-2024 Fundación Dialnet · Todos los derechos reservados