Club para webmasters › Foros › Creación de páginas web › Cómo limpiar html de contenido scrapeado
- Este debate tiene 7 respuestas, 3 mensajes y ha sido actualizado por última vez el hace 5 años, 2 meses por
Usuario-Chorri.
-
AutorEntradas
-
¡Hola a todos!
Mi problema es que cuando abro el csv de web scraper en Excel, el HTML me descuadra toda la tabla.
Mi pregunta es, ¿hay alguna manera de extraer el contenido limpiando el código html de forma automatica (son más de 100 celdas)?
Hay manera de eliminar los estilos y etiquetas div, font, etc… ahorrar espacio para no exceder el límite de libreoffice y excel y dejar el contenido scrapeado limpio ¿Sabes si hay alguna posibilidad?
O alguna otra forma como podria ser, ¿abrir el archivo csv en algún programa o herramienta para limpiar y dejar el código html limpio?
Gracias.
Hola buenas,
Creo que podrías usar la web cerveza.gratis que permite introducir un texto con filas y eliminar ciertas partes o añadir otras como prefijos o sufijos. Si vas a la herramienta «Find and Replace Text», podrías reemplazar cada una de las etiquetas por un espacio en blanco dejando vacía la casilla de «Replace with:».
Seguro que hay otras maneras de hacerlo y seguramente más fáciles pero eso es lo que uso yo para cambiar rápidamente grandes cantidades de texto. Aún así, espero que te sirva.Un saludo!
Buenas, este hilo pregunta lo mismo que en la respuesta a otro hilo… Por favor Spark no abras dos frentes para la misma pregunta.
Te respondo lo que en el otro hilo:
«Para 100 posts creo que puedes hacerlo manualmente.Yo para limpiezas sobre todo uso buscar y reemplazar, separar en columnas y la tecla suprimir jeje»
https://chorri.club/foros/tema/escrapear-datos-de-directorio/
🙂 siento haber repetido la pregunta
Gracias por tu respuesta @guillermo22 tambien suelo usar cerveza.gratis pero para esta tarea no me sirve puesto que son mas de 100 articulos que tienen fragmentos de codigo entre el texto del contenido.
@davidcuesta lo pregunté también ahí por si sonaba la flauta y existia alguna manera rapida/automatica de limpiarlo.
el tema es que el contenido de las entradas que tengo es algo similar a esto:
<h1><center>Titulo del post</center></h1>
Texto Texto Texto Indice generado por algún plugin Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto
Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto
Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto para suscribirse a una newsletter Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Demás cosas que quiero borrar para dejar los post limpios Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto
El contenido es muy bueno y no hay competencia pero si tengo que perder tanto tiempo en hacerlo manual no se si merece la pena perder el tiempo limpiando esos fragmentos y revisar manualmente o encargar la redacción
Simplemente queria saber si existia alguna manera de hacerlo automatico o semiautomatico
Entre medias también hay fragmentos de código entre el texto pero en el mensaje anterior no aparecen
Se trata de usar la cabeza, busca algún patrón en esos textos, algo que permita sustituirlo por un caracter que a su vez permita dividirlo en columnas y así borrar toda la columna que lo contenga, o hacer un buscar y reemplazar que logre borrarlo… no existe ninguna herramienta para algo tan concreto como eso, o al menos eso creo.
Un saludo!
Ese fue el problema, que el indice y lo de las suscripciones no seguía ningún patrón.
Ya lo tengo publicado, pero mi tiempo me llevo hacerlo manualmente.
-
AutorEntradas
- Debes estar registrado para responder a este debate.