Cómo limpiar html de contenido scrapeado

Club para webmasters Foros Creación de páginas web Cómo limpiar html de contenido scrapeado

Viendo 8 entradas - de la 1 a la 8 (de un total de 8)
  • Autor
    Entradas
  • #11979 Karma: 0
    Spark
    Participante
    -1
    ChorriPuntos 308
    Nuevo

    ¡Hola a todos!

    Mi problema es que cuando abro el csv de web scraper en Excel, el HTML me descuadra toda la tabla.

    Mi pregunta es, ¿hay alguna manera de extraer el contenido limpiando el código html de forma automatica (son más de 100 celdas)?

    Hay manera de eliminar los estilos y etiquetas div, font, etc… ahorrar espacio para no exceder el límite de libreoffice y excel y dejar el contenido scrapeado limpio ¿Sabes si hay alguna posibilidad?

    O alguna otra forma como podria ser, ¿abrir el archivo csv en algún programa o herramienta para limpiar y dejar el código html limpio?

    Gracias.

    #11986 Karma: 0
    Guillermo22
    Participante
    3
    ChorriPuntos 295
    Nuevo

    Hola buenas,

    Creo que podrías usar la web cerveza.gratis que permite introducir un texto con filas y eliminar ciertas partes o añadir otras como prefijos o sufijos. Si vas a la herramienta “Find and Replace Text”, podrías reemplazar cada una de las etiquetas por un espacio en blanco dejando vacía la casilla de “Replace with:”.
    Seguro que hay otras maneras de hacerlo y seguramente más fáciles pero eso es lo que uso yo para cambiar rápidamente grandes cantidades de texto. Aún así, espero que te sirva.

    Un saludo!

    #11988 Karma: 0
    David Cuesta
    Superadministrador
    149
    ChorriPuntos 6.888
    Curso SEO
    ChorriCuesta

    Buenas, este hilo pregunta lo mismo que en la respuesta a otro hilo… Por favor Spark no abras dos frentes para la misma pregunta.

    Te respondo lo que en el otro hilo:
    “Para 100 posts creo que puedes hacerlo manualmente.

    Yo para limpiezas sobre todo uso buscar y reemplazar, separar en columnas y la tecla suprimir jeje”

    https://chorri.club/foros/tema/escrapear-datos-de-directorio/

    #12014 Karma: 0
    Spark
    Participante
    -1
    ChorriPuntos 308
    Nuevo

    🙂 siento haber repetido la pregunta

    Gracias por tu respuesta @guillermo22 tambien suelo usar cerveza.gratis pero para esta tarea no me sirve puesto que son mas de 100 articulos que tienen fragmentos de codigo entre el texto del contenido.

    #12015 Karma: 0
    Spark
    Participante
    -1
    ChorriPuntos 308
    Nuevo

    @davidcuesta lo pregunté también ahí por si sonaba la flauta y existia alguna manera rapida/automatica de limpiarlo.

    el tema es que el contenido de las entradas que tengo es algo similar a esto:

    <h1><center>Titulo del post</center></h1>

    Texto Texto Texto Indice generado por algún plugin Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto para suscribirse a una newsletter Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Demás cosas que quiero borrar para dejar los post limpios Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto Texto

    El contenido es muy bueno y no hay competencia pero si tengo que perder tanto tiempo en hacerlo manual no se si merece la pena perder el tiempo limpiando esos fragmentos y revisar manualmente o encargar la redacción

    Simplemente queria saber si existia alguna manera de hacerlo automatico o semiautomatico

    #12016 Karma: 0
    Spark
    Participante
    -1
    ChorriPuntos 308
    Nuevo

    Entre medias también hay fragmentos de código entre el texto pero en el mensaje anterior no aparecen

    #12019 Karma: 0
    David Cuesta
    Superadministrador
    149
    ChorriPuntos 6.888
    Curso SEO
    ChorriCuesta

    Se trata de usar la cabeza, busca algún patrón en esos textos, algo que permita sustituirlo por un caracter que a su vez permita dividirlo en columnas y así borrar toda la columna que lo contenga, o hacer un buscar y reemplazar que logre borrarlo… no existe ninguna herramienta para algo tan concreto como eso, o al menos eso creo.

    Un saludo!

    #12027 Karma: 0
    Spark
    Participante
    -1
    ChorriPuntos 308
    Nuevo

    Ese fue el problema, que el indice y lo de las suscripciones no seguía ningún patrón.

    Ya lo tengo publicado, pero mi tiempo me llevo hacerlo manualmente.

Viendo 8 entradas - de la 1 a la 8 (de un total de 8)
  • Debes estar registrado para responder a este debate.