Ejemplo: Configurando una fuente de contenido

Harold Stanley Crow

Última actualización hace 3 años

En este ejemplo voy a configurar un blog como fuente de contenido e mostraré paso a paso como se configura.


Nombre del Blog a configurar: Search Engine Journal

URL del blog: https://www.searchenginejournal.com/


En proyecto voy a elegir “Proyecto Demo 1” Lo primero es abrir el administrador de fuentes de contenido desde el menú principal y hacer clic en el botón agregar:

En proyecto voy a elegir “Proyecto Demo 1” 


En nombre de la web voy a poner: Search Engine Journal 


En URL de la web pongo esta URL https://www.searchenginejournal.com/ ya que es donde se muestran las ultimas entradas.

Nota: Si estuviera interesado en una categoría en especifico (puede verlas en el menú de la web) podría elegir dicha URL, por ejemplo, en el menú principal puede ver la categoría “SEO” cuya URL es https://www.searchenginejournal.com/category/seo/ si yo quisiera solo el contenido de dicha categoría, en la URL de la web la coloco y listo.

Ahora abro en una pestaña del navegador la URL que he elegido esto con el fin de que sirva de guía para poder elegir más fácil los contenedores.

Luego abro la herramienta para buscar contenedores con el botón “Buscar contenedores”.

En esta imagen puede ver como se ve la web originalmente y como se ve dentro de la herramienta:


WEB ORIGINAL

WEB EXTRAIDA

Como puede notar, al no extraer los CSS todo se ve más desordenado, la imagen destacada no se ve, pero si pongo el cursor del mouse en el espacio donde debería estar la imagen (el espacio blanco grande) podrá ver que la herramienta detecta que hay algo:

El primer espacio en blanco (el grande) corresponde a la imagen destacada y la segunda (la pequeña) a la foto del autor.

Lo primero que debo identificar es el contenedor de cada entrada, para eso muevo el mouse hasta que cada publicación quede marcada y que incluya el espacio de la imagen destacada que no se ve.


Mientras se mueve el cursor, se van seleccionando diferentes contenedores, cuando ya se quiere seleccionar uno para verificar que esta tomando en toda la web, se hace clic con el mouse y la selección se detiene, si por alguna razón el contenedor que está viendo no es el correcto, se hace clic nuevamente y la herramienta comienza a seleccionar nuevamente.


En mi caso he encontrado el contenedor de cada entrada

Y veo la parte inferior para localizar el contenedor, que en este caso me parece adecuado el que está en la clase y no en el HTML Tag, así que lo copio con CTRL + C.

Ahora regreso al formulario y lo pego en el campo “Contenedor de cada item”:

Hago clic en el botón “Validar” y veo que ha extraído: 

Y puedo darme cuenta que si ha extraído la primera publicación de la URL, por lo que puedo proceder a los siguientes contenedores.


Antes de continuar voy a cambiar el valor para mostrar que pasaría si no se elige correctamente el contenedor, voy a agregarle una S al final quedando “article.sej-posts” en lugar de “article.sej-post”, hago clic en validar y esto es lo que muestra:

Si eligiera un contenedor equivocado, lo más probable es que extraiga más o menos cosas de las que debería.


Por ejemplo, puedo tomar esta clase “div.sej-particle” que, si ve en la imagen, parece ser correcta con el único detalle que no incluye la imagen destacada (la imagen destacada no esta dentro del contenedor):

Ahora pego el valor en el formulario (div.sej-particle) y hago clic en validar y muestra lo siguiente:

Lo cual parece bien, pero si la compara con la obtenida con el contenedor .sej-post vera que no son iguales, específicamente, el espacio de la imagen destacada.

Lo que intento ilustrar con esto, es que la configuración es de a prueba y error, y que uno se puede equivocar varias veces.


Muy bien, he elegido como contenedor de cada item “.sej-post” ahora procedo a probar si extrae el título, para esto hago clic en el botón “Validar” que está a la par del campo para este contenedor.

Esto abrirá nuevamente la ventana y me mostrará si puede o no extraer el título:

¡Excelente, extrajo el título correctamente! Por lo tanto, no tengo que agregar nada en el campo.


Para validar que está extrayendo al información correcta, solo debes ir a la página original y revisar.


Así que ahora procedo a probar el contenedor del enlace, para esto hago clic en el botón “Validar” que está a la par del campo:

Este contenedor tiene como objetivo extraer el enlace hacia la publicación, así que es lo que espero encontrar: 

¡Excelente, extrajo el enlace correctamente! Por lo tanto, no tengo que agregar nada en el campo.


Para finalizar, voy a proceder a hacer clic en el botón “Validar” que está a la par del campo “Contenedor de la imagen destacada” y me muestra lo siguiente:

¡Excelente, extrajo la imagen correctamente! Por lo tanto, no tengo que agregar nada en el campo.


Hasta aquí he completado la primera sección del formulario. Ahora voy a proceder a configurar los posts individuales.

Ahora a configurar la sección de posts individuales

La sección de los posts individuales tiene como objetivo decirle al scraper como extraer una publicación en específico, para lo cual se tiene que trabajar con una publicación, preferiblemente la última (la primera de la lista) ya que es la que automáticamente va a extraer EZ Content Creator.


Lo primero que voy a hacer es ir a la página donde está la lista de contenido y entrar a la primera publicación. Elijo la primera ya que la herramienta en automático intenta obtener la primera publicación para evaluar si extrae o no lo que se necesita.


Después copio la URL de la primera publicación y la pego en el campo “URL de una publicación

Que en este caso corresponde a https://www.searchenginejournal.com/navigating-ymyl-topics/419906/

Y después de pegar la URL, hago clic en el botón “Buscar contenedores” para ir de nuevo a la herramienta de búsqueda de contenedores.

Necesito encontrar primeramente el contenedor donde está el texto de la entrada.

Cambiando a la herramienta para encontrar contenedores, puedo ver el contenido extraído de esta forma:

Así que procedo a buscar el contendor que tenga el contenido esencial de la publicación.


Vuelvo a mover el mouse hasta que pueda tomar toda la entrada y veo que el contenido está en el contendor marcado en la siguiente imagen: div#narrow-cont

Al bajar hasta el final del contenido veo que justo el contenedor termina, donde termina el texto.

También veo que podría probar con la clase CSS “div.s-post-section” pero noto que al inicio me toma el breadcrumb. 

Y al final me está tomando el formulario de suscripción al newsletter por lo que al momento de curar el contenido siempre me tocario quitar estos elementos:

Así que me voy al formulario y en el campo “Contenedor del contenido esencial” pego el ID que encontré: div#narrow-cont, y hago clic en el botón “Validar” para verificar, con lo que la herramienta me muestra:

Con lo que estoy seguro que el contenido extraído es lo que deseo, en cambio sí pruebo div.s-post-section veo esto en la parte superior (breadcrumb y otros datos): 

Y en la parte inferior veo el formulario para suscribirse al newsletter:

Haciendo la comparación entre ambos contenedores, es que termino eligiendo div#narrow-cont.


Ahora, procedo a hacer clic en el botón “Validar” que está a la par del campo “Contenedor del título” para probar si logra extraer el titulo sin configurarle un contenedor.

A lo que la herramienta me muestra: 

Esto no está bien, ya que el título de la entrada es: “10 Content Creation Tips for Navigating YMYL Topics”, por lo que debo ir a la herramienta para encontrar contenedores y buscar el contenedor correcto para el título de la entrada.


Hago clic sobre el titulo de la entrada para ver que elementos selecciona.

De las cuales, por el nombre de la clase, me llama más la atención la segunda “h1.entry-title” así que la copio y la pego en el campo para el contenedor del título y hago clic en el botón “Validar” otra vez:

Nota: elegí el segundo campo porque al ver el nombre me parece más lógico que sea ese, pero en su caso, puede probar uno por uno.

El resultado de validar me da lo siguiente:

Y voila, ahora si extrae el titulo correcto. 


Procedo a hacer clic en el botón “Validar” en el campo “Contenedor de la imagen destacada” para probar si extrae la imagen:

Y la herramienta extrae la siguiente imagen:

Esta imagen es el logo y no la imagen destacada, por lo que de nuevo iré a la herramienta para encontrar contenedores y buscare el contenedor para la imagen destacada.


Como se ve en la imagen, en la herramienta para encontrar contenedores, la imagen destacada no se ve:

Por esta razón, lo que tendré hacer es ir a la entrada y buscar donde se encuentra la imagen:

Aquí puedo ver que la imagen destacada esta después de la información del autor y redes sociales y del texto introductorio. 


Con esto en mente puedo ubicar más o menos donde está la imagen en la herramienta:

Como se puede observar en la imagen, tengo 2 opciones, el HTML Tagfigure” y la clase CSS.sej-sthumb”. 


Descarto el Tag porque figure es un tag que sirve para poner imágenes, así que puede estar muchas veces en la página por lo que no sirve para identificar un elemento en particular, en este caso la imagen destacada.


Por lo tanto, procedo a copiar la clase .sej-sthumb, la pego en el campo y hago clic en el botón “Validar” para corroborar si logra extraer la imagen destacada:

Con esto, la herramienta me muestra lo siguiente:

Y efectivamente ahora si extrae la imagen destacada correcta.


Ahora que todo esta configurado, procedo a hacer clic en el botón “Preview” para que la herramienta haga un proceso similar de extracción del contenido y así estar seguros que todo está bien. 

Al hacer clic en el botón, se abrirá una pestaña nueva con un simulador del editor de texto:

Veo que todo lo extrae bien, por lo que cierro el preview y procedo a guardar la configuración.


Ahora que guarde la configuración, me voy al panel principal (dashboard) usando el menú principal y elijo la opción de publicar desde “Fuentes de contenido”:

Con esto abriré el panel individual del proyecto y podré verificar si la herramienta extrae las últimas publicaciones.

Efectivamente se está extrayendo todo bien, ahora lo único que hace falta es hacer clic en “Crear” de cualquier entrada y comprobar si extrae el contenido correctamente:

Después de hacer clic veo lo que me ha extraído y colocado en el editor de texto inteligente:

Y todo ha sido extraído correctamente. Por lo que la configuración fue un éxito.

¿No logra configurar su fuente de contenido?

Llevar a cabo esta configuración puede tener sus trucos y sus dificultades, por esta razón, si no logra realizar la configuración, puede contactarnos por el chat de soporte o el formulario de contacto.


Ahora puede proceder a ver los tutoriales de cómo crear publicaciones.

¿Te ha sido útil el artículo?

A 0 de 0 les gusta este artículo

¿Necesitas más ayuda? Envíanos un mensaje