Apify Store es una aplicación de JavaScript

Web Scraper

Web Scraper es una solución (de Apify) lista para raspar la web usando el navegador Chrome y produce resultados legibles en varios formatos (Excel, JSON, CSV, etc).

Debajo, usa la biblioteca Puppeteer para controlar el navegador, pero no necesita preocuparse por eso.

  1. Cree una función de página de actor, extraiga información de una página web y descargue sus datos.

Piense en un actor como una aplicación que puede configurar y usar. apify/web-scraper es una aplicación llamada web-scraper, que puedes configurar para raspar cualquier página web. A estas configuraciones las llamamos tareas.

Tareas

Las tareas son más que configuraciones guardadas del actor que puedes ejecutar fácil y repetidamente. Es decir, puedes crear 10 tareas diferentes para 10 sitios web diferentes, pero siempre habrá un solo actor.

Función de página

La pageFunction es donde elegimos los datos a extraer:

// Using jQuery.
return {
   title: $('header h1').text(),
   description: $('header span.actor-description').text(),
   modifiedDate: new Date(
      Number(
         $('ul.ActorHeader-stats time').attr('datetime'),
      ),
   ),
};

Para obtener el título solo necesitamos encontrarlo usando un selector CSS. Por ejemplo header h1 selecciona todos los elementos <h1> que tienen un antepasado <header>.

Para obtener la descripción es algo similar. Pero, obtener la fecha, es un poco más complejo. Primero leemos el atributo datetime de todos los elementos