Apify Store es una aplicación de JavaScript
Web Scraper
Web Scraper es una solución (de Apify) lista para raspar la web usando el navegador Chrome y produce resultados legibles en varios formatos (Excel, JSON, CSV, etc).
Debajo, usa la biblioteca Puppeteer para controlar el navegador, pero no necesita preocuparse por eso.
- Cree una función de página de actor, extraiga información de una página web y descargue sus datos.
Piense en un actor
como una aplicación que puede configurar y usar. apify/web-scraper es una aplicación llamada web-scraper, que puedes configurar para raspar cualquier página web. A estas configuraciones las llamamos tareas
.
Tareas
Las tareas son más que configuraciones guardadas del actor que puedes ejecutar fácil y repetidamente. Es decir, puedes crear 10 tareas diferentes para 10 sitios web diferentes, pero siempre habrá un solo actor.
Función de página
La pageFunction
es donde elegimos los datos a extraer:
// Using jQuery.
return {
title: $('header h1').text(),
description: $('header span.actor-description').text(),
modifiedDate: new Date(
Number(
$('ul.ActorHeader-stats time').attr('datetime'),
),
),
};
Para obtener el título solo necesitamos encontrarlo usando un selector CSS. Por ejemplo header h1
selecciona todos los elementos <h1>
que tienen un antepasado <header>
.
Para obtener la descripción es algo similar. Pero, obtener la fecha, es un poco más complejo. Primero leemos el atributo datetime
de todos los elementos