El archivo exportado contiene solo una URL. El resto de las URL no se encuentran en el archivo exportado. ¿Cómo puedo generar un archivo con todas las entradas en el bucle?
const puppeteer = require("puppeteer"); const fs = require('fs'); let browser; (async () => { const browser = await puppeteer.launch({ headless: true, args: ['--no-sandbox'] }); const [page] = await browser.pages(); await page.goto('https://old.reddit.com/',{"waitUntil" : "networkidle0"}); const a_elems = await page.$$('.thumbnail'); for (var i=0; i<a_elems.length && i<3; i++) { const elem = a_elems[i]; const href = await page.evaluate(e => e.href, elem); const newPage = await browser.newPage(); await newPage.goto(href,{"waitUntil" : "networkidle0"}); const url = await newPage.evaluate(() => document.location.href); console.log(url); fs.writeFileSync('export.json', JSON.stringify(url)); } await browser.close(); })() ;
¡Gracias!
Cree una matriz, inserte cada url
en ella en el ciclo, luego mueva su llamada writeFile
hasta el final.
const puppeteer = require("puppeteer"); const fs = require('fs').promises; let browser; (async () => { browser = await puppeteer.launch({ headless: true, args: ['--no-sandbox'] }); const [page] = await browser.pages(); await page.goto('https://old.reddit.com/', { "waitUntil": "networkidle0" }); const aElems = await page.$$('.thumbnail'); const urls = []; for (let i = 0; i < aElems.length && i < 3; i++) { const href = await aElems[i].evaluate(e => e.href); const newPage = await browser.newPage(); await newPage.goto(href, {waitUntil: "networkidle0"}); const url = await newPage.evaluate(() => document.location.href); console.log(url); urls.push(url); } await fs.writeFile('export.json', JSON.stringify(urls)); })() .catch(err => console.error(err)) .finally(() => browser?.close()) ;
Puntas:
writeFileSync
parece subóptimo aquí en relación con la versión asíncrona.let
en lugar de var
para que no lo i
rompiendo el alcance y apareciendo con un valor obsoleto fuera (o dentro) del bloque de bucle.newPage.close();
al final del bucle. Ahora solo estás haciendo 3 páginas, pero si esto es temporal y vas a hacer 800, entonces es una gran idea."waitUntil": "networkidle0"
es muy lento. Dado que todo lo que está haciendo es acceder a document.location.href
, probablemente pueda acelerar las cosas con waitUntil: "domcontentloaded"
.camelCase
, no snake_case
.elementHandle.evaluate(...)
en lugar de page.evaluate(..., elementHandle)
.catch
y limpie el recurso del browser
con finally
.let browser;
no tenía sentido en su código original.