El archivo exportado contiene solo una URL. El resto de las URL no se encuentran en el archivo exportado. ¿Cómo puedo generar un archivo con todas las entradas en el bucle?
const puppeteer = require("puppeteer"); const fs = require('fs'); let browser; (async () => { const browser = await puppeteer.launch({ headless: true, args: ['--no-sandbox'] }); const [page] = await browser.pages(); await page.goto('https://old.reddit.com/',{"waitUntil" : "networkidle0"}); const a_elems = await page.$$('.thumbnail'); for (var i=0; i<a_elems.length && i<3; i++) { const elem = a_elems[i]; const href = await page.evaluate(e => e.href, elem); const newPage = await browser.newPage(); await newPage.goto(href,{"waitUntil" : "networkidle0"}); const url = await newPage.evaluate(() => document.location.href); console.log(url); fs.writeFileSync('export.json', JSON.stringify(url)); } await browser.close(); })() ;¡Gracias!
Cree una matriz, inserte cada url en ella en el ciclo, luego mueva su llamada writeFile hasta el final.
const puppeteer = require("puppeteer"); const fs = require('fs').promises; let browser; (async () => { browser = await puppeteer.launch({ headless: true, args: ['--no-sandbox'] }); const [page] = await browser.pages(); await page.goto('https://old.reddit.com/', { "waitUntil": "networkidle0" }); const aElems = await page.$$('.thumbnail'); const urls = []; for (let i = 0; i < aElems.length && i < 3; i++) { const href = await aElems[i].evaluate(e => e.href); const newPage = await browser.newPage(); await newPage.goto(href, {waitUntil: "networkidle0"}); const url = await newPage.evaluate(() => document.location.href); console.log(url); urls.push(url); } await fs.writeFile('export.json', JSON.stringify(urls)); })() .catch(err => console.error(err)) .finally(() => browser?.close()) ;Puntas:
writeFileSync parece subóptimo aquí en relación con la versión asíncrona.let en lugar de var para que no lo i rompiendo el alcance y apareciendo con un valor obsoleto fuera (o dentro) del bloque de bucle.newPage.close(); al final del bucle. Ahora solo estás haciendo 3 páginas, pero si esto es temporal y vas a hacer 800, entonces es una gran idea."waitUntil": "networkidle0" es muy lento. Dado que todo lo que está haciendo es acceder a document.location.href , probablemente pueda acelerar las cosas con waitUntil: "domcontentloaded" .camelCase , no snake_case .elementHandle.evaluate(...) en lugar de page.evaluate(..., elementHandle) .catch y limpie el recurso del browser con finally .let browser; no tenía sentido en su código original.