Estoy usando scrape-it en mi herramienta de scraping node.js (para identificar el uso adecuado de palabras clave), pero algunos sitios web me identifican como un bot y no obtengo ningún contenido. ¿Hay alguna manera de configurar un encabezado de agente de usuario conocido para la solicitud GET para evitar el bloqueo?
Puede configurar los encabezados, incluido el agente de usuario, pasando un objeto de opciones para rasparlo:
scrapeIt({ url: "http://example.com" , headers: { "User-agent": "known-user-agent-of-choice" } }, { // some scrapeHTML options ... }) .then( // some code ... );