Web scraping

Qué es web scraping

Web scraping es una técnica en donde se utilizan bots o robots para poder acceder al contenido y a la información de determinado sitio web. Lo que permite acceder y extraer el código HTML y toda la base de datos de dicha empresa.

Es sabido que los robots, por ejemplo de Google, pasan por los sitios web y analizan la información de los mismos. Pero esta práctica la llevan a cabo diversos tipos de empresas. Obviamente muchas veces es legal (como en el caso de Google) pero también hay ciertos procesos que resultan ilegales.

Los bots suelen realizar estas tareas:

  • Reconocimiento de estructuras.
  • Extracción de contenidos.
  • Almacenamiento de datos.
  • Extracción de datos de API.

Existen robots como Googlebot que se suele identificar y todos conocemos sobre su existencia y otros bots maliciosos que no sabemos que andan por allí y pueden rastrear y robar información sin permiso. Estos últimos están infectados con un malware que puede resultar muy peligroso y hacer mucho daño.

Cómo protegerse

  • Dejar claros los términos legales de tu sitio web y denunciar todo procedimiento que creamos inusual.
  • Colocar avisos que prohiban el raspado de tu sitio web. Raspado se le suele llamar a la extracción automática de los contenidos de un sitio.
  • Utiliza tokens CSRF.
  • Utiliza el archivo .htaccess en tu servidor web.
  • Bloquea direcciones IP sospechosas y también limita el número de solicitudes por IP.
  • Coloca un honeypot en el HTML, un enlace a contenido falso que las personas usuarias no pueden ver.
  • Cambia con frecuencia la estructura del HTML.
  • Crea APIs para poder monitorear datos.

Para no tener problemas de web scraping y estar informado/a de todos los peligros a los que puedes enfrentarte en el mundo digital, te recomendamos hacer nuestro curso de ciberseguridad.