Web scraping

Qué es web scraping

Web scraping es una técnica en donde se utilizan bots o robots para poder acceder al contenido y a la información de determinado sitio web. Lo que permite acceder y extraer el código HTML y toda la base de datos de dicha empresa.

Es sabido que los robots, por ejemplo de Google, pasan por los sitios web y analizan la información de los mismos. Pero esta práctica la llevan a cabo diversos tipos de empresas. Obviamente muchas veces es legal (como en el caso de Google) pero también hay ciertos procesos que resultan ilegales.

Los bots suelen realizar estas tareas:

Reconocimiento de estructuras.
Extracción de contenidos.
Almacenamiento de datos.
Extracción de datos de API.

Existen robots como Googlebot que se suele identificar y todos conocemos sobre su existencia y otros bots maliciosos que no sabemos que andan por allí y pueden rastrear y robar información sin permiso. Estos últimos están infectados con un malware que puede resultar muy peligroso y hacer mucho daño.

Cómo protegerse

Dejar claros los términos legales de tu sitio web y denunciar todo procedimiento que creamos inusual.
Colocar avisos que prohiban el raspado de tu sitio web. Raspado se le suele llamar a la extracción automática de los contenidos de un sitio.
Utiliza tokens CSRF.
Utiliza el archivo .htaccess en tu servidor web.
Bloquea direcciones IP sospechosas y también limita el número de solicitudes por IP.
Coloca un honeypot en el HTML, un enlace a contenido falso que las personas usuarias no pueden ver.
Cambia con frecuencia la estructura del HTML.
Crea APIs para poder monitorear datos.

Para no tener problemas de web scraping y estar informado/a de todos los peligros a los que puedes enfrentarte en el mundo digital, te recomendamos hacer nuestro curso de ciberseguridad.

CURSO DE CIBERSEGURIDAD