¿Es legal hacer Scraping? Todo lo que necesitas saber

El scraping o raspado de datos es el procedimiento de extraer, almacenar y clasificar datos de una página web o aplicación. Se utiliza generalmente para estudios de mercado, email marketing, seguimiento de precios y otras muchas tareas interesantes. Pero, ¿es legal hacer esto? ¿puedo tener problemas por hacer scraping? Te lo contamos todo en este post.

Legalidad del scraping en España

En España es completamente legal hacer scraping o extracción de datos. Se trata de obtener y clasificar datos públicos que están disponibles para cualquier usuario. Cuando accedemos a una web, ya estamos obteniendo esos datos que, posteriormente, podemos copiar, guardar o lo que nos interese. Lo único que con un robot scraper automatizamos este proceso en vez de hacerlo nosotros.

Los propios buscadores en Internet realizan tareas de scraping y crawling para poder clasificar e indexar el contenido cuando realizamos búsquedas.

Sin embargo, no cantes victoria tan rápido. Existen distintos puntos a considerar, sobre todo acerca del uso que se le van a dar esos datos. Por ejemplo, si esos datos los vendemos estaríamos cometiendo una ilegalidad ya que las leyes de protección de datos protegen al cliente ante todo.

Cuándo puedo tener problemas al hacer scraping

Ahora hablemos de los problemas que puedes tener al hacer scraping. Se puede ver desde distintos puntos de vista:

  • Cómo hemos extraído esos datos
  • Qué hacemos con los datos extraídos

Es importante considerar estos dos puntos antes de empezar nuestra estrategia de scraping para hacerlo todo bien hecho.

Cómo extraemos los datos

Hablemos primero sobre cómo extraemos los datos. Por lo general, un robot scraper visita la página web en cuestión y extrae los datos que considera relevantes rechazando todo lo demás. Como existen multitud de datos, las webs los clasifican en distintas páginas así que el robot irá pulsando en «siguiente página» hasta finalizar la extracción.

En este punto podemos tener problemas. Si por algún motivo realizamos demasiadas peticiones sin tiempos de espera podemos estar abusando del servidor, que sería una actividad ilegal. Aunque las webs hoy en día tienen métodos para protegerse de estos ataques, no estás exento de estos problemas. Dañar el funcionamiento normal de cualquier plataforma puede meterte en un serio problema.

Para solucionar esto, debes utilizar robots y programas bien desarrollados que respeten las webs que vas a trabajar y simulen un comportamiento humano en mayor o menor medida.

Qué hacemos con los datos

Cuando tenemos esos datos en nuestra posesión, ¿somos dueños de los mismos? ¿Tenemos derecho a usarlos como queramos? La respuesta corta es no en ambos casos, y te explicamos el porqué.

Almacenarlos, clasificarlos y estudiarlos en un entorno privado o particular no supone ningún problema. Puedes hacer estadísticas, métricas y un montón de tareas con esos datos. Esto es normal, miles de personas hacen estudios de mercado con datos scrapeados de páginas web. Ahora bien, siempre y cuando posteriormente no los utilices de manera fraudulenta.

Vale pero, ¿qué es utilizarlos de manera fraudulenta? Publicarlos o utilizarlos de manera comercial (como la venta de los mismos) infringe las leyes de derechos de autor y las de protección de datos. Extraer imágenes o textos con copyright y utilizarlos con ánimo de lucro directo no está permitido.

Además, datos personales como nombres, teléfonos, emails, direcciones o cualquier otro similar debe cumplir con el RGPD (Reglamento General de Protección de Datos) por lo que almacenarlos puede llegar a suponer un problema.

Conclusión

Hemos visto los distintos puntos de vista legales desde los que se puede ver la técnica de extracción y clasificación de datos de páginas webs y aplicaciones.

En definitiva a la pregunta de si podemos hacer scraping sin tener problemas, la respuesta sería depende. Por lo general, lo que es la extracción de los datos no supone un problema siempre y cuando estos datos sean públicos y accesibles a todo el mundo.

Además, debemos hacer un uso legítimo de los mismos utilizando la lógica en todo momento sabiendo que puede haber datos sensibles que no se pueden utilizar a la ligera.

Deja un comentario