Big data en el análisis de las redes sociales

Licencias lingüísticas

2. Marco teórico

2.2. El análisis de las redes sociales

2.2.5. Big data en el análisis de las redes sociales

El big data (o los datos masivos) puede ser etiquetado en una multitud de discusiones sobre las posibilidades crecientes de rastreo, archivado, almacenamiento y análisis de datos en línea (Larsson, 2015). Los datos masivos son conjuntos de datos cuyo tamaño supera la capacidad del software convencional de una base de datos para capturarlos, almacenarlos, gestionarlos y analizarlos (Manovich, 2011; Manyika et al., 2011). El big data posee la “capacidad de la sociedad de aprovechar la información de formas novedosas para obtener percepciones útiles o bienes y servicios de valor significativo” (Mayer-Schönberger y Cukier, 2013: 13). Además de las posibilidades metodológicas ofrecidas por el análisis de los datos masivos, el término se utiliza también para describir las cuestiones técnicas, legales y éticas vinculadas con los propios datos que implican registros de eventos reales, interacciones y transacciones relacionadas con individuos (Larsson, 2015; Steen-Johnsen y Enjolras, 2015).

El análisis de los datos masivos alude a las diversas formas que deliberadamente o pasivamente los seres humanos generamos en nuestras interacciones cotidianas con la tecnología, y se centra en “la habilidad para almacenar, administrar y extraer información de estos datos mediante una poderosa tecnología informática y novedosas técnicas analíticas avanzadas” (Prabhu, 2015: 158). Los autores Mayer-Schönberger y Cukier consideran que el concepto surge por primera vez en los ámbitos de la astronomía y de la genética. Aunque no existe una definición rigurosa al respecto ni puede encasillarse en un campo de estudio concreto por su carácter multidisciplinar, el big data está estrechamente vinculado a las ramas de la estadística y las predicciones matemáticas (Silver, 2014).

Con todo, “la era de big data está en marcha” (boyd y Crawford, 2012: 662). El big data está revolucionando la forma en la que pensamos, trabajamos y vivimos. Aunque podemos afirmar que “nos hallamos en los albores de la era de los datos masivos”

(Mayer-Schönberger y Cukier, 2013: 23), su uso está implantándose en todas las esferas de la vida (Tascón y Coullaut, 2016). Multitud de científicos de ámbitos como la economía, matemática, física, sociología, medicina, comunicación, entre muchas otras, suspiran por el acceso a ingentes cantidades de información producida por las personas y sus interacciones con elementos de la vida diaria (Marr, 2016; 2017). Todo lo cuantificable a gran escala es información potencial para analizar a partir de procesos basados en metodologías de big data.

Los datos masivos son una fuente de innovación y de valor económico (Mayer-Schönberger y Cukier, 2013). “El análisis de secuencias genéticas, las interacciones en medios sociales, los registros de salud, telefónicos, gubernamentales y otros rastros digitales dejados por las personas” (boyd y Crawford, 2012: 663) se configuran como algunos de los elementos de estudio más frecuentes en este campo. Las cantidades masivas de datos que generan los usuarios a través de llamadas telefónicas, descargas de aplicaciones y contenidos multimedia, compras con tarjeta o las búsquedas en la web permiten a las empresas rastrear, almacenar y analizar los comportamientos y hábitos de los usuarios (García-Alsina, 2017; Pérez Marqués, 2015).

“Las predicciones basadas en correlaciones son el corazón de los datos masivos”

(Mayer-Schönberger y Cukier, 2013: 75). Esta sentencia da sentido a los sistemas de recomendaciones, herramientas y técnicas de software que proporcionan sugerencias al usuario que se adaptan a sus intereses personalizando su experiencia (Buyya et al., 2016). Así, empresas como Amazon y eBay recomiendan sus productos a partir de la información almacenada en búsquedas o compras anteriores de sus clientes y Netflix ofrece servicios de contenidos audiovisuales utilizando sistemas de recomendaciones basados en el historial de los gustos e intereses de sus usuarios (Buyya et al., 2016;

Marr, 2017). La industria de la publicidad, en general, utiliza estos sistemas de recomendación para mejorar la orientación de los anuncios a sus consumidores potenciales. Sin embargo, y como explicaremos más adelante, estas acciones también suscitan riesgos relacionados con la vulnerabilidad de la privacidad y la libertad de decisión de los usuarios (Mayer-Schönberger y Cukier, 2013).

Las plataformas de medios sociales también utilizan los sistemas de recomendación para sugerir contactos y contenidos. Facebook sugiere nuevas amistades basadas en círculos de contactos cercanos y posiciona noticias y contenidos en función de determinados parámetros relacionados con las preferencias del usuario (Christakis y Fowler, 2010). Para conseguirlo, se basa en complejos algoritmos que varían según las novedosas funcionalidades implantadas y los propios intereses de la compañía. Al mismo tiempo, las redes sociales virtuales han cambiado la naturaleza de la información en la web. Millones de datos vertidos a diario en línea pueden contribuir a analizar patrones de uso y comportamientos de los usuarios en tiempo real con el fin de crear productos y nuevas aplicaciones que mejoren y satisfagan las necesidades de las personas (Buyya et al., 2016).

“Los datos masivos suponen un paso importante en el esfuerzo de la humanidad por cuantificar y comprender el mundo” (Mayer-Schönberger y Cukier, 2013: 31). El fenómeno de los datos masivos incorpora nuevas percepciones capaces de transformar las relaciones entre los mercados, las organizaciones, los ciudadanos y los gobiernos (Marr, 2017). Según Mayer-Schönberger y Cukier (2013), el big data comporta tres cambios importantes en la forma de analizar la información que modifica nuestra concepción del mundo y ofrece a los investigadores nuevas oportunidades para analizar los fenómenos sociales:

En primer lugar, la capacidad de analizar enormes cantidades de información sobre un tema. El ámbito científico siempre ha dependido de muestras para hacer frente a investigaciones con cifras elevadas, lo que ha supuesto un síntoma de escasez informativa. Gracias a los datos masivos se pasa de tener muestras aleatorias o seleccionadas en base a ciertos parámetros a poseer una muestra completa del universo del estudio.

En segundo lugar, la aceptación del desorden y la imprecisión de los datos. Aunque los datos masivos reducen los errores de muestreo y nos acercan con mayor precisión y exactitud a descubrir patrones y comportamientos de la realidad (Pérez Marqués, 2015), “para acceder a los beneficios de la explotación de los datos a escala, tenemos que aceptar que la imprecisión es normal y esperable” (Mayer-Schönberger y Cukier, 2013: 63). La totalidad de la muestra disminuye el margen de error propio de los métodos clásicos de las ciencias sociales como las encuestas, pero no lo erradica.

En tercer lugar, investigar en base a métodos que gestionan grandes cantidades de datos significa asumir el predominio de la correlación por encima de la causalidad. La correlación es la relación entre dos variables que nos ofrece una aproximación descriptiva y cuantitativa de un fenómeno. Es decir, explica el qué, pero sus atributos no le permiten profundizar en el por qué. En el análisis de datos masivos prima lo descriptivo, mientras que el análisis profundo y causal de los fenómenos requiere de metodologías de carácter cualitativo (Piñuel Raigada, 2002).

No obstante, estos cambios que ofrecen una infinidad de nuevas oportunidades y retos en la investigación, desde una aproximación básicamente cuantitativa, no están exentos de limitaciones éticas y prácticas, además de significativos riesgos (boyd y Crawford, 2012; Mayer-Schönberger y Cukier, 2013; Tascón y Coullaut, 2016).

41 acceso a esos datos (Steen-Johnsen y Enjolras, 2015). Plataformas como Facebook y Twitter ceden los datos a terceros a través de sus APIs, un sistema que regula el acceso a la información de acuerdo a las directrices de la plataforma (Rieder, 2013), de manera que estas grandes compañías sólo ofrecen una parte de la información completa que almacenan. Facebook y Twitter son únicamente quienes tienen acceso total a toda la información en sus propios servidores (boyd y Crawford, 2012). Este planteamiento se relaciona de forma ineludible con dos puntos esenciales del análisis de las redes sociales y de los métodos basados en técnicas de big data: privacidad y seguridad (Mayer-Schönberger y Cukier, 2013; Wu et al., 2014). La privacidad de los datos y la seguridad se manifiestan como los principales peligros que corren este tipo de plataformas en línea que almacenan millones de datos cifrados en sus servidores (Buyya et al., 2016).

Volviendo a las particularidades del análisis de datos masivos, aunque se trabaje sobre muestras que recogen millones de datos que cruzan decenas de variables y acumulan cientos de mensajes, siempre existirá un sesgo inevitable por el desconocimiento sobre en qué criterios se basan estas plataformas sociales de internet para seleccionar, categorizar, recuperar y devolver las correspondientes peticiones para acceder a sus contenidos.

Las investigaciones en Facebook y Twitter son un buen ejemplo por constituir una selección de la población (individuos con acceso a internet que cuentan con un perfil propio en estas plataformas). En esta línea, hay cuestiones relacionadas con la autenticidad y representatividad de la muestra (boyd y Crawford, 2012), por el hecho de que una persona pueda tener más de una cuenta o éstas puedan ser automatizadas a partir de robots informáticos (bots). Por tanto, el acceso a millones de datos de internet de forma relativamente sencilla y sus posibilidades no exime la

necesidad de interpretar y discutir cualquier fenómeno de estas características desde otros enfoques metodológicos (Steen-Johnsen y Enjolras, 2015). Por otro lado, numerosas investigaciones se encuentran con considerables limitaciones cuando, a partir de procesos de minería de datos, tratan de abordar cuestiones basadas en los textos publicados en internet. Las infinitas combinaciones de palabras que se encuentran en las gramáticas y vocabularios de cientos de lenguas existentes comprenden tantas posibilidades que los procesos computacionales desarrollados no son capaces de gestionarlas de manera precisa y rigurosa (Buyya et al., 2016; Steen-Johnsen y Enjolras, 2015).

En definitiva, esta carrera frenética relacionada con los procesos computacionales, los datos y las nuevas formas de comunicación se alinean, en cierto modo, con los

“mundos líquidos” postulados por el sociólogo Zygmunt Bauman (2006). En este sentido, el big data supondría una visión simple, insensible y superficial de las cosas, alejado del pensamiento complejo (Morin, 1994). Si bien es cierto que existe más información de la que ha habido nunca y que los datos masivos continuarán transformando las relaciones entre los humanos, las organizaciones y las máquinas, la aspiración de la ciencia y de la humanidad seguirá siendo dar respuesta a los porqués.

Los algoritmos y la matemática predictiva podrían colisionar con la libertad de decisión de las personas. Se trata de la voluntad del individuo contra la predicción de los datos.

El uso extremista y perverso del big data podría deshumanizar al individuo si sólo se acepta como válido lo que muestran los datos. Esta visión del mundo nos llevaría a un terreno pragmático, puramente empírico, que no ofrece una visión holística de lo que es el ser humano y sus relaciones sociales.

43 2.2.6. Digital Methods

Los Digital Methods o métodos digitales son el instrumento a través del cual se ha articulado la metodología para extraer los datos que fundamentan el trabajo analítico de esta investigación. Los métodos digitales están basados en el uso de la tecnología digital para la recolección, extracción, análisis y visualización de datos masivos de internet, así como para explotar las particularidades de los nuevos medios sociales en el ámbito académico (Roberts et al., 2013).

Investigadores liderados por el Digital Methods Initiative (DMI) de la Universidad de Ámsterdam, uno de los principales grupos de investigación sobre internet de Europa, han diseñado métodos, herramientas y técnicas de análisis creando un conjunto de programas y scripts informáticos. Estas herramientas permiten rastrear la web, blogs, motores de búsqueda y plataformas sociales, como Facebook, Twitter y YouTube, con el fin de analizar fenómenos sociales y culturales a partir de ingentes cantidades de datos que permiten generar visualizaciones gráficas haciendo del análisis de datos masivos de internet un terreno más práctico y eficiente.

Estas herramientas de código abierto con fines académicos hacen uso de técnicas de scrapping, es decir, permiten “la extracción automática de información estructurada, relaciones entre entidades y atributos que describen entidades de fuentes no estructuradas” (Sarawagi, 2007: 261, citado en Marres y Weltevrede, 2013). Según Marres (2012: 160), “los comportamientos de los usuarios, los formatos de la información y los dispositivos digitales que están integrados en el medio pueden dejar una huella para el análisis social”. Estas plataformas virtuales mencionadas ponen a disposición de terceros las métricas en las que se basan para comunicar sus datos (likes, retweets, comentarios…) (Rogers, 2010), los cuales pueden ser analizados para conocer patrones, comportamientos y opiniones de los públicos (Marres, 2012).

Como decíamos, los métodos digitales utilizan procesos informáticos a través de los medios sociales para fines de investigación, pero “no sobre los medios sociales sino con los medios sociales” (Coromina, 2016: 54). En este sentido, los métodos digitales

“investigan lo que sigue al medio, captura su dinámica y hace afirmaciones fundamentadas sobre el cambio cultural y social” (Rogers, 2009: 8). Su objetivo esencial es el diagnóstico de patrones de cambio social a partir del rastro digital en internet. Estas técnicas de análisis basadas en procesos computacionales destacan por aprovechar las posibilidades de los medios sociales de internet como fuente de

datos y métodos de investigación. Los métodos nativos de internet demuestran cómo las metodologías pueden cambiar respecto a los métodos clásicos de las ciencias sociales debido a las especificidades técnicas de los nuevos medios (Coromina, 2016).

Con este contexto como trasfondo, Richard Rogers propone la hoja de ruta para aproximarse a los métodos digitales con el propósito de investigar tendencias sociales y dinámicas de la cultura digital a través de los datos masivos almacenados en internet: “seguir los métodos del medio a medida que evolucionan, aprender de cómo los dispositivos dominantes tratan a los objetos digitales nativos y pensar junto con los tratamientos del objeto y los dispositivos para combinarlos o reconstruirlos” (Rogers, 2013: 5). Sin embargo, desde su perspectiva son concebidos como un fenómeno complejo que debe conocer las limitaciones propias de todo objeto de estudio que involucra información, objetos, dispositivos y plataformas digitales (Rogers, 2013).

Todos estos procesos informáticos, como se advertía anteriormente, comportan una serie de limitaciones de diferentes características. En primer lugar, la introducción de métodos computacionales ajenos a la investigación social puede comportar un sesgo analítico predeterminado (Coromina, 2016). Del mismo modo, uno de los grandes problemas de la investigación social en internet es cómo obtener acceso completo y confiable a los datos recopilados en las plataformas en línea (Marres y Weltevrede, 2013). En esta línea, algunos autores han reparado en la “relativa oscuridad” que existe sobre las “mangueras de datos” ofrecidas por plataformas como Twitter y Facebook (boyd y Crawford, 2012), limitadas y restringidas por sus propias particularidades, necesidades e intereses.

En definitiva, aunque “proporcionan una manera privilegiada de captar mejor los objetos digitales, la dinámica de cómo funcionan y las políticas de las plataformas”

(Coromina, 2016: 55), es necesario recurrir a otras metodologías de carácter cualitativo para reforzar y complementar las conclusiones extraídas a partir del análisis descriptivo que ofrecen los datos.

Dans le document actores, contenidos y participación de los usuarios (Page 60-67)