¿Alguna vez has mirado los datos de audiencias y has pensado que no parecen completamente reales o precisos? Podría ser el resultado de un sesgo en los datos. El sesgo en los datos genera resultados que no son completamente representativos de la audiencia que estás investigando. Puede ocurrir de forma intencionada o no, y es algo que debes tener en cuenta en tu planificación y estrategia.
Antes de seguir, es posible que quieras leer este par de artículos sobre cómo usamos y enriquecemos nuestras fuentes de datos en Audiense, y las restricciones de datos y cómo funciona en el mundo real.
Un ejemplo del sesgo en datos lo podemos encontrar en los datos demográficos y socioeconómicos. La población de India está compuesta por un 52% de hombres y 48% de mujeres. Si hablamos de datos sociales, para empezar, la penetración de Internet en la población es del 49%. Y al fijarnos en la población de India en Facebook Insights, vemos que la división por género es de 76% hombres y ¡24% mujeres! Entonces, ¿cuál es el dato correcto? Esto nos muestra que existe un desequilibrio entre cuántos hombres y mujeres hay en las redes sociales en comparación con el número de hombres y mujeres en el país. En pocas palabras, sabemos que no toda la población adulta del mundo está en las redes sociales, por lo que somos conscientes de que los datos con los que estamos trabajando solo serán representativos de la población existente en las redes sociales. Si queremos profundizar, debemos recordar que las personas pueden crear varios perfiles sociales, como cuentas privadas o fan pages, y esto puede diferir según la comunidad online que estés analizando.
La diferencia entre las fuentes de datos de Facebook y Twitter, y lo que está disponible públicamente, es que Facebook ha dejado las compuertas abiertas desde el principio, por lo que todo estaba expuesto y podía usarse. Mientras que Twitter, al crear su plataforma y base de datos, implementó, desde el principio, procesos para proteger los datos personales, lo que significa que el acceso que proporcionan a empresas como la nuestra para que usemos sus datos es legal. La API de Twitter permite a Audiense ver todos los datos públicos disponibles a través de una transmisión directa. Twitter, por medio del uso de sus APIs (como Gnip) se asegura de que cuando se eliminan datos o una cuenta se convierte en privada, los data partners no accedan a los datos nuevamente, o Twitter lo notifica a los partners, como nosotros, para que podamos eliminar esos datos en nuestra plataforma.
Sin una API completa, se deja la vía abierta a otras formas de extraer datos, ya sea un acceso reducido a la API o incluso al data scraping. Hay otras redes que permite un acceso limitado a sus APIs, como Instagram a través de InfluencerDB. InfluencerDB era una popular herramienta de gestión de comunidades de influencers que utilizaba una combinación de scraping y usuarios que optaban por poder ver sus estadísticas, pero recientemente anunció su cierre.
Por otro lado, hay algunas redes sin API que siguen siendo proveedores de datos. Por ejemplo, TikTok, que "autoriza" plataformas como Influencer Grid, Netfeedr y Pentos a proporcionar información sobre influencers y analíticas de TikTok. La dificultad que puede tener TikTok es que su plataforma tiene una gran cantidad de menores que la usan, crean y comparten contenido dentro de la aplicación, por lo que tienen la responsabilidad de proteger a sus usuarios y sus datos de prácticas dañinas.
Todas las redes y plataformas mencionadas anteriormente pueden aplicar además machine learning para comprender y analizar mejor los datos recopilados. De manera similar, algunos proveedores pueden realizar un muestreo y una extrapolación, o un cross-network matching y extrapolación.
Luego está el problema del data scraping en sí mismo, que provoca sesgo en los datos. Audiense no hace data scraping. Tenemos acceso a la API de Twitter, por lo que sabemos que todos nuestros datos son tan precisos como las personas se describen a sí mismas en esa red. Sin embargo, otras plataformas que están ponderando su fuente de datos a través de redes restringidas, como Facebook e Instagram, se basarán en scraped data (Facebook demandó recientemente a un par de empresas por el nivel en el que lo llevaron a cabo). Esto significa que no tienen el 100% de los datos, y que esencialmente trabajan con tamaños de muestra pequeños y diluidos, que es lo que te proporcionan y con lo que te hacen pensar que tu campaña será precisa y exitosa. Dado que es todo lo que está disponible, puede que sea tu mejor opción, pero con los datos sesgados tus resultados podrían no cumplir con tus expectativas cuando se trata de analizar una audiencia.
Los datos de LinkedIn son a menudo solicitados por las plataformas de inteligencia de audiencias y sus usuarios. Al ser una importante red social para la industria B2B, está claro por qué la gente desea conseguir tanta información como sea posible y por qué las empresas quieren poder decir que la proporcionan. Una herramienta popular que intenta cerrar la brecha es pipl.com, que normalmente se usa para ayudar a hacer coincidir los handles con los perfiles de LinkedIn. Un caso que llegó a los tribunales fue la disputa entre LinkedIn y una pequeña empresa de análisis de datos, hiQ. El data scraping, según las circunstancias, puede ser legal o ilegal. En ese caso, los datos con los que hiQ estaba haciendo scraping eran datos públicos, por lo que por medio de bots automatizados estaban recopilando datos que cualquiera podía ver. Phantombuster es otra herramienta que a menudo se usa para hacer data scraping de perfiles de LinkedIn.
Los problemas aparecen cuando la fuente de datos en sí, como en el caso de Cambridge Analytica y Facebook, proporciona más datos públicos de los que los usuarios podrían ser conscientes de forma realista que está ocurriendo. Al considerar una plataforma de analítica, ten en cuenta que puede o no estar rozando los límites de lo que es ético o está permitido, y será tu responsabilidad utilizar sus datos. Hay implicaciones a considerar (como la precisión y fiabilidad de los scraped data, ya que se basarán en tamaños de la muestra), pero cuando estás limitado por la disponibilidad este es un riesgo que debes estar dispuesto a aceptar. ¿Cuánto tiempo durará el acceso a los datos sociales tal y como lo conocemos ahora?