"Big data" es un término relativamente de moda en la actualidad y es un método integral utilizado por la comunidad tecnológica para resolver los problemas más difíciles del mundo. problemas. Este término se utiliza generalmente para describir la habilidad y la ciencia de analizar grandes cantidades de información para descubrir patrones, recopilar conocimientos valiosos y predecir respuestas a preguntas complejas. Puede sonar un poco aburrido, pero desde detener a los terroristas hasta erradicar la pobreza y salvar el planeta, no hay nada que los defensores del big data no puedan resolver.
¿Víctor? ¿Meyer-Schoenberg y Kenneth? En "Big Data: una revolución que cambiará la forma en que vivimos, trabajamos y pensamos", Churchill aplaudió: "Los beneficios para la sociedad serán infinitos, porque los big data contribuirán de alguna manera a resolver problemas apremiantes. Cuestiones globales como la lucha contra el cambio climático , erradicar enfermedades y promover la buena gobernanza y el desarrollo económico. ”
Siempre que haya suficientes datos para procesar, ya sean los datos de su iPhone, los datos de sus compras de comestibles o las citas personales. Desde perfiles en sitios web hasta registros sanitarios anónimos de países enteros, se pueden obtener innumerables conocimientos valiosos utilizando la potencia informática para decodificar estos datos sin procesar. Incluso la administración Obama se ha sumado a la tendencia y el 9 de mayo publicó una enorme cantidad de "datos que antes eran difíciles de obtener o gestionar" a empresarios, investigadores y al público en general.
Sin embargo, ¿son los big data realmente tan buenos como parecen? ¿Podemos creer que numerosos unos y ceros revelarán el mundo secreto del comportamiento humano? Lo siguiente son los pensamientos del autor sobre la llamada teoría de big data.
1. “Con suficientes datos, los números pueden explicarlo todo”
No. A los defensores del big data les gustaría que creyéramos que detrás de las líneas de código y de las vastas bases de datos se esconden valiosos conocimientos objetivos y universales sobre los patrones de comportamiento humano, ya sean patrones de gasto de los consumidores, operaciones criminales o terroristas, hábitos de salud o productividad de los empleados. Pero muchos defensores de los big data no están dispuestos a afrontar sus deficiencias.
Los números no pueden hablar por sí solos y los conjuntos de datos, sin importar cuán grandes o pequeños sean, siguen siendo producto del diseño humano. Las herramientas de big data, como el marco de software Apache Hadoop, no nos liberan de malentendidos, barreras y falsas ideas preconcebidas.
Estos factores se vuelven particularmente importantes cuando los big data intentan reflejar el mundo social en el que vivimos, pero a menudo asumimos tontamente que estos resultados son siempre más objetivos que la opinión humana. Los sesgos y los puntos ciegos existen tanto en los big data como en los sentimientos y experiencias individuales. Sin embargo, existe la dudosa creencia de que contar con datos más grandes es mejor y que la correlación equivale a la causalidad.
Por ejemplo, las redes sociales son una fuente común de información para el análisis de big data y no hay duda de que existe mucha información que se puede extraer. Nos dicen que los datos de Twitter muestran que las personas que viven más lejos de casa son más felices y están más deprimidas los jueves por la noche. Pero hay muchas razones para cuestionar la importancia de estos datos. Primero, sabemos por el Pew Research Center que sólo 65.438 adultos en los EE. UU. usan Twitter, por lo que definitivamente no son una muestra representativa: son más jóvenes y urbanos que la población en su conjunto.
Además, sabemos que muchas cuentas de Twitter son programas automatizados, conocidos como "bots", cuentas falsas o sistemas "cyborg" (es decir, cuentas controladas por humanos y asistidas por bots). Estimaciones recientes sugieren que puede haber hasta 20 millones de cuentas falsas. Entonces, incluso si queremos adentrarnos en el campo minado metodológico de cómo evaluar el sentimiento de los usuarios de Twitter, todavía tenemos que preguntarnos si estos sentimientos provienen de personas reales o de sistemas algorítmicos automatizados.
2. “El big data hará que nuestras ciudades sean más inteligentes y eficientes”
Hasta cierto punto, sí. Los macrodatos pueden proporcionar información valiosa para ayudar a mejorar nuestras ciudades, pero sólo pueden ayudarnos a nosotros. Debido a que no todos los datos se generan o recopilan de la misma manera, existe un “problema de señalización” en grandes conjuntos de datos, es decir, algunas personas y comunidades son ignoradas o no están completamente representadas. Esto se conoce como zona oscura de datos o área de sombra.
Por lo tanto, la aplicación de big data en la planificación urbana depende en gran medida de la comprensión de los datos y sus limitaciones por parte de los funcionarios municipales.
Por ejemplo, la aplicación StreetBump de Boston es una forma inteligente de recopilar información a bajo costo. El programa recopila datos de los teléfonos inteligentes de los conductores que pasan sobre baches. Están surgiendo más aplicaciones similares. Sin embargo, si las ciudades comienzan a depender únicamente de la información de los usuarios de teléfonos inteligentes, estos ciudadanos serán una muestra autoseleccionada, lo que inevitablemente conducirá a una falta de datos en comunidades con menos usuarios de teléfonos inteligentes, que a menudo incluyen a ciudadanos mayores y menos ricos.
Aunque la nueva Oficina Mecánica de la Ciudad de Boston ha hecho muchos esfuerzos para remediar estas posibles deficiencias de datos, los funcionarios públicos menos responsables pueden pasar por alto estos remedios y terminar con datos desequilibrados que exacerban aún más las injusticias sociales existentes. Sólo hay que mirar hacia atrás en Google Flu Trends, que sobrestimó la incidencia anual de influenza en 2012, para darse cuenta del impacto que puede tener confiar en big data defectuosos en los servicios públicos y las políticas públicas.
Lo mismo ocurre con los proyectos de "gobierno abierto" que publican datos gubernamentales en línea, como el sitio web Data.gov y el Proyecto de Gobierno Abierto de la Casa Blanca. Es posible que más datos no mejoren ninguna función del gobierno, incluidas la transparencia y la rendición de cuentas, a menos que exista un mecanismo para que el público permanezca conectado con las agencias públicas, y mucho menos facilite la capacidad del gobierno para interpretar los datos y responder con recursos adecuados. Nada de esto es fácil. De hecho, no hay muchos científicos de datos altamente capacitados a nuestro alrededor. Las universidades ahora están luchando por definir el campo, desarrollar cursos y satisfacer las demandas del mercado.
3. "Para diferentes grupos sociales, el big data no favorecerá a unos ni a otros" Esto no es así. Otra expectativa de la objetividad de los big data es que la discriminación contra las minorías étnicas se reducirá porque los datos brutos no siempre contienen sesgos sociales, lo que permite que el análisis se realice a un nivel holístico, evitando así la discriminación basada en grupos. Sin embargo, debido a que los macrodatos pueden emitir juicios sobre diferentes comportamientos de grupos, su uso generalmente es solo para lograr un propósito: clasificar diferentes individuos en diferentes grupos. Por ejemplo, un artículo reciente sugiere que los científicos están permitiendo que sus prejuicios raciales influyan en la investigación de big data sobre el genoma.
Los macrodatos pueden utilizarse para discriminar precios, lo que provoca graves problemas de derechos civiles. Esta práctica se ha conocido históricamente como "línea roja". Recientemente, la Universidad de Cambridge realizó un estudio de big data sobre 58.000 etiquetas "me gusta" de Facebook para predecir información personal extremadamente sensible de los usuarios, como orientación sexual, raza, opiniones religiosas y políticas, rasgos de personalidad, nivel de inteligencia y felicidad. consumo de drogas, estado civil de los padres, edad y sexo.
¿Reportero Tom? Form comentó sobre el estudio: "Esta información altamente sensible y de fácil acceso puede ser utilizada por empleadores, propietarios, departamentos gubernamentales, instituciones educativas y organizaciones privadas para discriminar y castigar a personas sin ningún medio para luchar contra ella".
Finalmente, considere las implicaciones para la aplicación de la ley. La policía desde Washington hasta el condado de New Castle, Delaware, está recurriendo a modelos de “vigilancia policial predictiva” basados en big data con la esperanza de proporcionar pistas para resolver casos sin resolver e incluso ayudar a prevenir delitos futuros. Sin embargo, hacer que la policía se concentre en “puntos calientes” específicos descubiertos por big data corre el riesgo de reforzar la sospecha de la policía sobre grupos sociales con mala reputación y hacer que la aplicación de la ley sea institucionalizada.
Como señaló un jefe de policía en un artículo, si bien los sistemas predictivos de registro policial no tienen en cuenta factores como la raza y el género, las consecuencias prácticas del uso del sistema podrían "conducir a conflictos entre la policía y la comunidad". "Las relaciones se deterioraron, creando una percepción pública de falta de proceso judicial, lo que llevó a acusaciones de discriminación racial y amenazó la legitimidad de la policía."
4. “Los big data son anónimos, por lo que no invadirán nuestra privacidad.”
Gran error. Aunque muchos proveedores de big data han hecho todo lo posible para eliminar las identidades individuales de los conjuntos de datos de cara a los humanos, el riesgo de que se vuelva a identificar la identidad sigue siendo muy alto. Los datos de los teléfonos móviles pueden parecer bastante anónimos, pero un estudio reciente de un conjunto de datos de 6.543.850.000 usuarios de teléfonos móviles en Europa mostró que sólo se necesitaban cuatro factores de referencia para identificar al 95% de ellos.
Los caminos que las personas toman en las ciudades son únicos, observaron los investigadores, y la privacidad personal se ha convertido en un "problema creciente" dada la gran cantidad de información que se puede inferir de conjuntos masivos de datos públicos.
Sin embargo, los problemas de privacidad del big data van mucho más allá de los riesgos convencionales de confirmación de identidad. Los datos médicos que actualmente se venden a empresas de análisis pueden usarse para rastrear su identidad. Se habla mucho de medicina personalizada, de la esperanza de que en el futuro se puedan desarrollar medicamentos y otros tratamientos para individuos como si estuvieran hechos del propio ADN del paciente.
Esta es una perspectiva prometedora en términos de mejorar la eficacia de los medicamentos, pero depende esencialmente del consentimiento individual a nivel molecular y genético. Una vez que esta información se utilice o se filtre incorrectamente, traerá grandes riesgos. Aunque las aplicaciones de recopilación de datos de salud personal como RunKeeper y Nike se están desarrollando rápidamente, en la práctica el uso de big data para mejorar los servicios médicos sigue siendo más un deseo que una realidad.
Los conjuntos de datos grandes y altamente personalizados se convertirán en objetivos principales para los piratas informáticos o las filtraciones. WikiLeaks ha estado en el centro de algunas de las peores filtraciones de datos de los últimos años. Hemos visto en la filtración masiva de datos en la industria financiera extraterritorial del Reino Unido que, como todos los demás, la población más rica del mundo puede perder fácilmente su información personal.
5. "Big data es el futuro de la ciencia"
En parte es cierto, pero necesita algo de crecimiento. Los macrodatos abren nuevas vías para la ciencia. Sólo necesitamos mirar el descubrimiento del bosón de Higgs, producto del mayor proyecto de computación grid de la historia. En este proyecto, el CERN utiliza el sistema de archivos distribuido Hadoop para gestionar todos los datos. Pero a menos que reconozcamos y comencemos a abordar algunas de las deficiencias inherentes de los macrodatos a la hora de reflejar la vida humana, es posible que estemos tomando importantes decisiones de política pública y de negocios basadas en sesgos erróneos.
Para resolver este problema, los científicos de datos comenzaron a colaborar con los científicos sociales. Con el tiempo, esto significará encontrar una nueva forma de combinar estrategias de big data con investigación de big data. Esto iría mucho más allá de las prácticas utilizadas en las industrias de la publicidad o el marketing, como los grupos centrales o las pruebas A/B (es decir, mostrar dos versiones de un diseño o resultados a los usuarios para determinar cuál es mejor).
Más bien, el nuevo enfoque híbrido preguntará a las personas por qué hacen algo, en lugar de simplemente contar con qué frecuencia sucede algo. Esto significa que además de la recuperación de información y el aprendizaje automático, también utilizaremos el análisis sociológico y una comprensión profunda de la etnografía.
Las empresas tecnológicas se han dado cuenta desde hace tiempo de que los científicos sociales pueden ayudarlas a obtener una comprensión más profunda de cómo y por qué las personas se relacionan con sus productos. Por ejemplo, ¿el centro de investigación de Xerox contrató a la antropóloga pionera Lucy? Sucmán. La siguiente fase enriquecerá aún más las colaboraciones entre informáticos, estadísticos y una variedad de científicos sociales, no sólo para probar sus propios hallazgos sino también para plantear tipos de preguntas completamente diferentes con mayor rigor.
Dada la gran cantidad de información que se recopila sobre nosotros todos los días, incluidos los clics en Facebook, los datos del Sistema de Posicionamiento Global (GPS), las recetas médicas y las listas de reservas de Netflix, debemos decidir a quién confiar esta información y para qué. objetivo.
No se puede ignorar el hecho de que los datos no son en absoluto neutrales y que es difícil permanecer en el anonimato. Sin embargo, podemos aprovechar la experiencia en diferentes campos para identificar mejor sesgos, fallas y sesgos.
Lo anterior es el contenido compartido por el editor sobre las perspectivas revolucionarias del análisis en profundidad de big data. Para obtener más información, puede seguir a Global Ivy para compartir más información detallada.