Seguridad Ciudadana: El crecimiento del procesamiento de grandes cantidades de información: The Big Data

martes, 3 de diciembre de 2013

El crecimiento del procesamiento de grandes cantidades de información: The Big Data

Ensayo completo de Foreing Affairs

Por Kenneth Neil Cukier y Viktor Mayer-Schoenberger

Traducción Jorge Contreras

Las tendencias de las redes se van despuntando y se espera que en el 2014 una nueva dimensión de análisis se haga pública.

Hasta hoy es poco conocido el verdadero valor detrás de los análisis comerciales, de negocios, industriales y políticos ….

Las posibilidades de la publicidad y el experimento de medición de perfilas es es todo un trabajo de laboratorio, aún fuera de la vista del común operador en Internet.

Como esta cambiando la manera en que vemos el mundo

Todo el mundo sabe que el Internet ha cambiado la forma de operación de las empresas, el funcionamiento de los gobiernos, y la vida de las personas. Sin embargo, pocos conocen que el

procesamiento de las grandes cantidades de información la “Big Data” son también una nueva tendencia transformadora menos visible tecnológicamente. Las grandes cantidades de información se originan en el hecho de que en estos días hay flotando en el ambiente, mucha más información que nunca antes, y que esta información está tomando nuevas y extraordinarias formas de empleo. Las grandes cantidades de información son distintas de la Internet, aunque la Web hace fácil la recopilación y el compartir datos. La llamada “Big data” es algo más que comunicación: el concepto es que de ella podemos hoy aprender más de lo que podíamos comprender utilizando pequeñas cantidades de información.

En el siglo III aC , la Biblioteca de Alejandría se creía era la casa que contenía la suma del conocimiento humano. Hoy en día, existe suficiente información en el mundo como para entregarle a habitante 320 veces más de información de la que los historiadores consideran se almacenaba en la colección entera de Alejandría. Un estimado de 1.200 exabytes. Si esta información se colocaron en CDs y estos se colocaran apilados uno sobre otro, los CDs formarían cinco columnas y todas las columnas llegarían a la luna.

Esta explosión de información es relativamente nueva. En el año 2000, sólo una cuarta parte de toda la información en el mundo era almacenada digitalmente. El resto se conservaba en papel, en el cine y en otros medios de comunicación análogos. Debido a que la cantidad de información digital se ha expandido rápidamente, hoy esta cantidad se duplica alrededor de cada tres años. Esto ha invertido la situación, al punto, en que hoy en día, menos del dos por ciento de la información es almacenada en medios no digitales.

Dada la magnitud de información, es una tentación el sólo intentar comprender las grandes cantidades de información en términos de tamaño. Esto es engañoso. Las grandes cantidades de información, se caracterizan más por la capacidad de producir información de muchos aspectos del mundo que nunca antes habían sido cuantificadas; por ejemplo, toda ubicación se ha “informatizado[1]”, primero con la invención de la longitud y la latitud, y recientemente se ha informatizado con los datos proporcionados por los sistemas de satélites GPS. En estos casos, las palabras son tratadas como información cuando los equipos valoran el contenido de libros de hace siglos. Incluso las personas amigas y el común botón "me gusta" se han informatizado, a través del Facebook .

“Hoy podemos aprender de las grande cantidades de información,

cosas que no comprendíamos cuando utilizábamos pequeñas cantidades de datos.”

Este tipo de información se está adecuando a nuevos e increíbles empleos, con la ayuda de económicas memorias de ordenadores, de potentes procesadores, de algoritmos inteligentes, Programas (software) inteligente y matemáticas que hacen uso de las estadísticas básicas. Expertos de inteligencia artificial han intentado sin éxito por décadas el " enseñarle" a una computadora a cómo hacer cosas, como conducir un coche o traducir entre dos lenguas, hoy, el nuevo enfoque consiste en alimentar con suficientes datos una computadora, para que esta puede inferir la mejor probabilidad, por ejemplo, cuando un semáforo debe estar en verde y no rojo o que, en un determinado contexto, la palabra lumière (luz en lenguaje francés) será un sustituto más apropiado para Light (luz en ingles) o que Léger (luz en Holandés).

El uso de grandes volúmenes de información de esta manera requiere tres cambios profundos en la forma en que nos acercamos a la información. La primera consiste en recopilar y utilizar una gran cantidad de información en lugar de conformarnos con pequeñas cantidades o con solo muestras, como han hecho los especialistas en estadística por más de un siglo. La segunda es que para poder mantener nuestra preferencia por información altamente verificada y original, en un número creciente de situaciones, debemos también tolerar un poco de inexactitud. Los beneficios del uso de muchísima información de calidad variable son mayores que los costos de utilización de menores cantidades de datos muy exactos. En tercer lugar, en muchos casos, al aceptar correlaciones, tendremos que dejar de buscar para descubrir el origen de las cosas. Con grandes cantidades de información, en lugar de tratar de entender con precisión por qué un motor se avería o por qué el efecto secundario de una droga desaparece, los investigadores pueden a cambio recoger y analizar cantidades masivas de información sobre este tipo de eventos y todo lo que se asocia con ellos, en busca de patrones que podrían ayudar predecir futuros sucesos. La gran cantidad de información ayuda a responder el “que”, no el “por qué no”, y muchas veces eso es más que suficiente.

La Internet ha reformulado la manera cómo se comunica la humanidad. Las grandes cantidades de información hacen la diferencia. Señalan la transformación de la forma en que la sociedad procesa la información. Con el tiempo, las grandes cantidades de información podrían variar nuestra forma de pensar acerca del mundo. Cada vez que empleamos más información para entender acontecimientos y tomar decisiones, descubrimos “probabilidades” de la vida más que “certezas”.

Acercándonos a la totalidad, donde la muestra M=Todo

Durante la mayor parte de la historia, la gente ha trabajado con cantidades relativamente pequeñas de información, debido a que las herramientas para recopilar, organizar, almacenar y analizar la información eran simples. La gente se acostumbro a confiar en el mínimo de información que pudieran examinar con mayor facilidad. Esta fue la genialidad de las estadísticas hasta hoy en día, que saliera a la luz a finales del siglo XIX y permitiera a la sociedad el entender realidades complejas, aún cuando existían muy pocos datos. Hoy en día, la dimensión técnica ha tenido un cambio de giro de 179 grados. Todavía es y siempre será una restricción la cantidad de información que podamos manejar, pero es mucho menos limitada a lo que solía ser, y cada vez será menor a medida que vaya transcurriendo el tiempo.

La manera como la gente manejaba el problema de la captura de información en el pasado fue a través de los muestreos. Cuando la recolección de datos era costosa, el procesamiento era difícil y se consumía mucho tiempo, entonce la muestra representaba la tabla de salvación.

El muestreo moderno se basa en la idea de que, dentro de un cierto margen de error, se puede inferir algo “sobre la población total de un pequeño subconjunto”, y la muestra se elige al azar. Así será, el resultado de las encuestas de una noche electoral, en la que se consulta a un grupo seleccionado al azar de varios cientos de personas para predecir el comportamiento de los votantes de un estado entero. Antiguamente para preguntas simples, este proceso funcionaba bien. Sin embargo, se desmoronaba cuando queríamos profundizar en los subgrupos dentro de la muestra.

¿Qué pasa si un encuestador quiere saber cuál de los candidatos son más propensos a votar por mujeres solteras menores de 30 años ? ¿Qué tal con formación universitaria , las mujeres asiático-americanas solteras menores de 30 años? Entonces, el procedimiento de la muestra aleatoria es inútil, ya que podría haber sólo un par de personas con esas características en la muestra, lo que sería muy poco para hacer una evaluación significativa de cómo toda la subpoblación votará . Pero si reunimos todos los datos donde la muestra "M = es todo ", para emplear la terminología de las estadísticas, entonces, el problema desaparece.

Este ejemplo plantea otro inconveniente, el de la utilización de poca información más que del empleo de la totalidad. En el pasado, la gente recolectaba sólo un poco de información y a menudo, antes de empezar a recolectar, tenían que decidir lo que debía recoger y cómo se podía utilizar. Hoy en día, cuando reunimos toda la información, no es necesario saber de antemano con que intención vamos a utilizarla. Por supuesto, no siempre será posible recolectar toda la información, pero será más factible capturar más características de un determinado fenómeno que el que se obtenía simplemente con una muestra. La gran cantidad de información es una cuestión no sólo de crear muestras más grandes, sino de aprovechar la mayor cantidad posible de información existente acerca de lo que se está estudiando. Hoy, todavía necesitamos de las estadísticas, sólo que ya no dependemos más de muestras pequeñas.

Hay una aclaración necesaria que hacer. Cuando aumentamos la escala en niveles de magnitud, puede ser que tengamos que renunciar a datos limpios, cuidadosamente verificados y tengamos que tolerar cierto desorden. Esta idea es contraria a cómo la gente ha tratado de trabajar con la información desde hace siglos. Sin embargo, la obsesión por la exactitud y la precisión es de alguna manera una limitación en el manejo de la información. Cuando no había tanta información disponible, los investigadores tenían que asegurarse de que las cifras que se recolectaban fuesen tan exacta como sea posible. Abarcando mucho más información significa que estamos supeditados a incluir algunas imprecisiones que se agregan (siempre que el conjunto de información no sea totalmente incorrecto), a cambio de que se obtiene el beneficio de los conocimientos que la cantidad masiva de información proporciona.

Consideremos la traducción de idiomas. Puede parecer obvio que las computadoras traduzcan bien, ya que pueden almacenar gran cantidad de información y recuperarla rápidamente. Pero si uno tuviera simplemente que sustituir las palabras de un diccionario francés - Inglés, la traducción sería atroz. El lenguaje es complejo. Un gran avance se produjo en la década de los 90s, cuando IBM se adentró en la traducción automática estadística. Alimentó transcripciones parlamentarias canadienses en francés y en Inglés en una computadora y la programó para inferir que palabra en un idioma era la mejor alternativa para cada caso. Este proceso cambió la tarea de traducción en un problema gigante de probabilidades y matemáticas. Después de esta implementación inicial, el progreso se estancó.

Entonces Google apareció. En lugar de utilizar un número relativamente pequeño de traducciones de alta calidad, el gigante de las búsquedas, implementó más información, a través de la menos ordenada Internet , "La información en el medio hostil", por así decirlo. Google inhaló traducciones de sitios Web corporativos , documentos de la Unión Europea en todos los idiomas, incluso las traducciones de su gigantesco proyecto de escaneo de libros. En vez de millones de páginas de textos, Google analiza miles de millones. El resultado es que sus traducciones son bastante mejores que las de IBM y cubren 65 idiomas. Las grandes cantidades de información desordenada dieron lugar a pequeñas cantidades de datos claros.

El empleo de grandes volúmenes de información

significa saber el “qué”, y renunciar a la búsqueda del “por qué”.

Del origen (causalidad) a la relación (correlación)

Estos dos cambios de la forma en que pensamos acerca de la información, de algunos a todos y de los claro a los desordenado, dan lugar a un tercer cambio: del origen (la causalidad) a la relación (la correlación). Esto representa un apartarse de tratar de comprender las razones profundas detrás de cómo funciona el mundo a simplemente aprender acerca de la asociación entre los fenómenos y su empleo para aclarar las cosas .

Por supuesto, que conocer las causas detrás de las cosas es deseable. El problema es que a menudo las causas son extremadamente difíciles de entender, y muchas veces, cuando pensamos que las hemos identificado, son solo una ilusión que nos complace. Una característica de conducta abreviada es que los seres humanos somos propensos a buscar las causas, aún cuando estas no existen. Así que tenemos que estar en guardia para evitar que nuestros sesgos cognitivos nos engañen, en ocasiones, tenemos que dejar que sea la información la que hable.

Tomemos como ejemplo a UPS, la compañía de repartos. Ellos colocan sensores en partes de sus vehículos para identificar ciertos patrones de calor o vibración que en el pasado han estado asociados a fallas de esas partes. De esta manera , la empresa puede predecir una falla antes de que suceda y puede sustituir la pieza cuando es conveniente, en vez de hacerlo en algún lugar de la carretera. La información no revela la relación exacta entre el calor o los patrones vibratorios y el fracaso de la pieza. No le dice a UPS qué parte está en problemas. Pero le revela el qué hacer en el corto plazo y guía su investigación sobre cualquier problema subyacente que pudiera existir con la parte que falla o con el vehículo.

Un enfoque similar se utiliza para el tratamiento de las averías de la máquina humana . Investigadores en Canadá están desarrollando un enfoque con grandes cantidades de información para detectar infecciones en los bebés prematuros antes de que los síntomas se manifiesten. Mediante la conversión de 16 signos vitales, incluyendo los latidos del corazón, la presión arterial , la respiración y los niveles de oxígeno en sangre, en un flujo de información de más de 1.000 puntos de datos por segundo, ellos han sido capaces de encontrar correlaciones entre los cambios menores y problemas más serios. Con el tiempo , esta técnica permitirá a los médicos a actuar antes para salvar vidas. Con el tiempo, el registro de estas observaciones podrá permitir a los médicos el comprender las causas de este tipo de problemas . Pero cuando la salud de un recién nacido está en riesgo, simplemente el saber que algo es probable que se produzca, puede ser mucho más importante que entender exactamente el por qué.

La medicina nos proporciona otro buen ejemplo del por qué, con grandes volúmenes de información, al ver correlaciones puede ser enormemente valioso, incluso cuando las causas no se detectan. En febrero del 2009 , Google creó un gran revuelo en los círculos dedicados al cuidado de la salud. Los investigadores de la compañía publicaron un artículo en la Revista “Nature” que mostraba cómo era posible rastrear los brotes de la gripe estacional usando nada más que los registros archivados de las búsquedas de Google. Google maneja más de mil millones de búsquedas en Estados Unidos todos los días y todos estos datos los almacena . La compañía tomó los 50 millones de términos más comúnmente buscado entre los años 2003 y 2008 y los compararon con los datos históricos de la gripe de los Centros para el Control (CDC) y la Prevención de Enfermedades. La idea era descubrir si la incidencia de determinadas búsquedas coincidia con los brotes de la gripe, en otras palabras, para ver si un incremento en la frecuencia de ciertas búsquedas de Google realizadas en una zona geográfica determinada tenía correlación con los datos de los CDC sobre los brotes de gripe en las mismas zonas. El CDC registra las visitas reales de pacientes a los hospitales y clínicas de todo el país , pero la información que libera sufre de un retraso de la presentación de informes de una semana o dos, una eternidad en el caso de una pandemia. El sistema de Google, todo lo contrario, puede funcionar casi en tiempo real .

La intención de Google no fue pretender si sus consultas dan los mejores indicadores. Su intención fue correr todos los términos a través de un algoritmo para calificar qué tan bien se correlaciona esta información con los brotes de gripe. Entonces, el sistema combinó los términos para ver si eso mejoraba el modelo. Finalmente , después de correr casi medio billón de cálculos en contra de los datos, Google identificó 45 términos, palabras como "dolor de cabeza " y " goteo de la nariz ", que tuvieron una fuerte correlación con los datos de los CDC sobre las brotes de gripe. Todos los 45 términos relacionados de alguna manera con la influenza. Esta información de mil millones de búsquedas al día , habría sido imposible de llevar a cabo por una persona y luego adivinar cuáles procesos podrían funcionar mejor y probarlos.

Por otra parte , la información eran imperfecta. Debido a que la información nunca fue destinada a ser utilizada de esta manera, faltas de ortografía y frases incompletas fueron comunes. Sin embargo, la gran cantidad de información compensaba su desorden. El resultado, por supuesto, era simplemente una correlación. No decía nada sobre las razones por las que alguien realizó la búsqueda en particular . ¿Fue porque la persona se sintió mal o escuchó estornudar en el cubículo de al lado, o se sentía nervioso después de leer las noticias? El sistema de Google no lo sabe, y no le importa. De hecho, en diciembre pasado, parece que el sistema de Google puede haber sobreestimado el número de casos de gripe en los Estados Unidos. Esto sirve como un recordatorio de que las predicciones son sólo probabilidades y no siempre son correctas, sobre todo cuando la base de la predicción son las “Búsquedas en Internet”, las cuales están en un estado constante de cambio y son vulnerables a las influencias externas, tales como los informes de los medios de comunicación . Aún así , el procesamiento de las grandes cantidades de información pueden hacer alusión a la dirección general de un desarrollo continuo, que es lo que el sistema Google precisamente hizo.

Las operaciones del servidor

Muchos tecnólogos creen que las grandes cantidades de información remontan su origen a la revolución digital de la década de 1980, cuando los avances en microprocesadores y memorias de computadora hicieron posible el analizar y almacenar cada vez más información. Esto es sólo ver el caso de manera superficial. Las computadoras y el Internet sin lugar a dudas, ayudan a la recolección de las grandes cantidades de información mediante la reducción del costo de recolección, el almacenamiento, el procesamiento y el intercambio de información. Y en el centro de su corazón, las grandes cantidades de información constituyen la última interrogante de la humanidad en la búsqueda de entender y cuantificar el mundo. Para apreciar esto es necesario revisar los hechos del pasado.

Habrá una especial necesidad de hacerle un lugar al ser humano:

reservarle espacio para la intuición, el sentido común y la casualidad.

Apreciando desarrollos posteriores de la gente, se incluye el arte y la ciencia de Shigeomi Koshimizu , profesor en el Instituto Avanzado de Tecnología Industrial de Tokio. Pocos pensarían que la forma en la que una persona se sienta constituye información, y es cierto. Cuando una persona está sentada , los contornos del cuerpo , su postura , y su distribución de peso pueden ser cuantificados y tabulados . Koshimizu y su equipo de ingenieros convirtieron las posaderas en información midiendo la presión que ejercen en 360 puntos diferentes con sensores colocados en un asiento de coche y por la indexación de cada punto en una escala de cero a 256. El resultado es un código digital que es único para cada individuo . En una investigación, el sistema fue capaz de distinguir características individuales de entre un grupo de personas con un 98 por ciento de exactitud

La investigación no es insignificante. El plan de Koshimizu es el adaptar la tecnología como un sistema antirrobo para autos. Un vehículo equipado con esta tecnología podría reconocer cuando alguien que no sea un conductor aprobado se sienta al volante y podría pedirle una contraseña para permitirle que conduzca el auto. La transformación de las posiciones del asiento en información, crea un servicio viable y un negocio potencialmente lucrativo . Y su utilidad puede ir mucho más allá de disuadir del robo de autos. Por ejemplo, la información agregada podrían revelar información sobre la relación entre la postura de los conductores y la seguridad vial, por ejemplo los cambios reveladores en la posición en circunstancias anteriores a los accidentes. El sistema también podría ser capaz de detectar cuando un conductor se deja vencer por la fatiga y puede enviarle una alerta o aplicar automáticamente los frenos.

Koshimizu tomó algo que nunca habían sido tratados como información e incluso que se haya imaginado tendría calidad informativa y lo transformó en un formato numéricamente cuantificado. No hay un buen termino para esta especie de transformación, pero la palabra "informatización (Datafication) " parece acertada. informatización no es la mismo que digitalización, que toma el contenido analógico - libros, películas , fotografías - y lo convierte en información digital , una secuencia de unos y ceros que las computadoras pueden leer. informatización es una actividad mucho más amplia : tomar todos los aspectos de la vida y convertirlos en información. Por ejemplo, los anteojos de realidad aumentada de Google informatizan la mirada . Twitter informatiza pensamientos perdidos . LinkedIn informatiza redes profesionales .

Una vez que informatizamos cosas, podemos transformar su propósito y convertir la información en nuevas formas de valor. Por ejemplo, IBM se acreditó una patente en EE.UU. en el año 2012 para "asegurar la instalación de tecnología informática utilizando superficies como el piso", una forma técnica para describir un revestimiento de una cubierta táctil, algo similar a las pantallas de los teléfonos inteligentes (smartphone). informatizando la cubierta táctil del piso, se puede abrir todo tipo de posibilidades. Este piso podría ser capaz de identificar los objetos en él, para que pudiera permitir encender las luces en una habitación o abrir puertas, cuando una persona entra. Por otra parte, podría identificar a las personas por su peso o por su forma de pararse y caminar. Podría decir si alguien se cayó y si recibió ayuda, una situación importante en el caso de ancianos. Con este tipo de invención, los vendedores comerciales podrían rastrear el flujo y los recorridos de los clientes en sus tiendas. Una vez que se hace posible el convertir actividades de este tipo en información que pueden ser almacenada y analizada, podemos aprender más sobre el mundo, cosas que antes no sabíamos, porque no las podíamos medir con facilidad y con bajos costos.

Grandes cantidades de información en la Gran Manzana (Nueva York)

Las grandes cantidades de información implicarán más allá de la medicina y los bienes de consumo: se espera que cambien profundamente el funcionamiento de los gobiernos y la naturaleza de la política. Cuando se trata de generar crecimiento económico, prestar servicios públicos, o pelear en las guerras, aquellos que pueden aprovechar las grandes cantidades de información, disfrutarán efectivamente de una ventaja significativa sobre los demás. Hasta ahora, el trabajo más emocionante está en el nivel municipal , donde es más fácil acceder a los datos y para experimentar con la información . En un esfuerzo encabezado por Michael Bloomberg, alcalde de Nueva York (quien hizo una fortuna con el negocio de información), la ciudad está utilizando grandes volúmenes de información para mejorar los servicios públicos y disminuir costos. Un ejemplo es la nueva estrategia de prevención de incendios.

Edificios subdivididos ilegalmente son mucho más propensos a los incendios . La ciudad tiene 25.000 quejas al año sobre edificios con hacinamiento, y sólo cuenta con 200 inspectores para atender estas necesidades. Un pequeño equipo de especialistas de análisis en la oficina del alcalde calcula que las grandes cantidades de información podrían ayudar a resolver este desequilibrio entre necesidades y recursos. El equipo creó una base de datos de todos los 900.000 edificios de la ciudad y la aumentó con información valiosa recolectada por 19 agencias de la ciudad: los registros de privilegios fiscales, anomalías en el uso de servicios públicos, recortes en los servicios, pagos atrasados , las visitas de la ambulancia , las tasas de delincuencia local, las quejas de roedores y otras más. Luego, compararon esta base de datos con los registros de incendios de edificios de los últimos cinco años, clasificándolos en orden de gravedad, con la esperanza de descubrir correlaciones. No es sorprendente que entre los factores predictivos de incendio estaban del tipo de edificio y el año de su construcción. Menos de esperar, sin embargo, fue el hallazgo de que los edificios que adquirieron permisos para trabajos de albañilería exterior estaban relacionados con un menor riesgo de incendio.

El uso de todos estos datos permitió al equipo crear un sistema que podría ayudarles a determinar que quejas de hacinamiento necesitaban atención urgente. Ninguna de las características de los edificios que ello registraron causaron incendios, sino que se correlacionaban con un mayor o menor riesgo de incendio. Este conocimiento demostró ser inmensamente valioso: en el pasado, los inspectores de edificios emitían órdenes de desalojo en el 13 por ciento de sus visitas; utilizando el nuevo método, la cifra se elevó a 70 por ciento, lo que constituyó un enorme aumento de la eficiencia.

Por supuesto , las compañías de seguros han utilizado durante mucho tiempo métodos similares para evaluar los riesgos de incendios, sin embargo se basan principalmente en sólo un grupo de atributos que por lo general corresponden intuitivamente a los incendios. Por el contrario, el enfoque de las grandes cantidades de información de la ciudad de Nueva York fue capaz de examinar muchas más variables, incluyendo algunas que en un primer momento parecían no tener ninguna relación con el riesgo de incendio. Así el modelo de la ciudad llegó a ser más económico y más rápido, desde que hizo uso de los datos existentes. Lo más importante, las predicciones de las grandes cantidades de información daban más en el blanco.

Las grandes cantidades de información también está ayudando a aumentar la transparencia democrática de los gobiernos. Un movimiento se ha originado en torno a la idea de "información abierta", que va más allá de las leyes de libertad de información y que ahora es común en las democracias desarrolladas. Los partidarios piden a los gobiernos hoy el acceso público a las grandes cantidades de información. Los Estados Unidos han estado a la vanguardia, con los sitio Web con información del gobierno y muchos otros países lo hacen de manera similar.

Al mismo tiempo que los gobiernos promuevan el uso de grandes volúmenes de información, también tendrán que proteger a los ciudadanos contra el malsano dominio del mercado. Compañías como Google , Amazon y Facebook -, así como otros “vendedores de información, " menos conocidos como Acxiom y Experian, están acumulando enormes cantidades de información sobre todos y todo. Las leyes antimonopolio protegen contra la monopolización de los mercados de bienes y servicios, tales como software o puntos de venta de medios, debido a que los tamaños de los mercados de estos productos son relativamente fáciles de calcular. Pero, ¿cómo deben los gobiernos aplicar las normas antimonopolio de grandes volúmenes de información, un mercado que es difícil de definir y que se forma cambiando constantemente ? Mientras tanto, la privacidad se convertirá en una preocupación aún mayor, ya que más información es casi seguro que conducirá a información privada más comprometida, una desventaja de las grandes cantidades de información que no parece que las tecnologías y las leyes vigentes vayan a impedir.

Normas sobre los grandes volúmenes de información, incluso podrían surgir entre países como si se tratara de un campo de batalla. Los gobiernos europeos ya están escudriñando a Google por una serie de preocupaciones antimonopolio y de privacidad, en un escenario, que recuerda a las acciones de cumplimiento de las normas antimonopolio que la Comisión Europea demandó a Microsoft a inicios de esta década. Facebook podría convertirse en blanco de acciones similares en todo el mundo, ya que tiene mucha información sobre los individuos. Los diplomáticos deberían prepararse para tratar a los flujos de información de manera parecida al libre comercio: en el futuro, cuando China censure a los buscadores de Internet , podría enfrentar quejas no sólo por encarecer las comunicaciones sino también por restringir injustamente el comercio.

La Gran cantidad de información y los Hermanos mayores?

Los Estados tendrán que ayudar a proteger a sus ciudadanos y sus mercados de nuevas vulnerabilidades causadas por las grandes cantidades de información. Y hay otra posibilidad oscura: las grandes cantidades de información podrían dar lugar a la creación de “Hermanos mayores”. En todos los países, especialmente en los no democráticos, existe la posibilidad de que las grandes cantidades de información agraven la asimetría de poder existente entre el Estado y el pueblo.

La asimetría bien podría llegar a ser tan grande como para conducir al autoritarismo de las grandes cantidades de información, una posibilidad vívidamente reflejada en películas de ciencia - ficción como The Minority Report . El film del año 2002 que tiene lugar en una distopía de un futuro cercano en el que el personaje interpretado por Tom Cruise encabeza un unidad de la policía "Precrimen" que basándose en la clarividencia identificaba personas que estaban a punto de cometer crímenes. La trama gira en torno al obvio potencial de error del sistema y a la negación del libre albedrío.

Aunque la idea de la identificación de infractores potenciales antes de que hayan cometido un delito parece fantástica, la disposición de grandes cantidades de información permite a algunas autoridades tomar algunas cosas en serio. En el 2007, el Departamento de Seguridad Nacional puso en marcha un proyecto de investigación llamado FAST (Tecnología de predicción de atributos a futuro; en ingles Future Attribute Screening Technology) , destinado a identificar terroristas potenciales mediante el análisis de los signos vitales de información de los individuos, el lenguaje corporal y otros patrones fisiológicos . Las fuerzas policiales de muchas ciudades, incluyendo Los Ángeles, Memphis , Richmond, y Santa Cruz, han adoptado el software "predicción de políticas", que analiza los datos sobre delitos anteriores para identificar dónde y cuándo podrían ser cometidos los crímenes siguientes .

Por el momento, estos sistemas no identifican individuos específicos como sospechosos. Pero esa es la dirección en la que las cosas están orientadas . Tal vez este tipo de sistemas identifiquen que jóvenes serán más propensos a robar en tiendas. Puede haber decentes razones para obtener de manera específica, información sobre todo, cuando se trata de prevenir resultados sociales negativos que no sean delito. Por ejemplo, si los trabajadores sociales pueden detectar con un 95 por ciento de exactitud que adolescentes quedarían embarazadas o cuales chicos de secundaria abandonarían la escuela, ¿no serían negligentes si no intervienen para ayudar? Suena tentador. Después de todo, la prevención siempre será mejor que la sanción. Sin embargo una intervención que amonesta y no ofrece asistencia podría interpretarse como una sanción - por lo menos , uno podría estar estigmatizado a los ojos de los demás. En este caso, las acciones del estado tomarían la forma de una penalidad antes de que se cometiera algún o ningún acto, destruyendo la santidad del libre albedrío.

Otra preocupación es lo que podría suceder cuando los gobiernos depositan demasiada confianza en el poder de la información. En su libro de 1999 , “Viendo como un Estado”, el antropólogo James Scott documenta las formas en que los gobiernos, en su celo por la cuantificación y la recopilación de datos, a veces termina haciéndole la vida miserable a la gente. Ellos en primer lugar emplean mapas para determinar cómo reorganizar las comunidades, sin aprender nada de la gente que vive allí. Utilizan largas tablas de datos sobre las cosechas para decidir colectivizar la agricultura sin conocer un ápice sobre agricultura. Toman todas las formas imperfectas y orgánicas, en que la gente ha interactuado en el tiempo y les anulan sus necesidades, a veces sólo para satisfacer un deseo de orden cuantificable.

Esta confianza en la información también puede afectarnos. Las organizaciones pueden ser engañadas por falsas informaciones y con atributos que no merecen. Esa es una de las lecciones de la guerra de Vietnam, de Robert McNamara Secretario de Defensa de EE.UU. quien se obsesionó con el uso de la estadística como una forma de medir el progreso de la guerra. Él y sus colegas llegó a obsesionarse con el número de combatientes enemigos muertos. Confiando en los comandantes y publicando información diariamente en los periódicos, el número de muertos se convirtió en la pauta que definió una era. Para los partidarios de la guerra, era una prueba de progreso, para los críticos, fue la evidencia de la inmoralidad de la guerra. Sin embargo, las estadísticas revelan muy poco acerca de la compleja realidad del conflicto. Las cifras fueron frecuentemente inexactas y eran de poco valor par medir el éxito. Si bien es importante aprender de las informaciones para mejorar las vidas, el sentido común debe ser capaz de anular las hojas de cálculo.

Un Toque Humano…

El procesamiento de las grandes cantidades de información está a punto de cambiar la forma de vivir, trabajar, y pensar. La visión del mundo construida alrededor de la importancia de la relación de causalidad está siendo desafiada por la preponderancia de las correlaciones. La posesión del conocimiento, que una vez significó la comprensión del pasado, hoy significa la capacidad de predecir el futuro. Los desafíos planteados por la grandes cantidades de información no serán fáciles de resolver. Más bien, constituyen simplemente el paso siguiente en el eterno debate sobre cómo debemos entender mejor el mundo .

Aún así, las grandes cantidades de información se convertirán en parte integral de la forma de abordar muchos de los problemas urgentes del mundo. Abordar el cambio climático requerirá el análisis de información sobre la contaminación de comprender mejor la forma de enfocar los esfuerzos y encontrar la manera de mitigar los problemas. Los sensores están ubicados en todo el mundo, entre ellas las aplicaciones incluidas en los teléfonos inteligentes, que proporcionan una gran cantidad de datos que permitirá a los climatólogos modelar con mayor precisión el calentamiento global. Mientras tanto el mejoramiento y la reducción del costo de la atención en salud, especialmente para los pobres del mundo, hará necesaria la automatización de algunas de las tareas que actualmente requieren del juicio humano, tareas que se podrían hacer con un ordenador, tales como el examen de las biopsias de células cancerosas o la detección de infecciones antes de que los síntomas aparezcan completamente .

En última instancia, las grandes cantidades de información marcan el momento en que la "sociedad de la información" por fin cumple la promesa implícita en su nombre. La información es la protagonista. Todos los bits digitales que se han reunido ahora pueden ser aprovechados en nuevas maneras de servir a nuevos propósitos y desbloquear nuevas formas de valor. Esto demanda una nueva forma de pensar y pondrá a prueba instituciones e identidades. En un mundo en el que las informaciones moldean la forma de las decisiones cada vez más, ¿con qué propósito se mantendría en las personas o en la intuición, el ir en contra de los hechos? Si todo el mundo apela a las informaciones y aprovecha las herramientas del procesamiento de las grandes cantidades de información, tal vez lo que se convierta en el punto central de la diferenciación es lo impredecible : el elemento humano del instinto, la asunción de los riesgos, los accidentes, e incluso los errores. Si es así, entonces habrá la necesidad especial de hacer un lugar para el ser humano : reservar un espacio para su intuición , el sentido común , y la casualidad y asegurarnos de que no se ven influenciados por la información y las respuestas hechas por las máquinas.

Esto tiene importantes implicaciones para la noción de progreso en la sociedad. El procesamiento de las grandes cantidades de información nos permite experimentar más rápido y explorar más oportunidades . Estas ventajas deben inducir a mayores innovaciones. Pero a veces, la chispa de la invención es el resultado de lo que los datos no dicen. Algo que ninguna cantidad de información podrá confirmar o corroborar, ya que todavía no existe . Si Henry Ford hubiera preguntado con algoritmos en las grandes cantidades de información para descubrir lo que querían sus clientes, quizás habrían producido "un caballo más rápido", la refundición de su famosa línea . En un mundo de grandes volúmenes de información, son los rasgos humanos los que fomentan la creatividad, la intuición y la ambición intelectual, siendo el ingenio humano la fuente de origen del progreso.

El procesamiento de grandes cantidades de información es un recurso y a la vez una herramienta. Tiene el propósito de informar, en vez de explicar, apunta a la comprensión, pero aún puede dar lugar a malentendidos, dependiendo de la manera en que se ejerza. Y sin embargo a pesar del deslumbramiento del poder del procesamiento de las grandes cantidades de información, su brillo seductor no debe impedirnos ver sus inherentes imperfecciones. Más bien, debemos de adoptar su tecnología con una apreciación no sólo de su poder, sino también estando atento a sus limitaciones.

[1] Informatizar, registrar el valor de una palabra en información digital. Por ejemplo: A Alejandría le corresponden valores de ubicación de latitud y longitud o de los datos respectivos obtenidos de los sistemas satelitales GPS.

Translate

martes, 3 de diciembre de 2013

El crecimiento del procesamiento de grandes cantidades de información: The Big Data

No hay comentarios:

Publicar un comentario