miércoles, 19 de julio de 2017

Pareto y la sopa de datos


Hace dos décadas un grupo de investigadores de IBM había estimado que aproximadamente el 80% de los datos de las organizaciones habían sido de naturaleza no estructurada. Un estudio publicado en 1996 por investigadores de Oracle había estimado que hasta el 90% de los datos digitales almacenados representaban datos no estructurados -la mayoría de tipo textual [1].

En 2014 se ha estimado que tanto los datos estructurados como los datos semiestructurados representaban el 5% - 10% de todos los datos, los datos no estructurados formando el segmento más grande, sobrepasando el 80% [2].

Se pronostica que en 2020 la Internet ofrecerá acceso a más de 40 trillones de gigabytes de datos, y aproximadamente el 90% de los datos serán no estructurados [3].

Hoy en día la mayoría de los datos no estructurados son de tipo multimedia, debido a los nuevos productos (cámaras, dispositivos móviles, tarjetas de memoria) y a las nuevas tecnologías de comunicación e información (Internet de banda ancha, voz y video sobre IP) accesibles para más y más organizaciones y personas.

En veinte años la sopa de datos en la Internet se ha transformado en un mar de contenidos multimedia, condimentado con fuentes web y documentos, y a pesar de esto el principio de Pareto sigue funcionando.

¿Pero qué utilidad tiene este mar de datos no estructurados?



La Internet de las cosas médicas, el seguimiento ambiental, las informaciones grabadas con dispositivos móviles y cámaras de vigilancia, el seguimiento del transporte y la gestión de las flotas, la automatización y control industrial y los drones nos ayudan optimizar los costos, prevenir y reducir los daños, y mejorar la cualidad de la vida.

Las fuentes web y las bases de datos NoSQL (los datos semi-estructurados) se utilizan tanto en el comercio y marketing como en la prensa y muchos otros dominios.

Al final las informaciones elaboradas se suman a los datos estructurados y apoyan el proceso decisional.


Referencias:

[1] Unstructured Data and the 80 Percent Rule
https://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule/

[2] STRUCTURED, SEMI STRUCTURED AND UNSTRUCTURED DATA
https://jeremyronk.wordpress.com/2014/09/01/structured-semi-structured-and-unstructured-data/

[3] Unstructured Data Sources for New Opportunities
http://www.nanalyze.com/2016/11/unstructured-data-sources-new-opportunities/

No hay comentarios.:

Publicar un comentario