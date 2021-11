EL ANÁLISIS DE DATOS Y LA GENERACIÓN DE CONOCIMIENTO

Dr. Juan Carlos Gómez Carranza

Departamento de Ingeniería Electrónica, División de Ingenierías

Campus Irapuato-Salamanca, Universidad de Guanajuato





Actualmente vivimos en la era de la conectividad y los datos digitales. Cada día, una gran cantidad de datos son generados y compartidos alrededor del mundo a través de computadoras utilizadas por personas y organizaciones e interconectadas entre sí. Debido a la pandemia por COVID-19, desde 2020 la digitalización de la sociedad se ha incrementado enormemente, ya que cada vez más personas utilizan una computadora y se conectan a internet para hacer sus actividades diarias. Antes de la pandemia, un buen número de personas ya usaba una computadora, como tú para tus clases o tus papás para el trabajo. Ahora, además es muy probable que hayas tomado alguna clase en línea y que conozcas a alguien que haya trabajado de forma remota desde su casa.

Se estima que en el 2021 hay cerca de 4,500 millones de personas conectadas al internet, ¡eso es casi el 60% de la población mundial! Toda esa gente genera muchos datos. En un solo minuto a través de internet se envían más de 40 millones de mensajes de WhatsApp, se suben más de 500 horas de video a YouTube, se comparten más de 150 mil fotos en Facebook, se ven más 400 mil horas de video en Netflix, se gasta más de 1 millón de dólares en compras en línea y hay más de 200 mil usuarios conectados a Zoom.

Adicionalmente, con la adopción del llamado Internet de las Cosas (IoT por sus siglas en inglés) y la creación de ciudades inteligentes, hoy en día hay miles de dispositivos conectados a internet. Ejemplo de esto son los asistentes inteligentes (Alexa) y los televisores en las casas, pero también los semáforos, las cámaras públicas y otros sensores instalados en las ciudades, que registran datos como la temperatura, la humedad, el flujo de tráfico o el nivel de ruido. Tú, además de tu actividad en redes sociales, con el uso de tu teléfono celular estás generando más datos, como los indicadores de tu actividad física o de tu estado de salud, tu horario y tiempo de conexión a internet, tu horario de sueño, tu ubicación geográfica, los lugares que visitas, las rutas que sigues, etc.

Todavía hay más, porque los datos no descansan. Los hospitales, las escuelas, las fábricas, las oficinas de gobierno, los bancos, las tiendas y prácticamente todas las actividades en las que se use una computadora, están generando y compartiendo datos. Por ejemplo, en tu escuela llevan registros sobre ti, como el periodo en el que estás, los cursos que has tomado, las materias que has reprobado (seguramente ninguna) o tu promedio. En otros ejemplos, con la actual pandemia, los hospitales llevan registro de los enfermos por COVID-19, sus fechas de contagio, los resultados de sus pruebas, sus síntomas y sus datos demográficos (edad, sexo, dirección, etc.). Las fábricas guardan datos sobre cuánto producen, el estado de sus máquinas, los materiales disponibles o los que necesitan, sus proveedores y sus clientes. Las tiendas llevan registros sobre sus clientes, sus productos y sus ventas. En estos ejemplos, los datos se generan, almacenan y comparten dentro y fuera de las organizaciones como parte de sus actividades diarias.

Como puedes ver, los datos están presentes en casi todos lados, ya que las computadoras son parte esencial de la sociedad actual. Todos estos datos se suelen almacenar en archivos, bases de datos o repositorios de datos de distintas maneras y con distintos formatos (tablas, documentos, fotos, videos, etc.). Al hecho de tener una gran cantidad de datos que provienen de muchos lados, de muchas formas y que se generan de manera continua se le conoce como Big Data (o Grandes Volúmenes de Datos, en español).

Sin embargo, tener toda esa gran cantidad de datos directos (llamados en ‘crudo’) guardados en las computadoras, no es de mucha utilidad ni para las personas ni para las organizaciones, ya que, si una persona los ve así, no los va a entender tan fácilmente. Para darles un sentido y utilidad a los datos, estos se deben procesar, es decir se deben usar programas para ordenarlos, limpiarlos, darles una estructura y que se vean bonitos. Los datos al ser procesados se transforman en información, en algo que las personas pueden entender. En ese sentido, la información está compuesta de datos de distintos tipos y que pueden provenir de distintos lugares. Como una analogía, podemos decir que, en una cocina, los datos serían los ingredientes y la información sería el plato cocinado.

Pero no nos quedamos ahí, la información ya se puede entender, pero no toda es útil o relevante, por lo que es importante dar un paso más para no solo procesar la información sino también analizarla y transformarla en conocimiento. El conocimiento lo podemos entender como información que utilizamos para tomar una decisión o realizar una tarea. Al igual que la información se compone de datos diversos, el conocimiento a su vez se compone de información de distintos tipos y que puede provenir de varios lugares.

Como ejemplo para ilustrar el proceso de pasar de datos a conocimiento, podemos empezar con los siguientes datos: Avengers End Game, Star Wars Episodio VII. Estos datos solo representan nombres de películas. Si agregamos otros datos y los ordenamos, podemos tener la siguiente información, “Avengers End Game y Star Wars Episodio VII aparecen en la página principal de tu cuenta de Netflix”. La información hace referencia a lo que verías en tu página principal cuando ingreses a tu cuenta de Netflix. Si además de esa información tomamos los datos de lo que has visto en Netflix, cómo lo calificaste y el tiempo que pasas viéndolo, podemos tener el siguiente conocimiento, “A Avengers End Game le dio 4 estrellas y lo vio hasta el final, a Star Wars Episodio VII le dio 3 estrellas y lo vio por partes”. Con base en ese conocimiento, Netflix puede ajustar lo que te mostrará en tu página para la siguiente vez que ingreses.

Entonces, el análisis de datos es el área encargada de trabajar con datos para extraer conocimiento que pueda ser utilizado para la toma decisiones. Desde qué recomendaciones te hace Netflix, hasta posibles tratamientos para una enfermedad; desde qué materia te conviene cursar el siguiente semestre, hasta dónde te conviene invertir tu dinero; desde estrategias de seguridad para mitigar la pandemia, hasta qué lugar visitar en tus próximas vacaciones. Como ya hemos visto, los datos están en muchas partes, por lo que también el análisis de datos puede ser aplicado en todas ellas.

El análisis de datos se divide en varias etapas, tales como buscar o generar los datos, almacenarlos, procesarlos, analizarlos y presentar los resultados o conclusiones. En cada etapa se requiere estudiar y aprender distintas materias específicas para trabajar en ella, tales como las bases de datos, la programación, las matemáticas, la estadística, la visualización de la información y la inteligencia artificial. Todas ellas muy interesantes y que aportan herramientas y métodos esenciales para trabajar con los datos.

Finalmente, dependiendo del área en la que se utilice, el análisis de datos a veces lo vas a escuchar con otros nombres, como inteligencia de negocios (business intelligence) en las finanzas, negocios o marketing; o ciencia de datos (data science) en la medicina y la ingeniería. Sin importar el nombre, su uso cada día cobra más importancia, por lo que es un área con mucho potencial y que vale la pena estudiar.

