Skip to main content
SearchLogin or Signup

El estado del arte de la ciencia de datos en el idioma español y su aplicación en el campo de la Inteligencia Artificial

El estudio arroja resultados que indican la falta de involucración del Español con la IA así como de todas las subáreas, afectando negativamente a la formación de futuros profesionales.

Published onMar 02, 2021
El estado del arte de la ciencia de datos en el idioma español y su aplicación en el campo de la Inteligencia Artificial
·

Abstracto

Este estudio analiza el estado de la ciencia de datos y la IA en la lengua castellana. La motivación es impulsada por nuestro anterior proyecto https://doi.org/10.21428/39829d0b.d871fa5c : “El arte de la Inteligencia Artificial desde una perspectiva léxica“, en el que la búsqueda de información sobre IA en español fue casi un fracaso, teniendo que acudir ineludiblemente al inglés. Este estudio se divide en dos partes enlazadas entre sí: la primera expone qué es la ciencia de datos, qué beneficios genera, así como la labor y la formación que debe tener un científico de datos. Por consiguiente, se habla de la relación entre la ciencia de datos y la IA con la lengua castellana. Se plantean cuestiones sobre la educación de un científico de datos en España y el análisis de diagramas que se incluye donde se plasman los datos que hacen referencia al porcentaje de artículos académicos escritos en inglés y español. Además se recogen diversas opiniones por parte de miembros y representantes de las Academias de Lenguas Latinoamericanas sobre la ausencia de un glosario de IA escrito en castellano. El estudio arroja resultados que indican la falta de involucración del Español con la IA así como de todas sus subáreas, afectando negativamente a la formación de futuros profesionales.

Palabras clave: IA, ciencia de datos, lengua castellana y educación.

Abstract

This study analyses the state of data science and AI in Spanish language. The motivation is driven by our previous project: https://doi.org/10.21428/39829d0b.d871fa5c - “The art of Artificial Intelligence from a lexical perspective”. The search for information about AI in Spanish language was a failure, so it must rely on English language. This study is divided into two interlinked parts: the first one exposes what data science is, the benefits produced, and the education that a data scientist should have. Therefore, a relation of data science and AI with Spanish language. Questions are raised about how the education of a data scientist in Spain is, and the analysis of diagrams, which show the percentages of Spanish and English academic articles. Moreover, there are many contributions of members and representatives of Latin American Languages Academies. They comment on the lack of AI glossary written in Spanish language. The study of art provides results that indicate the absence of involvement of Spanish with AI and all the subareas, which consequently adversely affect to future professionals education.

Key words: AI, data science, Spanish language and education.

1. Introducción

1.1 ¿Qué se sabe hasta ahora?

“La idea de que todo cambio debe ser suave, lento y estable, no brotó de las rocas. Representaba un sesgo cultural común, en parte una respuesta del liberalismo del siglo diecinueve para un mundo en revolución […].” Estas eran las palabras que el paleontólogo Stephen J. Gould empleó para describir el término “gradualismo”, que apunta directamente a la revolución del planeta por el desarrollo de las TICs y el avance en nuevos campos de estudio como la inteligencia artificial (Manuel Castell, 1999, p.1). Por norma general, cuando nos referimos a inteligencia artificial, un alto porcentaje de la población tiene una idea preconcebida errónea de lo que es, pues no se trata de máquinas que realizan el trabajo laborioso que los humanos no hacen, sino que es algo más (IT Digital Media Group, 2017). Son muchas las ramas de la IA que nos pueden ayudar en nuestro día a día, por ejemplo, la ciencia de datos nos permite identificar las relaciones ocultas entre las variables con el objeto de establecer y crear varios modelos y clasificaciones predictivas (R.A. Salas Rueda, 2019) (R.D. Salas Rueda, 2019). Para una mayor aclaración, véase el siguiente ejemplo. El acrónimo “MENA” se utiliza en España para denominar a los menores extranjeros no acompañados (BBC News, 2019). Sin embargo, por medio de la técnica de minería de datos (un área de la ciencia de datos) se ha descubierto que: “Esta abreviatura evoca un discurso asistencialista, criminalizado y moralista desde un enfoque adultocéntrico y nacionalista” (Revista Científica de Comunicación y Educación: Comunicar, 2021).

1.2 Un poco de historia

En los últimos años el término “ciencia de datos” ha adquirido un prestigio considerable en el mundo. Ya, en el año 1962, se hablaba de ello, cuando el estadístico estadounidense, John W. Tukey, empezó a despertar su interés en el futuro de la estadística matemática como ciencia experimental. Sus contribuciones se centraron en estudiar diferentes técnicas de análisis de datos. Tiempo después, su propuesta alcanzó tal relevancia que publicó el libro “Análisis exploratorio de datos” (EDA, Exploratory Data Analyses) (Turkey et al., 1977).

1.3 ¿Cuál es el propósito?

Este proyecto pretende fotografiar instantáneamente el estado del arte de la ciencia de datos en la inteligencia artificial. El análisis se aplica en varias áreas de estudio, pero eso sí, sin perder el objetivo primordial: la educación. En la actualidad, la difusión de la lengua inglesa se ha convertido en un proceso de globalización. Por ello, el inglés está considerado una lengua de comunicación internacional o lengua franca (Graddol, 1997 y 2006). Este fenómeno de la globalización produce la fragilidad de otros lenguajes, como el castellano (Joaquín Guerrero, 2010). El español es una lengua huérfana en terminología, uso y vocabulario para ser empleada en la IA. Esto repercute negativamente en la exploración de nuevas técnicas aplicadas a los distintos campos de estudio, implicando una precariedad en áreas tan importantes como es la educación y más concretamente en la universidad.

2. Desarrollo

2.1 Ciencia de datos e inteligencia artificial

Desde hace algún tiempo, disciplinas clásicas como la estadística y los sistemas distribuidos han quedado relegados ante la impulsión de una nueva e importante doctrina, la ciencia de datos (Wil van der Aalst, 2016). Antes de avanzar en este proyecto, es oportuno extender la definición que se incluye en la introducción sobre ciencia de datos, así como de sus aplicaciones en la IA. En el año 2015, el doctor Alex Liu, científico de datos pionero y, sobre todo, muy experimentado en el área, redactó una definición de ciencia de datos a través de una publicación en IBM Corporation: “La ciencia de datos es un campo interdisciplinario sobre procesos y sistemas para obtener conocimientos o perspectivas de grandes volúmenes de datos de diversas formas, ya sean estructurados o no estructurados, lo que implica la continuación de algunos de los campos de análisis de datos como la minería de datos y el análisis predictivo, así como el descubrimiento del conocimiento y la minería de datos.”

En 2018, José Luis Marín, jefe de la corporativa Technology Strategy, publicaba un artículo sobre la ciencia de datos, las ramas que lo conforman, además de la función que desarrollan ciertas especialidades. En particular, Machine Learning y Deep Learning, también conocidas como aprendizaje automático y aprendizaje profundo, constituyen dos campos de conocimiento de la inteligencia artificial que resultan fundamentales para la ciencia de datos, sin olvidar que combina otras tecnologías como: el procesamiento del lenguaje natural, la visualización de datos y el diseño experimental. Cabe citar la descripción que añade sobre la labor que Machine Learning y Deep Learning desempeñan en esta doctrina: “Ambas buscan la construcción de sistemas de predicción ortográfica o traducción automática, hasta los coches autónomos o los sistemas de visión artificial aplicados a casos de uso tan espectaculares como las tiendas de AmazonGo.“

2.2 Ciencia de datos: un enfoque práctico

Para saber más sobre la aplicación de la ciencia de datos en el mundo real, esta parte del proyecto está orientada a hacer una exploración general del estado del arte de la ciencia de datos. Para llevar a cabo este estudio se evalúa el sector turístico, un área relacionada con la sociedad, la economía y la cultura. Al igual que ocurre en otras disciplinas, la tecnología también ha revolucionado el turismo a través de Internet. Esta red interconectada ha cambiado la forma de reservar un alojamiento, un medio de transporte e incluso ha permitido desplazarse virtualmente al lugar que se desee visitar. En definitiva, “cuando evolucionan los medios de transporte, la tecnología y las condiciones de vida en el planeta, el turismo cambia” (Jorge Bonilla, 2013, p.35).

Recientemente, el volumen de datos ha experimentado un notable crecimiento debido a su aplicación en la generación de conocimientos y determinación en la toma de decisiones. Principalmente, la idea es que la gran mayoría de empresas y organizaciones diseñen sus propias estrategias de prosperidad y éxito para un futuro mejor (Octavio, Lerena, 2019). Para conseguirlo, es necesario prever de un sistema experto, esto es, un sistema de información inteligente compuesto por dos módulos: una base de conocimientos y un intérprete de reglas. La base de conocimientos contiene la información sobre un problema en particular y el intérprete de reglas solventa este problema, ofreciendo respuestas y orientando al usuario hasta la solución (Bohanec, M. et al., 1983). La mejor forma de entender esta teoría es ver cómo funciona en la práctica.

El proyecto está realizado por miembros de la comunidad universitaria de Colima (México) y consiste en la evaluación de destinos turísticos mediante la tecnología de la ciencia de datos. A través de los sentimientos reflejados por visitantes anteriores, el principal fin es proporcionar información sobre las decisiones de los turistas a la hora de escoger distintos destinos turísticos (Amaya Molinar C. M et al., 2017). El primer paso es seleccionar los factores que contribuirán a emitir un resultado. Después, mediante el análisis de texto y medios sociales, y a partir de la aplicación de procesos de aprendizaje automático como Deep Learning, se recopila la información necesaria para crear una estructura o modelo de predicción (Itelligent, 2017). Es en esta parte cuando aparecen dos términos imprescindibles de saber en ciencia de datos: Data Mining y Big Data. Data Mining se refiere a: “Mediante el uso de varias herramientas y técnicas algorítmicas, la minería de datos busca patrones de interés ocultos en las bases de datos con el fin de anticipar futuros y pronosticar situaciones con cierto grado de probabilidad” (Ana M. Polo, 2016, P.3). La definición de Big Data expone que: “La tecnología Big Data es capaz de capturar, almacenar, gestionar y procesar de forma rápida y veraz grandes cantidades de datos sacándole partido de ellos. Fundamentalmente, se enfoca al análisis predictivo y a detectar tendencias, sirviéndose de distintas técnicas, entre ellas las de minería de datos. A través de la definición de modelos y el uso de las diferentes tecnologías se busca convertir los datos en un activo de gran valor“ (Thais Balagueró, 2017, párr. 10). Ambos procedimientos se complementan para detectar tendencias y así encontrar “datos de oro”. Una vez recopilada la información, el estudio pretende analizar las valoraciones, actitudes y sentimientos de los turistas para clasificar los datos a través de un proceso denominado análisis o minería de sentimientos. Su objetivo es extraer datos subjetivos a partir de la información recabada de los turistas y mediante la aplicación del PLN (Procesamiento del Lenguaje Natural) (Ana M. Polo, 2016, 17). Tras seguir esta metodología, el estudio ofrece resultados muy positivos porque la ciencia de datos, en este caso, ayuda a identificar los servicios, establecimientos y agentes que dañan y favorecen la imagen de un destino turístico para ser elegido. En términos generales, la gestión de datos masivos y el desarrollo de sistemas de apoyo de decisión han brindado la posibilidad de aprovechar grandes cantidades de datos que se manejan diariamente en la web para aportar multitud de beneficios. Además del sector turístico, destacan otros ámbitos como por ejemplo el inmobiliario, donde se ha desarrollado el sistema Statihouse para calificar, de forma estadística, propiedades en oferta y pronosticar el precio, evidenciando otro caso de éxito en la aplicación de la ciencia de datos (J. I. Pérez Rave, 2018).

La década de los 50, puede considerarse, el punto de partida del Procesamiento del Lenguaje Natural. La etapa posterior estuvo marcada por Alan Turing, quien puso en cuestión la inteligibilidad de una máquina, y por Noam Chomsky con sus gramáticas generativas1 para formalizar las reglas gramaticales (Sociedad Española para el Procesamiento del Lenguaje Natural, 2020). A partir de ese momento, se consolidaron asociaciones y sociedades dedicadas a explorar la evolución del PLN, como es el caso de la Asociación Mexicana para el Procesamiento del Lenguaje Natural. Esta entidad está formada por doce grupos de investigación que coordinan e intercambian opiniones e informaciones, entre los que destacan, por ejemplo, el Centro de Investigación en Computación (CIC-IPN) y el Instituto de Investigación en Matemáticas Aplicadas y Sistemas (IIMAS - UNAM) (AMPLN, 2009). Al igual que ocurre con la Sociedad Española para el Procesamiento del Lenguaje Natural, que, creada con la intención de promover las actividades relacionadas con el PLN, añade información sobre congresos, publicaciones, ofertas de trabajo y grupos de investigación (SEPLN, 2021). Además de instituciones, existen trabajos académicos que vinculan el PLN y la lengua castellana. Buscando entre las bases de datos científicas, se hallan unos cuantos trabajos académicos orientados a la aplicación del PLN. El primero titulado: “Aplicaciones del Procesamiento del Lenguaje Natural“, desarrollado por M. Beatriz, profesor principal de la Escuela Politécnica Nacional de Quito (Ecuador), y J. M. Gómez, profesor investigador de la Universidad de Alicante. El objetivo principal es contribuir al entendimiento de texto con técnicas PLN (M.B., & Gómez, J.M., 2013). Jesús Vilares, miembro del departamento de Ciencias de la Computación y Tecnologías de la Información, destaca la presencia e incluso el dominio de otras lenguas como el inglés ante el relegado segundo plano del castellano en su estudio de la viabilidad de la aplicación del PLN en sistemas de recuperación de información sobre documentos en español, a la vez propósito de su artículo: “Aplicaciones del Procesamiento del Lenguaje Natural” (J. Vilares, 2005). Existen otros estudios centrados en mejorar las técnicas ya presentes como pueden ser la traducción automática de textos y la clasificación de documentos. Esto es posible gracias a la implementación de nuevas herramientas, concretamente a un analizador sintáctico y morfológico. Esta información es recabada del artículo: “NLPT - Suite: Suite para el Procesamiento del Lenguaje Natural en Español“, elaborado por varios integrantes de corporaciones cubanas, concretamente de Santiago de Cuba: el Centro de Estudios de Reconocimiento de Patrones y Minería de Datos, Universidad de Oriente. La Empresa de Desarrollo de Aplicaciones, Tecnologías y Sistemas y el Centro de Lingüística Aplicada (Ramírez-Cruz et al., 2010).

2.4 ¿Cuál es la función de un científico de datos?

Desde principios del año 2020, en el mundo se gestiona una cantidad de datos que asciende a 44 zettabytes, es decir, el número de bytes en el universo era 40 veces mayor que el número de estrellas observables. El problema surge con la gestión de esos datos. Es por esto que se empieza a hablar de científico de datos, al que la sabiduría popular cataloga como: “un estadístico que trabaja en San Francisco” (Xataka, 2020).

En 2006, Jonathan Goldman se incorporó a trabajar en la red social LinkedIn. Él comenzó a crear teorías, nuevos patrones y modelos, a explorar las conexiones entre las personas, en definitiva, empezó a ver nuevas posibilidades en el horizonte. Una de sus ideas fue la sugerencia entre perfiles, esto se refería a incentivar a que unas personas conocieran a otras con las compartieran conocimientos, educación, centros de formación e incluso habilidades. Fue, a raíz de aquí, cuando J. Goldman se convirtió en un ejemplo de lo que hoy llamamos científico de datos (Daventport y Patil, 2012). Sin embargo, es inviable hablar de científico de datos sin conocer su herramienta de trabajo más poderosa, el set de datos. Un set de datos, más conocido como dataset, “es un conjunto de datos publicados o seleccionados por una única fuente de referencia y disponibles para acceder y descargar en uno o más formatos” (W3C Data Catalog Vocabulary, 2020). En el listado que el Allen Institute for AI publica sobre los datasets más recientes se incluyen estos cuatro, entre otros: ATOMIC 2020, un atlas de razonamiento de sentido común cotidiano, organizado a través de las descripciones textuales. Scruples, un corpus y un punto de referencia para predecir los juicios éticos de las comunidades sobre anécdotas de la vida real. RuleTaker, conjunto de datos utilizado para enseñar a los transformadores a razonar. Y, GenericsKB, un repositorio con una gran base de conocimiento sobre frases genéricas. Como ya se ha mencionado anteriormente, los sets de datos son algo que los científicos de datos han de manejar. A veces, su peor enemigo es no disponer del set de datos que necesitan, otras, simplemente que los datos son muy escasos para sacar valoraciones y, otras, que el set de datos es de muy baja calidad. Además hay que añadir la falta de variedad de lenguajes en el diseño de los datasets, pues su inmensa mayoría están redactados en inglés. Esta interminable lista donde aparecen los datasets más novedosos es otra prueba del agravio que se está cometiendo, ignorando al español. Por consiguiente, este problema nos lleva a plantearnos dos preguntas: ¿Por qué consienten este avasallamiento a la ciencia y al uso universal de los datos? y ¿Está manipulado, teledirigido y condenado un científico de datos?

De acuerdo a la industria Open Group, un científico de datos coopera con líderes empresariales para resolver problemas mediante la comprensión, preparación y análisis de datos y de esta forma predecir tendencias emergentes y ofrecer recomendaciones para optimizar los resultados comerciales. Asimismo, detalla ciertas habilidades esenciales que debe mostrar un científico de datos para augurar éxito en su trabajo, entre la que destaca la perspicacia de entender un problema empresarial y brindar una solución. A parte de estas cualidades, una persona dedicada a la ciencia de datos debería de manejar, entre otras, el área de conocimiento del aprendizaje automático, al menos para saber gestionar las predicciones (Álvarez y Coll-Serrano, 2018).

La siguiente imagen es un mapa vial o roadmap. En él están diseñados los conocimientos y las habilidades necesarias para llevar a cabo el trabajo de un científico o ingeniero de datos. Con permiso de la autora que licencia la gráfica, Alexandra Abbas: GitHub url - https://github.com/alexandraabbas, se ha incluido en este proyecto, haciendo una traducción al castellano:








































Imagen 1.1

Escudriñando en la formación, educación y preparación que un científico de datos ha de tener, nos surge esta duda: ¿Qué se esperaría de un científico de datos de cara a su educación y formación en España?

2.5 ¿Por qué la IA está tan vinculada con el lenguaje inglés?

“La globalización es un fenómeno político caracterizado por el debilitamiento de las instrucciones mediadoras y el enfrentamiento directo entre individuo y fuerzas globales” (J. Guéhenno, 2010, párr. 1). Este es un acontecimiento histórico que progresivamente va marcando etapas, puesto que repercute prácticamente en todo lo que nos rodea: política, economía, moda, publicidad, medios de transporte, tecnologías y lenguaje. Este estudio se centra en analizar la repercusión que tiene la globalización sobre el lenguaje. Miquel Siguán, quien fuera miembro del Colegio Libre de Eméritos y de la Academia Europea, puso de manifiesto que una de las consecuencias de la globalización es el contacto entre personas que hablan distintas lenguas, por lo que pasaríamos de ser una sociedad monolingüe (saber un solo idioma) a multilingüe (saber más de un idioma).

El inglés, sin duda, es uno de los idiomas sobre los que más repercusión ha tenido la globalización. Esto se remonta a mediados del siglo xx, coincidiendo con el final de la Segunda Guerra Mundial (1945), la lengua inglesa comenzó su difusión, convirtiéndose en la primera lengua de comunicación internacional (Miguel Siguán, 2008). En los últimos años, el crecimiento del inglés ha sido acelerado por la expansión de países como Estados Unidos. Esto a su vez ha impulsado el uso de la lengua sajona en negocios, películas, canciones, programas de televisión y anuncios, y desde luego ha liderado el dominio sobre Internet, lenguajes de programación e intercambio de emails entre personas cuya lengua vernácula no es el inglés (Guy Cook, 2003). En el mundo contemporáneo del lenguaje, esta transformación recibe el nombre de English as a Lingua Franca (ELF) (Guy Cook, 2003). Alrededor de 1.500 millones de personas en el mundo hablan inglés, de los que 575 millones son nativos. Estados Unidos, por ejemplo, no tiene una lengua oficial, sin embargo utilizan el inglés americano para legislar y regular pronunciamientos oficiales (Rosa Fernández, 2020). Esto implica que es una herramienta crucial en los negocios (M. Inés, Teixeira, 2021), además de influir vigorosamente en el desarrollo de nuevas facultades como la inteligencia artificial.

2.6 Lengua española e inteligencia artificial

“La IA habla inglés, fundamentalmente, y tenemos que procurar que, poco a poco, el español coja una posición eminente en el mundo de la IA, pero también en el mundo general de las redes”. Estas son las palabras que el director de la RAE (Real Academia Española) y presidente de ASALE (Asociación de Academias de la Lengua Española), Santiago Muñoz Machado, pronunciaba en noviembre de 2019 en el congreso XVI de la ASALE. Allí la RAE presentó el proyecto: Lengua Española e Inteligencia Artificial (LEIA) con el que se pretende cumplir dos objetivos: el buen uso de la lengua española en las máquinas y utilizar la inteligencia artificial para impulsar un adecuado manejo de la lengua española. En este proyecto se incluyen varios acuerdos con empresas tecnológicas como Telefónica, Facebook y Google que prometen agregar el idioma español en el desarrollo de chatbots, asistentes de voz y procesadores de textos para disfrutar en castellano de todas las ventajas que ofrece la Inteligencia Artificial (Real Academia Española, 2019). Tal y como afirma la presidenta de Microsoft España, Pilar López, estos convenios son un incentivo para los desarrolladores, ingenieros e investigadores españoles, ya que es un paso importante tanto para el lenguaje como para la industria tecnológica. En aquel momento, España comenzó a involucrarse con la inteligencia artificial, diseñando una estrategia de investigación que impulsara los beneficios económicos y sociales del país (Ministerio de Ciencia e Innovación, 2020).

Muchos son los artículos de investigación que circulan por la red sobre IA y la gran mayoría están redactados en inglés. El siguiente estudio ofrece datos extraídos de motores de búsqueda, repositorios y bases de datos académicas con el objeto de comparar el número de publicaciones existentes en castellano e inglés. La metodología consiste en escoger aquellos portales de difusión empleados para componer este documento, teniendo en cuenta, además, otros buscadores enfocados especialmente en recursos web académicos como es BASE (Bielefed Academic Search Engine) y ERIC, un buscador patrocinado por el Instituto de Ciencias de la Educación del Departamento de Educación de Estados Unidos (Lenis Querales, 2017). En primer lugar se analizan los datos ofrecidos por Google Académico, donde se visualiza que en un intervalo de cuatro años (2017-2021), el número de publicaciones registradas en castellano sobre inteligencia artificial asciende a 17.000. Sin embargo, en el mismo periodo de tiempo, los documentos escritos en anglosajón son 454.000 (Google Académico, 2004). Continuando el estudio del arte por Dialnet, un portal de difusión científico-hispana desarrollada por la Universidad de La Rioja en España, se cuenta un total de 5.632 documentos en español frente a los 2.224 en inglés (Dialnet, 2001). Asimismo, en la biblioteca científico electrónica Scielo, se halla una existencia de 480 artículos en español y 569 en inglés (Scielo, 1997). En uno de los portales científicos más reconocidos a nivel global, WorldWideScience, se observa una diferencia de 898 documentos entre los escritos en castellano y en inglés, liderando la lengua germánica con un repertorio de 2491 publicaciones (WorldWideScience, 1997). Otra de las referencias incluidas en el estudio es Academia.edu. Este portal para académicos en formato de red social muestra el dominio de documentos sobre IA en inglés con casi 5.000 escritos en comparación con la lengua española, con a penas 60 publicaciones (Academia.edu, 2008). BASE es el buscador académico que prueba la diferencia abismal entre el castellano y el inglés y el mundo de la IA, albergando una cantidad de artículos de 620.724 en inglés y 22.704 los encontrados en castellano (BASE, 2009). Ya, para terminar la recopilación de información, se muestran los datos registrados en la base de datos bibliográfica ERIC, que reconoce más de 2.700 artículos sobre IA en inglés y ninguno escrito en español (ERIC, 1993). Conforme a las fuentes consultadas y dispuestas que se han basado en la metodología de búsqueda en Internet, la forma óptima de comprender este conjunto de datos es visualizarlo gráficamente:







Imagen 1.2







Imagen 1.3

La imagen 1.2 es un diagrama de sectores que representa los porcentajes de artículos científicos escritos sobre inteligencia artificial en castellano e inglés. En el caso del idioma español, las publicaciones ocupan únicamente un 4% del gráfico circular, al contrario de lo que ocurre con los documentos en la lengua anglosajona, que abarcan casi en su totalidad el sector con un 96%. El diagrama de barras 1.3 reproduce la progresión y disminución de los artículos sobre inteligencia artificial redactados en inglés y español en un periodo de tiempo de cuatro años.

Como se puede observar, la predominancia de la lengua germana es brillante frente a la decadencia del castellano, que en cualquiera de los casos el número de publicaciones queda relegado por debajo de 50.000. ¿Qué demuestra que exista esta abismal diferencia entre ambos lenguajes en la IA? Evidentemente, tiene que ver con la globalización del inglés. Así lo afirmaban dos licenciados y profesores de la lengua inglesa, A. Estrada y V. García, en el ensayo “Idioma y Globalización: ¿Un nuevo término para un viejo fenómeno?”, cuando comenzaron a usar la expresión “idioma rector” para referirse a aquel lenguaje que aglutina varias disciplinas debido a la globalización. Estos resultados ponen de manifiesto las grandes carencias que la lengua castellana sufre en el campo de la IA.

La experiencia adquirida con el estudio “El arte de la Inteligencia Artificial desde una perspectiva léxica” y reforzada con posteriores búsquedas, nos ha llevado a plantear la cuestión por la cual las obras lingüísticas castellanas, bien españolas, bien latinoamericanas, no incluyen una terminología sobre IA. Para intentar resolver este interrogante, seguimos la metódica de realizar consultas externas a Academias de las Lenguas Latinoamericanas. Don Gonzalo Ortiz Crespo, miembro numerario de la Academia Ecuatoriana de la Lengua respondía a esta pregunta alegando que: “Este tema no debe de sorprender ya que se trata de un campo relativamente nuevo en las ciencias de la computación y que los inventos asociados a su uso siguen estando bajo el dominio de las empresas que están empeñadas en desarrollarlos, de manera que el lenguaje que los describe sigue siendo asunto de iniciados, un lenguaje técnico que no es de uso común, por lo que difícilmente puede trascender al ámbito de la lingüística.” Maia Sherwood, representante de la Academia Puertorriqueña de la Lengua Española, defiende que la innovación tecnológica, por lo general, surge en países anglohablantes y de ahí que el primer nombre de los términos sea en inglés. De cierta manera, culpabiliza a las variaciones del castellano y suscita el uso de la lengua germánica como lengua franca. Además, presenta una solución: crear un banco terminológico que sirva de referencia a los hispanohablantes y así conseguir que la población lo consulte y cree sus propuestas. Desde la Academia de Lenguas de Colombia explican que el Diccionario de la Lengua Española es la única obra lingüística en la que se podrían incluir expresiones del campo de la IA, aunque al ser una composición escrita que compila vocabulario general de todos los países de habla hispana, es prácticamente imposible incorporar tecnicismos de diferentes ciencias. Además de las claras diferencias entre lenguas, hay que añadir la escasez de recursos de los que disponen las universidades para la formación en IA, así como de otras disciplinas vinculadas a este campo. De este tema se hablará en el siguiente acápite del proyecto, focalizando la atención en las universidades españolas.

2.7 ¿Cómo afecta la falta de medios de IA en las universidades españolas?

El 16 de febrero de 2020 se celebró en España una jornada sobre inteligencia artificial en las universidades. “Aquellos países que no tienen un posicionamiento respecto a la IA están llamados a crecer mucho menos, perder competitividad y destruir empleos. Estoy seguro que la cultura tecnológica de nuestras universidades se puede robustecer con incentivos para potenciar la formación en las carreras STEM - ciencia, tecnología, ingeniería y matemáticas, que permita el desarrollo de la IA y otras tecnologías disruptivas, así como su aplicación en todos los ámbitos científicos y disciplinares.” Estas eran las declaraciones que hacía el presidente de 1millionBot, Andrés Pedreño. A estas palabras se suman las de otros profesionales como Senén Barro, catedrático de ciencias de la computación e IA en la Universidad de Santiago de Compostela: “No estamos formando el número suficiente de profesionales de tecnologías inteligentes en España, no lo estamos haciendo, la demanda es superior a la que estamos atendiendo. Si no formamos de modo distinto a los profesores y profesoras que después van a formar a niños y niñas es imposible que transformemos nada de forma significativa.” Tal y como afirma también, Pedro Miguel Ruiz, Vicerrector de estrategia y universidad digital de la Universidad de Murcia: “La tecnología de la IA deberemos emplearla para construir una universidad más competitiva.“ En definitiva, las voces de la experiencia nos confirman el estancamiento que existe entre las universidades y la educación española y la IA, pero lo que es aún peor, la inestabilidad de la IA y la lengua castellana, lo que sucumbe descomedidamente al español en el inglés.

3. Conclusiones

La ciencia de datos es un área muy densa y extensa dentro del campo de la IA que aporta multitud de beneficios para todos los sectores, ya que arroja pronósticos muy precisos. La educación de un científico de datos ha de albergar, entre otros, conocimientos en estadística, bases de datos, visualización de datos y programación. Un científico de datos debería adquirir unas competencias similares en un país de habla inglesa que en uno de habla hispana. Uno de los problemas que se han detectado en este proyecto es la falta de información en castellano, ya no sobre la ciencia de datos en particular, sino sobre IA en general. De hecho, los diagramas incluidos muestran una marginalidad importante del crecimiento de los artículos sobre IA en español. Por ejemplo, según la base de datos Google Scholar, en el año 2018 se observó un aumento del 15,38% con respecto al año 2017 los documentos encontrados en castellano, superando con un 22,05% los artículos escritos en inglés en el mismo periodo de tiempo. A esto hay que añadir la falta de competitividad en tecnología que existe, en general, en las universidades españolas y la deficiencia en obras lingüísticas hispanas de un glosario de inteligencia artificial.

La evidencia del estudio realizado demuestra que el castellano es una lengua poco desarrollada dentro del campo de la IA. A consecuencia de esto, profesiones como la de científico de datos o cualquier otra que acoja esta área, pueden desarrollar un crecimiento insuficiente o incluso desaparecer, puesto que no se está apostando por una educación decente, llena de futuro e innovación.

Desde este proyecto, motivamos a futuras investigaciones para que continúen dando voz y pensando en este tema, pues el castellano es un dialecto románico nacido en la Edad Media con un vocabulario repleto de riqueza y hablado por millones de personas en el mundo. De esta forma se dará un impulso al sistema educativo de países de habla hispana. Asimismo los estudiantes que deseen dedicarse a la ciencia de datos, Big Data o IA puedan hacerlo en su idioma sin recurrir al inglés como medio lingüístico.

4. Agradecimientos a colaboradores del proyecto

Agradecemos a las organizaciones y personalidades que hicieron posible la elaboración de este proyecto, colaborando en la actualización de información y testimonios que engrandecen el valor de la investigación.

D. ª Alexandra Abbas - linkedin.com/in/alexandraabbas - https://datastack.tv/

D. Gonzalo Ortiz Crespo - linkedin.com/in/gonzalo-ortiz-crespo-b495a81b -

http://www.academiaecuatorianadelalengua.org/#

D. ª Maia Sherwood - linkedin.com/in/maia-sherwood-droz-6687061 -

https://www.academiapr.org/

Miembros de la Academia de la Lengua de Colombia - https://www.academiacolombianadelalengua.co/  

5. Bibliografía

Abbas, A. (2021, 15 de enero). Roadmap to becoming a data engineer in 2021. Recuperado de: https://github.com/datastacktv/data-engineer-roadmap

Ahumada Polo, A.M. Minería de datos, de textos y sentimientos, Instituto Tecnológico de Orizaba.

Alex, A. (2019). Data Science and Data Scientist. IBM Analytics, IBM Corporation.

Allen Institute for AI. Datasets. https://allenai.org/data

Asociación Mexicana para el Procesamiento del Lenguaje Natural. (2021). Cicling. https://www.cicling.org/ampln/

Balagueró, T. (01 de noviembre de 2017). Qué es la minería de datos en big data. Blog de Empresa y Nuevas Tecnologías. https://www.deustoformacion.com/blog/gestion-empresas/que-es-mineria-datos-big-data

Bohanec, M., Bratko, I. y Rajkovic, V. (1990). DEX: An expert system shell for decision support. Sistemica 1.1, 145-157.

Bonilla. J. (2013). Nuevas tendencias del turismo y las tecnologías de información y las comunicaciones. Turismo y Sociedad, 14, 33-45. http://www.redalyc.org/articulo.oa?id=576261184003

Buzai, G., Baxendale, C. Análisis Exploratorio de Datos Espaciales. Geografía y Sistemas de Información Geográfica (GEOSIG). http://ri.unlu.edu.ar/xmlui/handle/rediunlu/702

Castells, M. (1999). La revolución de la tecnología de la información. La era de la revolución: economía, sociedad y cultura, 1.

Coll-Serrano, V. y Álvarez-Jareño J.A. (2018). “Científico de datos”, la profesión el presente. Métodos de Información, 9 (16), 113-129. http://dx.doi.org/10.5557/IIMEI9-N16-113129

Davenport T.H. y Patil D.J. (2012). Data Scientist: The Sexiest Job of the 21s Century. Harvard Business Review, 1-5. hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/pr 2/

Emmert-Streib, F., Moutari, S., y Dehmer, M. (2016). The process of Analyzing Data is the Emergent Feature of Data Science. Frontiers in Genetics. 7:12. https://www.frontiersin.org/articles/10.3389/fgene.2016.00012/full

Fernández, R. (2020). Los idiomas más hablados en el mundo en 2020. Statista. https://es.statista.com/estadisticas/635631/los-idiomas-mas-hablados-en-el-mundo/

García, J., Molina, J.M, Berlanga, A., Patricio, M.A, Bustamante, A.L, y Padilla, W.R. (2018). Ciencia de Datos. Técnicas Analíticas y Aprendizaje Automático en un Enfoque Práctico. Publicaciones Altaria.

Garrido, J. (2010). Lengua y globalización: inglés global y español pluricéntrico Historia y Comunicación Social, 15, 63-95. https://dx.doi.org/10.5209/HICS

Gelbukh, A. (2010). Procesamiento del Lenguaje Natural y sus Aplicaciones. Komputer Sapiens, 1, 6-32.

Gómez-Quintero, J.D, Aguerri, J.C, Gimeno-Monterde, C. (2001). Representaciones mediáticas de los menores que migran solos: Los MENAS en la prensa española. Revista Científica de Educomunicación, 66, 95-105. https://doi.org/10.3916/C66-2021-08

Grupo de trabajo de la Estrategia del Procesamiento del Lenguaje Natural 2020. (2021, 03 de febrero). Estrategia Procesamiento del Lenguaje Natural 2020. http://www.sepln.org/actualidad/noticias/publicacion-de-la-estrategia-de-procesamiento-del-lenguaje-natural

Guéhenno. J. (2010). The impact of globalisation on strategy. Survival – Global Politics and Strategy, 40, 5-19. https://doi.org/10.1080/713660009

Hernández, M.B., & Gómez, J.M. (2013). Aplicaciones de Procesamiento de Lenguaje Natural. Revista Politécnica, 32. Recuperado a partir de https://revistapolitecnica.epn.edu.ec/ojs2/index.php/revista_politecnica2/article/view/32

Hoaglin, D. (2003). John W. Tukey and Data Analysis. Statistical Science, 18(3), 311. http://www.jstor.org/stable/3182748

Itelligent. (2018, 31 de mayo). Glosario de términos sobre Inteligencia Artificial, Big Data & Data Science. Big Data e Inteligencia Artificial. https://itelligent.es/es/tag/analisis-de-sentimiento/

Lerena, O. [Octavio Lerena – ResearchGate]. (2020, 30 de Julio). Métodos y aplicaciones de la ciencia de datos para las políticas de CTI, vol. 1 – Redes sociales, minería de textos y clustering. https://www.researchgate.net/project/Metodos-y-aplicaciones-de-la-ciencia-de-datos-para-las-politicas-de-CTI

Marín, J.L. (2018, 05 de abril). Ciencia de datos, machine learning y deep learning. Innovación. https://datos.gob.es/es/blog/ciencia-de-datos-machine-learning-y-deep-learning

Melara, J.R, Gómez, M.A, Asenjo, A. y Madariaga, B. (2017). ¿Dónde lleva la Inteligencia Artificial a las TIC? It user Teach and Business, 29, 1-3.

Ministerio de Ciencia, Innovación y Universidades y Grupo de Trabajo de Inteligencia Artificial. (2019). Estrategia Española de I + D + I en Inteligencia Artificial.

Molne Estrada, A.T. y García Benítez V. ResearchGate. (2001, Abril). Idioma y Globalización: ¿Un nuevo término para un viejo fenómeno? https://www.researchgate.net/publication/262752232_Idioma_y_globalizacion_Un_nuevo_termino_para_un_viejo_fenomeno

Pedreño, A., Oliver, N., Martín Garijo, E., Barro, S., Pascual, C., Ruiz, P.M., Piriz, S., Rouhiainen, L. y Sánchez, C. (2020, 19 de febrero). Jornada <<La Inteligencia Artificial en las universidades. Jornada exclusiva Universidades, Torrejuana OST, Alicante.

Pérez-Rave, J.I. (2018). Statihouse: desarrollo tecnológico basado en ciencia de datos para explorar estadísticamente el sector inmobiliario. Revista chilena de ingeniería, 27, 133-130. http://dx.doi.org/10.4067/S0718-33052019000100113

Ramírez-Cruz, Y., Viant Morán, R., Ríos García y J., Fernández Cairó, C [ResearchGate]. (2010, Enero). NLPT-Suite: Suite para el Procesamiento del Lenguaje Natural en español. https://www.researchgate.net/publication/337448731_NLPT-Suite_Suite_para_el_Procesamiento_del_Lenguaje_Natural_en_espanol

Real Academia Española de la Lengua. (2019, 8 de noviembre). La RAE presenta el proyecto Lengua Española e Inteligencia Artificial (LEIA) en el XVI Congreso de la ASALE. https://www.rae.es/noticia/la-rae-presenta-el-proyecto-lengua-espanola-e-inteligencia-artificial-leia-en-el-xvi

Siguan, M. (2017) Las lenguas y la globalización. http://www. euskara. euskadi. eus/contenidos/informacion/artik26_1_siguan_08_07/es _siguan/adjuntos/Miquel-Siguan-cas. Pdf

Teixeira, M.I. (11 enero de 2021). Las lenguas más habladas en el mundo en 2020. https://blog.lingoda.com/es/lenguas-mas-habladas-en-el-mundo/

The Open Group Professional Certification Program. (2018). Conformance Requirements for the Data Scientist Profession (Open CDS). https://www.academia.edu/38263720/Data_Scientist

Van der Aalst W. (2016). Data Science in Action. In: Process Mining. Springer, Berlin Heidelberg. https://doi.org/10.1007/978-3-662-49851-4_1

Vilares, J. (2005). Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español [Tesis doctoral, Universidad de Coruña – Departamento de Computación]. http://hdl.handle.net/2183/5682

W3C Recommendation. (2020, 4 de febrero). Data Catalog Vocabulary (DCAT), V.2. https://www.w3.org/TR/vocab-dcat/#class--dataset

Comments
0
comment

No comments here