10 Tendencias Fonéticas de Vanguardia del Futuro

  1. Educación
  2. Artes del Lenguaje
  3. Gramática
  4. 10 Tendencias Fonéticas de Vanguardia del Futuro

Libro Relacionado

Fonética para maniquíes

Por William F. Katz

La fonética ha recorrido un largo camino desde los buenos tiempos de Daniel Jones y sus colegas en Londres a principios de siglo. La tecnología y la comunicación de masas han revolucionado el campo de la fonética, permitiendo avances que los fundadores nunca hubieran imaginado. A continuación se presentan algunas de estas nuevas e increíbles direcciones.

Entrenamiento de computadoras para reconocer las emociones humanas en el habla

Claramente, existen muchas situaciones en las que reconocer las emociones en el habla puede ser importante. Piensa en cómo tu voz puede volverse cada vez más tensa mientras esperas en el teléfono a que un operador de computadoras te entregue (finalmente) a una persona real. O, lo que es más grave, considere a las personas que trabajan en situaciones de emergencia, como la de una operadora del 911. Si un operador del 911 no puede entender lo que usted está diciendo, pueden ocurrir problemas graves y potencialmente mortales.

Trabajar con emoción en el habla es un tema de investigación de vanguardia en muchos laboratorios de todo el mundo. Por ejemplo, el Dr. Carlos Busso de la Universidad de Texas en Dallas ha experimentado el emparejamiento de voces computarizadas y cabezas visuales que expresan las emociones de la ira, la alegría y la tristeza. Este trabajo ha comparado el discurso de actores e individuos comunes y corrientes en situaciones más naturalistas. A partir de las grabaciones de audio, Busso utiliza características de tono para clasificar las emociones. Luego utiliza la tecnología de seguimiento de movimiento para grabar los movimientos faciales de los oradores durante el habla. Los resultados muestran que ciertas regiones de la cara son más críticas para expresar ciertas emociones que otras.

Lingüística y científicos pueden ahora usar los resultados de estos estudios para crear avatares más creíbles (caracteres computarizados similares a los humanos), y para entender mejor los trastornos, como la enfermedad de Parkinson (en la que la desintegración del sistema nervioso causa una pérdida de expresión facial), y el autismo (en la que la atención a las señales faciales parece ser un problema).

Animación de los tractos vocales de silicio

Diferentes formas pueden ayudarle a entender el tracto vocal humano. Una forma es estudiar el cuerpo humano a través de la anatomía y la fisiología. Otra forma es construir modelos del sistema y estudiar las propiedades biomecánicas de estas creaciones. Los tractos vocales de silicona son un nuevo tipo de modelo que se puede utilizar para la síntesis del habla, la creación artificial del habla por máquina.

El comienzo de la síntesis de voz se remonta al siglo XVIII con una máquina parlante parecida a una gaita que consiste en fuelles de cuero (para servir como los pulmones) y una caña (para servir como las cuerdas vocales). Aunque este sistema chirría a través del habla, no era posible descifrar mucho acerca de la fuente de la voz o el filtro estudiando sus componentes.

Hoy en día, la gente sigue fascinada por las máquinas hablantes, incluidos los robots y las creaciones humanoides. Estos robots ayudan con la animación y otros propósitos artísticos, así como también ayudan a los investigadores a entender mejor los sistemas anatómicos.

Producir un sistema articulatorio similar al humano no es sencillo. El cuerpo humano tiene una densidad, amortiguación, elasticidad y propiedades inerciales muy específicas que no son fáciles de replicar. Las formas físicas cambiantes del tracto vocal también son difíciles de reproducir mecánicamente. Por ejemplo, la lengua es un hidrostato muscular que conserva su volumen cuando cambia de forma. La lengua se alarga cuando sobresale y se joroba cuando se retrae.

El Dr. Atsuo Takanishi de la Universidad de Waseda en Japón ha pasado décadas perfeccionando una cabeza de silicio que puede producir vocales, consonantes y fricativos en japonés. Usted puede ver películas de sus diversos artilugios, incluyendo las cuerdas vocales de silicona, lenguas motorizadas, y los labios y la cara impulsados por engranajes.

Obteniendo tubulares y sintéticos

Un método de sintetizar el habla más cerebral que la construcción de robots implica hacer modelos electrónicos o matemáticos del sistema de producción del habla. Después de que los investigadores entienden estos sistemas complejos, pueden crearlos y luego manipularlos en una computadora para simular el sistema humano (aunque sea electrónicamente). Gunnar Fant, quien desarrolló modelos de la relación entre la anatomía del habla humana y las frecuencias de los formantes, encabezó este tipo de trabajo en la década de 1950. Esta empresa también se basa en los modelos físicos de Hermann von Helmholtz, quien describió cómo los resonadores individuales y los acoplados forman el sonido de entrada.

Las versiones más recientes de los modelos de tubos están logrando avances con problemas difíciles, como la reproducción de las voces de mujeres y niños, así como dar a los ordenadores la ilusión de que están cantando con éxito. Brad Story, profesor de la Universidad de Arizona, está trabajando en un prototipo llamado tube talker. Este sistema se basa en la fisiología modelada de las cuerdas vocales y el sistema de las vías respiratorias superiores. Su diseño incorpora imágenes de vídeo de las cuerdas vocales e imágenes de resonancia magnética del tracto vocal tomadas durante el habla. Mediante el uso de restricciones articulatorias y acústicas, Story y su equipo pueden modelar y mover articuladores virtuales para crear movimientos suaves y similares al habla. El resultado es una onda de sonido que se puede escuchar, analizar y comparar con el habla real.

Tube talker ha sido modificado de algunas maneras extrañas e interesantes. Por ejemplo, los modelos tradicionales de voz sugieren que los componentes de voz y de filtro deben considerarse por separado. Sin embargo, para algunos tipos de voz cantada (y quizás para una voz infantil), puede que no sea el caso. Versiones recientes del tubo hablador han probado interacciones no lineales entre la fuente y el filtro como nuevas combinaciones posibles para modelar mejor tales tipos de voz y canción.

Otro modelo que utiliza diseños en forma de tubo ha ganado un reciente concurso europeo de canto de síntesis de voz, no sólo para hacer un discurso plausible, sino también para cantar (puede ser testigo del espeluznante espectáculo de tractos vocales computarizados 3D transparentes, desarrollados por el Dr. Peter Birkholz, cantando a dúo).

Entrenamiento con Baldi y otros avatares

Los agentes educativos, como los avatares, que están diseñados para ser expertos hablantes de varios idiomas, son otra tendencia interesante de la fonética. Estos sistemas pueden ayudar a los instructores dándoles práctica adicional con planes de lecciones, asistiéndoles en el aprendizaje de un segundo idioma, trabajando con personas con problemas de audición o con personas que tienen dificultades particulares para interactuar con compañeros de habla en vivo (como las personas con autismo).

Bajo la dirección del profesor Dominic Massaro de la Universidad de California en Santa Cruz, los investigadores han creado una cabeza parlante 3D llamada Baldi, capaz de realizar muchas tareas. Por ejemplo, Baldi ha ayudado a estudiantes japoneses a desarrollar su acento inglés y ha ayudado en la educación de sordos. En versiones más recientes, la cabeza de Baldi se ha vuelto transparente para mostrar mejor su tracto vocal, de modo que los estudiantes de idiomas en los que las posiciones especiales de la lengua y la faringe son importantes (como el árabe) puedan ver lo que está sucediendo. Baldi incluso ha desarrollado piernas, brazos y un cuerpo porque los gestos de un avatar pueden, en algunas situaciones, contribuir a una situación de aprendizaje del idioma más efectiva. Este tipo de investigación sugiere que el trabajo con avatares puede tener un futuro audaz y prometedor para la fonética.

Ayudar a silenciar la conversación con interfaces de voz silenciosa

La interfaz de voz silenciosa (SSI) puede ser especialmente útil en aplicaciones militares, como para el personal en cabinas de mando ruidosas o vehículos que les impiden oírse hablar o ser grabados por un micrófono.

Además, SSI puede ayudar a otros que no pueden producir sonido audible de sus cuerdas vocales, pero sus articuladores (lengua, labios y mandíbula) todavía funcionan. Tener una fuente vocal artificial aliviaría este problema. Si la posición de la lengua de la persona puede ser rastreada en tiempo real, y esta información se alimenta a una computadora, las dos podrían ser acopladas con una fuente de voz y, presto, el habla.

Actualmente se están desarrollando varios prototipos interesantes para SSI. Los siguientes se centran en los principios acústicos articulatorios y en las tecnologías de seguimiento del articulador de punto de carne:

  • Investigadores en Sudáfrica están trabajando en un sistema que utiliza la electropalatografía (EPG).
  • Científicos de la Universidad de Georgia están explorando el uso de un sistema de seguimiento de imanes permanentes.
  • Otros investigadores están trabajando en sistemas de rastreo de labios y lengua.

Un día, el objetivo final es que las personas que no pueden hablar debido a la pérdida de la laringe simplemente saquen el teléfono (o un dispositivo de ese tamaño), presionen un botón y luego tengan una voz sintetizada de alta calidad que hable por ellos mientras se articulan.

Visualización del movimiento de la lengua en pacientes con accidente cerebrovascular

Muchos individuos con daño cerebral cortical izquierdo tienen apraxia del habla (AOS), un problema que controla la producción de sonidos del habla. Aunque estos pacientes generalmente entienden el lenguaje bastante bien, si quieren pronunciar un cierto sonido, digan “s” en la palabra “ver”, el sonido puede salir mal, como “ella”. El A.M. es muy frustrante para los pacientes porque típicamente saben que han producido un sonido erróneo. Por lo general, sienten que saben qué decir, pero no pueden sacarlo.

Un principio probado que se sabe que ayuda a estos pacientes es la práctica (la práctica hace que sean perfectos), particularmente cuando tales individuos tienden a dejar de hablar debido a la frustración, la depresión y a que otros miembros de la familia tomen el control y hablen por ellos. Otro principio terapéutico importante es el entrenamiento articulatorio. El laboratorio de la Universidad de Dallas en Texas (en conjunto con colegas de la Universidad de Pittsburgh) está dando a los individuos con A.M. retroalimentación visual sobre la posición de su lengua durante el habla. Esta intervención se basa en la premisa de que los individuos con A.M. tienen una ruptura con la secuenciación del sonido y la implementación del sonido, pero sus sistemas de monitoreo de retroalimentación de ojo a lengua están intactos.

Un número de estudios han encontrado que este método puede ayudar a los individuos con AOS a aumentar la precisión de su producción de sonido después de un derrame cerebral. El trabajo hasta la fecha se ha basado en la información de un único punto de datos articulatorio (como la punta de la lengua). El trabajo futuro dará a los pacientes un avatar en 3D que les mostrará el movimiento en línea de su lengua mientras hablan. Hacerlo permitirá el tratamiento de una gama más amplia de sonidos del habla y permitirá a los médicos tratar la forma de articulación, así como el lugar.

Clasificación de una voz más masculina a partir de una voz menos masculina

Un número de propiedades en la voz pueden indicar masculinidad. Los fonéticos tienen términos para esto:

  • Habla más masculina (MMS)
  • Menos habla masculina (LMS)

El MMS es más bajo en frecuencia fundamental (el tono que oye una persona). Los dos también parecen tener diferencias en la calidad espectral (cuán aguda es la histeria) de los fricativos. Además, los individuos con MMS tienen un espacio vocal menos pronunciado que los individuos que se considera que son LMS (lo que significa que los hablantes de LMS usan mayores excursiones de la lengua mientras hablan).

Las compañías o los gobiernos pueden usar esta información para diseñar un detector de voz masculino versus femenino y quizás un detector aún más detallado (heterosexual versus gay) para juicios simples. Sin embargo, transmitir el género a través del habla es más complicado que una aproximación general de las propiedades biológicas del sexo opuesto. Es decir, a pesar de lo que la cultura popular implica a menudo, el discurso de los hombres gays no parece ser simplemente una versión feminizada del discurso de los hombres heterosexuales (o el discurso de las lesbianas una versión masculinizada del discurso de las mujeres heterosexuales).

Ron Smyth, profesor de la Universidad de Toronto, ha estudiado las diferencias entre un discurso masculino que suena más y menos gay. Su trabajo revela que la siguiente mezcla compleja de propiedades acústicas caracteriza el “habla con sonido gay”:

  • Vocales producidas más cerca de los bordes del espacio vocal
  • Detener consonantes con tiempos de inicio de voz más largos (VOTs)
  • Fricativos /s/ y /ʃ/ más largos con picos de frecuencia más altos
  • Alófonos más ligeros en “l

El trabajo de Smyth también muestra que muchos de estos juicios también dependen de las suposiciones hechas por los oyentes, los tipos de muestras de habla que se proporcionan y el género y la orientación sexual de los propios oyentes. La orientación sexual y el habla es un tema de investigación continua para determinar si los estereotipos culturales populares se basan en algo tangible, y si la percepción de la orientación sexual de la gente (el autoproclamado gaydar de los homosexuales) es lo que dice ser (Su trabajo ha demostrado que el gaydar de la gente basado en el habla por lo general no es confiable).

Estas cuestiones se relacionan con el campo de la sociolingüística, el estudio de la relación entre la lengua y la sociedad. Los estudios han demostrado, por ejemplo, que los hombres jóvenes (heterosexuales) disminuirán su frecuencia fundamental cuando una mujer joven que hace preguntas, en lugar de un hombre, entre en la habitación. Estos hombres presumiblemente se están haciendo atractivos a través de una voz más baja. Si los resultados de los estudios anteriores son exactos, una investigación podría asumir que bajo las mismas condiciones experimentales, las mujeres aumentarían la respiración de su voz, una característica que se sabe que aumenta la percepción de un habla femenina más atractiva.

Descifrar el síndrome del acento extranjero (FAS)

El Síndrome del Acento Extranjero (FAS, por sus siglas en inglés) es un trastorno motor del habla en el que los adultos se presentan con un habla que suena extraña como resultado de un mal momento y anormalidades prosódicas resultantes de un trastorno cerebral. Sigue fascinando al público y a los científicos por igual. El estudio de individuos con este trastorno puede dar una mejor idea de qué sistemas cerebrales están involucrados en la producción y comprensión del acento.

Hasta ahora, la mayoría de los casos del FAS han sido de personas nativas de habla inglesa, aunque también se están registrando cada vez más casos en otros idiomas europeos. Ahora se han registrado varios casos no indoeuropeos (hebreo, japonés y árabe). Los investigadores están interesados en saber qué variedades de idiomas se ven afectadas, y los investigadores cuestionan hasta qué punto los factores prosódicos basados en el estrés o en sílabas (comúnmente cuantificados como el Índice de Variabilidad por Pareja (PVI)) juegan un papel en la percepción de estos pacientes como extraños, y si existen subtipos de PVI alto y PVI bajo de FAS.

Otro rompecabezas en la imagen del FAS es cómo los casos que resultan de lesiones focales francas (tales como de apoplejía o tumor) pueden relacionarse con aquellos de etiologías menos específicas o desconocidas (tales como migraña, alergia, o posiblemente causas psicógenas). Se puede suponer que un individuo con una lesión en una región cerebral bien establecida que corresponde a la función del habla (como la zona lingüística perisilvia) tiene una causa plausible para el FAS. La situación para los individuos sin causa fisiológica conocida es menos clara.

Muchos pacientes remitidos a la clínica de la Universidad de Texas en Dallas por sospecha de FAS han sido diagnosticados con trastorno de conversión. Esta es una condición en la cual los pacientes experimentan síntomas neurológicos que la evaluación médica no puede explicar. El trastorno por conversión no es fingir (fingir enfermedad) y puede afectar el habla, pero esto no es lo mismo que el FAS. Para evaluar mejor el FAS, los profesionales deben trabajar de cerca en un equipo que idealmente incluya un psicólogo y un psiquiatra. También es importante incluir pruebas fonéticas para descartar la modificación intencional, inadvertida o imitada del acento.

Descubrir la genética del habla

Los fonéticos se han interesado más en el campo de la genética, que se mueve rápidamente y es emocionante, para encontrar la base del habla y el lenguaje. Un tumulto comenzó en la década de 1980 con el descubrimiento de una familia en el oeste de Londres que tenía una serie de problemas de habla y lenguaje relacionados con la familia. Entre los diversos miembros de la familia (llamados KE) había nueve hermanos. Cuatro de estos hermanos tenían problemas de comprensión, entendiendo frases como “El niño está siendo perseguido por el tigre” que significan “El niño está persiguiendo al tigre”. También dejaron caer sonidos al principio de las palabras, como decir “arte” cuando intentaban decir “tarta” De tal comportamiento, se hizo evidente que había algo relacionado con la familia que afectaba particularmente a su habla y a su lenguaje.

A mediados de la década de 1990, un grupo de genetistas de la Universidad de Oxford comenzó a buscar el gen dañado en esta familia. Encontraron que este trastorno se producía cuando sólo un gen se transmitía de una generación a la siguiente (autosómico dominante) y no estaba ligado al sexo. Una investigación adicional fijó el gen en un área del cromosoma 7, que se llamaba Trastorno del Habla y Lenguaje 1 (SPCH1). Los genetistas procedieron a determinar con precisión la ubicación de la rotura del cromosoma 7 en el caso de otro niño con un trastorno genético del habla y el lenguaje. Resultó que se relacionaba con los casos KE de una manera asombrosa: Ambos codificaron algo llamado Forkhead Box Protein (FOXP2), una proteína transcripcional que codifica otros factores necesarios para los sistemas neurológico, intestinal y pulmonar.

FOXP2 se asocia con el aprendizaje vocal en jóvenes pájaros cantores, ecolocalización en murciélagos y posiblemente en otras especies de aprendizaje vocal, como ballenas y elefantes. Los ratones con genes humano-FOXP2 empalmados en su ADN emitieron chirridos de baja intensidad y crecieron diferentes patrones neuronales en sus cerebros en regiones involucradas en el aprendizaje.

Como todas las historias científicas emocionantes, la historia de FOXP2 no está exenta de controversia. Muchos informes populares de estos descubrimientos hacen afirmaciones simplificadas, pasando por alto la base genética multifactorial para el habla y el lenguaje. Por ejemplo, el descenso de la laringe humana fue indudablemente importante para que el habla fuera físicamente posible, en comparación con el tracto vocal de los chimpancés. Sin embargo, este proceso genético probablemente no parece estar relacionado con FOXP2, lo que sugiere que otros loci genéticos están posiblemente involucrados. De hecho, otros genes ya están emergiendo. La FOXP2 desactiva un gen llamado proteína similar a la Contactina 2 (CNTNAP2). Este gen ha sido asociado tanto en el deterioro específico del lenguaje (SLI) como en el autismo. Las células nerviosas en el cerebro en desarrollo, particularmente en los circuitos asociados con el lenguaje, despliegan CNTNAP2, que codifica la proteína.

Emparejar dialectos para divertirse y obtener beneficios

Muchas personas cambian su acento hablado a lo largo del día para que coincida con el acento de las personas con las que están hablando. Usted puede llamar a esto ser una esponja de acento, aunque técnicamente se le conoce como emparejamiento de dialectos o emparejamiento de registros.

La concordancia de dialectos es bastante natural para las personas. De hecho, se ha convertido en una de las áreas más populares en el reconocimiento de voz por ordenador por el potencial de hacer coincidir una solicitud telefónica de llamada con una respuesta en línea en dialecto. Debido a que la gente parece apreciar la pertenencia a un grupo, la idea es que la computadora reconozca rápidamente su dialecto y lo haga coincidir con un compañero de teléfono o una voz computarizada que lo haga coincidir.

Los investigadores están diseñando sistemas informáticos con módulos de reconocimiento de unidades telefónicas y de adaptación de unidades telefónicas. Los sistemas telefónicos que utilizan estas tecnologías pueden determinar el acento de la persona que llama, extraer las características de ese acento y modificar la voz sintetizada que responde a la persona que llama mediante la mejor correspondencia con el acento de esa persona. Si se hace correctamente, puede conducir a una mayor inteligibilidad y quizás a un mejor sentimiento subjetivo en la conversación. Por otro lado, si no se hace bien, la gente puede sentirse imitada o burlada. Usted puede imaginarse cómo este tipo de cosas pueden ser utilizadas en los sistemas computarizados de citas.

El emparejamiento de dialectos es incluso natural para las ballenas Orca, los delfines nariz de botella y los murciélagos de nariz de lanza, también. Las orcas y los delfines usan chillidos y silbidos coordinados para decidir con qué cazarán y con qué viajarán. El estudio de los murciélagos de nariz de lanza ha demostrado que las hembras responden a sus llamados para reclutar a otros miembros de su dormidero cuando encuentran una fuente de alimento rica y defienden colectivamente su alimento de otros murciélagos. Según los biólogos, estos sonidos animales son todos casos de señales de pertenencia a un grupo.

Leave a Reply