EL CIBERSONIDO

 

Después de muchos años de trabajo, los científicos han podido imitar artificialmente la voz humana. No contentos con eso, su próximo reto es crear máquinas que sientan placer con la música.



¿Es posible hacer que un robot responda a nuestras órdenes orales? ¿O que el que peor voz tiene de entre nuestros compañeros de karaoke cante como Plácido Domingo? ¿Y qué tal que haya un equipo de grabación musical que sepa distinguir el sonido de cada uno de los instrumentos de una orquesta y repare los errores cometidos por el intérprete sin tener que repetir la sesión...?

Éstos son algunos de los objetivos que se han propuesto los grupos de investigación más punteros en el mundo dedicados al tratamiento digital del sonido, una disciplina cada vez más avanzada
cuyas aplicaciones se extienden a todo tipo de actividades, desde la informática al ocio pasando por la industria discográfica, la creación musical o la seguridad de edificios.

En España contamos con algunos de estos centros. Uno de ellos es el Grupo de Tecnología Musical (GTM) de la Universidad Pompeu Fabra de Barcelona, dedicado al estudio de nuevas técnicas de procesamiento de la señal auditiva. Entre sus trabajos más recientes se encuentra el proyecto Elvis. Se trata de un programa informático que permite mejorar las prestaciones de la voz humana. Para ello se utiliza una técnica similar al conocido morphing con el que se modifican imágenes de vídeo. En este caso, se pueden transportar características sonoras como el timbre, el vibrato, la frecuencia o el tono de una voz a cualquier otra. Por ejemplo, podríamos cantar a través de un micrófono y escuchar nuestra voz como si se tratara de la del mismísimo Elvis Presley. En el futuro, este tipo de técnicas podrían aplicarse al doblaje de películas haciendo, por ejemplo, que un actor norteamericano aparezca con su propia voz hablando en español.

Parece que hablamos de avances propios de la ciencia-ficción, pero quedan en pañales frente a las aplicaciones que se nos prometen para el futuro. Xavier Sierra, director del Instituto Universitario Audiovisual al que pertenece el citado GTM, anunciaba en el Anuario 2002 de la Sociedad General de Autores que ya se está trabajando en sistemas de procesamiento de audio basado en el contenido. Este tipo de programas informáticos permitirá buscar dentro de una pieza musical y extraer información sobre instrumentos, cantantes, ritmo, estilo...

Buscador de sambas

Según Sierra, “esto tendrá muchísimas aplicaciones. Si uno está buscando una samba en Internet y la persona que puso aquella música en el disco no dejó ningún archivo de texto diciendo que eso es una samba, nadie podrá encontrarla. Con un buscador por contenidos que sepa reconocer la música de samba, se podrán catalogar las piezas sin necesidad de que estén etiquetadas”.

Para ello será necesario, por supuesto, que los ordenadores sean capaces de “entender” de música igual que lo hacemos los humanos. ¿Qué es lo que hace posible que el Homo sapiens distinga un rock de un pasodoble con sólo escuchar unos compases? ¿Se puede imitar digitalmente dicha habilidad? A eso se dedican los ingenieros del Music, Mind and Machine Project (Proyecto Música, Mente y Máquina) del Laboratorio de Medios del MIT. Una de sus investigaciones trata de encontrar patrones neurológicos que se manifiestan en las preferencias musicales humanas. De ese modo, pretenden diseñar sistemas sencillos que permitan catalogar estilos de música con el fin de distribuirlos por Internet entre comunidades con los mismos gustos. Pero la aventura no es sencilla. Para lograrlo, hay que descomponer todas las piezas musicales en patrones repetibles, convertirlos al lenguaje digital y generar algoritmos de búsqueda que los encuentren entre la maraña de datos.

El trabajo resulta mucho más fácil cuando, en lugar de música, la materia prima son palabras habladas. Con el tiempo nos hemos ido acostumbrando a la tecnología de reconocimiento de voz que nos permite abrir el correo electrónico o realizar acciones simples con una centralita telefónica. De momento sólo utilizamos productos muy primitivos: programas que nos sugieren que digamos un número para ponernos en contacto con una operadora.

Frase a frase

Si la centralita digital nos pide que digamos “dos” para obtener información sobre nuestra cuenta corriente, el ordenador no tiene que saber distinguir entre las palabras “dos”, “dios”, o “tos”. Basta con que sepa diferenciar un sonido parecido a “dos” de otro parecido a “uno”. Pero, ¿qué ocurre si queremos mantener una conversación más complicada con el aparato? Ya existen sistemas que reaccionan a frases completas del tipo: “por favor, ¿puede decirme cuál es el próximo vuelo a Boston?”. Una vez más, estos programas están basados en sus primos utilizados en la industria de la imagen. Igual que un sistema de retoque de fotos es capaz de “imaginar” o inferir información de un rostro a partir de áreas borrosas y reconstruirlo, los programas de reconocimiento de voz pueden completar instrucciones a partir de unas porciones de información sueltas. Detectan en una frase un verbo, un complemento, un tono de pregunta... y se imaginan lo que el interlocutor quiere decirle. Por eso, estos sistemas se basan en inacabables cálculos matemáticos que se van añadiendo cada vez que alguien los utiliza: cuanto más uso se hace de él, más se perfecciona.

Sin toses

El proceso comienza cuando el aparato capta las ondas sonoras que genera el hablante y filtra las palabras entre otros sonidos como toses, balbuceos o ruidos de fondo. La base de datos del programa cuenta con un stock de fonemas que coteja con los que detecta en la frase pronunciada. Si encuentra alguna similitud, agrupa los fonemas reconocibles y trata de generar la combinación de palabras que más se aproxime a una frase con sentido. El último paso es calcular cuál entre todas las frases posibles tiene más probabilidades de ajustarse a la intención del interlocutor. Para ello se tiene en cuenta toda la información que los diseñadores del programa hayan introducido en el mismo. Por supuesto, el contexto es básico. Si se trata de un sistema de venta de entradas por teléfono, se supone que la inmensa mayoría de las llamadas se referirán a asuntos como el precio, las butacas elegidas o el horario de la obra... con lo que el número de frases útiles se reduce considerablemente.

El aumento exponencial de la capacidad de cálculo de los ordenadores ha permitido a este tipo de programas realizar análisis de trigramas, es decir, considerar las probabilidades de que una palabra esté relacionada con las dos palabras inmediatamente anteriores y, éstas, a su vez, con sus dos palabras predecesoras... así indefinidamente.

Es algo parecido a lo que hacemos los humanos cuando leemos. En la mayoría de los casos somos capaces de deducir cómo va a terminar una frase siguiendo el hilo del contexto. No necesitamos leer palabra por palabra, fonema por fonema, letra por letra, para dar sentido a la información. Nos basta echar un vistazo general al grupo de signos que estamos contemplando y nuestra mente va construyendo el puzle semántico de significados.

La voz de su amo

Uno de los temas más socorridos de la ciencia ficción es el de la relación entre seres humanos y androides. En muchas novelas y películas aparecen memorables diálogos entre representantes de ambos grupos. Quizás estemos cerca de dar los primeros pasos hacia ese logro. Hiroshi Okuno, ingeniero de la Universidad de Kioto (en la foto), ha diseñado un robot cuya peculiaridad más relevante es que posee un par de bellas orejas de silicona. Estos artilugios, de apariencia muy similar al pabellón auditivo humano, le permiten distinguir entre tres distintas texturas de voz. Si le hablan tres personas a la vez, el robot es capaz de diferenciar qué órdenes proceden de cada cuál y responder apropiadamente.

 

Hiroshi Okuno juega a mantener
una conversacíón con su robot
de orejas de silicona.

También es capaz de dirigir la mirada hacia su interlocutor. Mediante un par de lentes CCD instaladas en sus ojos, la máquina combina las informaciones visuales con las auditivas y obra en consecuencia. La intención de Okuno es diseñar un mecanismo de audición que permita al robot desenvolverse en ambientes reales como una calle o una oficina. En estos entornos, el androide está sometido a una contaminación acústica tremenda y ha de saber distinguir las órdenes de sus dueños entre el mar de voces de un tumulto, el ruido de los coches, el sonido de las máquinas fotocopiadoras o el propio efecto sonoro de sus motores y piezas móviles. Así obedecerá mejor.
Más vale medir que curar

El aumento de las enfermedades relacionadas con el ruido ha obligado a establecer férreos controles de decibelios en lugares públicos. Las nuevas tecnologías permiten tomar medidas mediante sonómetros cada vez más precisos.

La música se “habla”

Cuando nos referimos a la capacidad de leer, escuchar, componer o interpretar notas solemos hablar del “lenguaje musical”. Durante décadas, los científicos han intentado conocer mejor cómo funciona ese lenguaje, qué actividad neuronal especial requiere, qué leyes subyacen bajo su codificación. Ahora, algunos avances recientes nos dan una idea de hasta qué punto este lenguaje es similar al lenguaje hablado.
Un equipo de neurólogos de la Universidad de Duke, en Estados Unidos, ha descubierto que la estructura musical de acordes y escalas está íntimamente relacionada con la habilidad lingüística. Toda la producción musical de Occidente, desde Haydn a Marilyn Mason, se basa en las doce notas de la llamada escala cromática. En otras culturas, como la asiática, no se usan las doce notas. Puede haber escalas pentatónicas (de cinco notas), por ejemplo. Lo curioso es que esas cinco corresponden a otras tantas de la escala cromáticas. Es decir, no hay “notas nuevas”. ¿Por qué? La investigación de Duke sugiere que el ser humano sólo reconoce y reproduce sonidos musicales a los que está adaptado. El factor de adaptación no es otro que el lenguaje hablado.

 

El estudio estadístico de las
notas permite conocer mejor cuál es su origen. La aplicación de estos conocimientos favorece la creación de instrumentos tan versátiles como la gaita eléctrica de Hevia (arriba).

Cuando hablamos, producimos una serie de frecuencias muy concretas y cuando componemos música utilizamos combinaciones de esas mismas frecuencias. Según David Schwartz, director del experimento, “el lenguaje es un sonido muy especial porque es al que más tiempo estamos expuestos cada día, todos nuestros actos están bañados en él. Por eso, juega un papel fundamental en la evolución del sistema auditivo”. Mediante estudios estadísticos, se ha analizado la cantidad de veces que se repite una misma frecuencia o una serie de notas y se han comparado con los patrones del lenguaje hablado. Curiosamente, los acordes más placenteros coinciden con las secuencias de palabras más comúnmente usadas.

Adiós a los estudios de grabación

Una de las líneas de investigación del proyecto Music, Mind and Machine desarrollado en el Laboratorio de Medios del MIT es un sistema de transmisión de música grabada y de efectos sonoros que pueda usarse desde Internet con el fin de evitar los desplazamientos a los estudio de
grabación profesionales.

 

Todos los aparatos tienen orejas

El dispositivo de la imagen es un teléfono móvil ideado por la compañía Samsung y presentado en la última feria CeBit de Hannover. Además de cumplir las funciones habituales de un celular, este aparato tiene incorporado un sistema de reconocimiento de voz que permite activar algunas tareas y transcribir pequeños mensajes hablados.

 

       


 

 

 

 

 

 

Descubri..!

10 maneras de pasar las vacaciones con la Web

COMO HACER
EL CUBO

Si te cansaste de intentarlo y de arrojarlo por la venta,entra y aprende como armar el "Bendito Cubo Magico"

Siempre
Coca-Cola

Cronologia, datos
y mucho mas sobre la madre de los vicios "legales"

Computacion para todos

Software, trucos del sistema y links que ayudan a las personas con problemas visuales, auditivos y motrices

En Diseño...

Vanguardia
Digital

Seguimos recorriendo la Web trallendote los mejores Site del momento

Elabora tu propia Cerveza

La historia del hacker que..

extorsiona a sitios porno

Los gustos
de Mick

Tatuajes

 

50 Mentiras que usted repite con frecuencia

Eliminación de tatuajes

¿Estas Pensando en tatuarte?

Guia de los Cinco Pasos

Converti tus cintas y vinilos a MP3 en
5 pasos

 

Fobia al sexo

Cuando el miedo impide disfrutar del placer

La PrimeraVez

" Del resto de nuestras vidas"

De los Besos Y
Sus Historias

¿Hay que tapar los
ojos a las webcams?

¿El avance del mundo audiovisual y de las telecomunicaciones
 terminará con nuestra pérdida de intimidad?

 

El Orgullo
de ser Virgen


Brooke Shields
“la última virgen de Hollywood”

Tus orgasmos y los de él.

¿Existen técnicas para sincronizarlos?

 

La"ceguera amorosa"

Desde el punto de vista científico

Los mas ...