EL CIBERSONIDO
Éstos son algunos de los
objetivos que se han propuesto los grupos de investigación más
punteros en el mundo dedicados al tratamiento digital del sonido, una
disciplina cada vez más avanzada En España contamos con algunos
de estos centros. Uno de ellos es el Grupo de Tecnología Musical
(GTM) de la Universidad Pompeu Fabra de Barcelona, dedicado al estudio
de nuevas técnicas de procesamiento de la señal auditiva.
Entre sus trabajos más recientes se encuentra el proyecto Elvis.
Se trata de un Parece que hablamos de avances propios de la ciencia-ficción, pero quedan en pañales frente a las aplicaciones que se nos prometen para el futuro. Xavier Sierra, director del Instituto Universitario Audiovisual al que pertenece el citado GTM, anunciaba en el Anuario 2002 de la Sociedad General de Autores que ya se está trabajando en sistemas de procesamiento de audio basado en el contenido. Este tipo de programas informáticos permitirá buscar dentro de una pieza musical y extraer información sobre instrumentos, cantantes, ritmo, estilo... Buscador de sambas Según Sierra, “esto tendrá muchísimas aplicaciones. Si uno está buscando una samba en Internet y la persona que puso aquella música en el disco no dejó ningún archivo de texto diciendo que eso es una samba, nadie podrá encontrarla. Con un buscador por contenidos que sepa reconocer la música de samba, se podrán catalogar las piezas sin necesidad de que estén etiquetadas”. Para ello será necesario, por supuesto, que los ordenadores sean capaces de “entender” de música igual que lo hacemos los humanos. ¿Qué es lo que hace posible que el Homo sapiens distinga un rock de un pasodoble con sólo escuchar unos compases? ¿Se puede imitar digitalmente dicha habilidad? A eso se dedican los ingenieros del Music, Mind and Machine Project (Proyecto Música, Mente y Máquina) del Laboratorio de Medios del MIT. Una de sus investigaciones trata de encontrar patrones neurológicos que se manifiestan en las preferencias musicales humanas. De ese modo, pretenden diseñar sistemas sencillos que permitan catalogar estilos de música con el fin de distribuirlos por Internet entre comunidades con los mismos gustos. Pero la aventura no es sencilla. Para lograrlo, hay que descomponer todas las piezas musicales en patrones repetibles, convertirlos al lenguaje digital y generar algoritmos de búsqueda que los encuentren entre la maraña de datos. El trabajo resulta mucho más fácil cuando, en lugar de música, la materia prima son palabras habladas. Con el tiempo nos hemos ido acostumbrando a la tecnología de reconocimiento de voz que nos permite abrir el correo electrónico o realizar acciones simples con una centralita telefónica. De momento sólo utilizamos productos muy primitivos: programas que nos sugieren que digamos un número para ponernos en contacto con una operadora. Frase a frase Si la centralita digital nos pide que digamos “dos” para obtener información sobre nuestra cuenta corriente, el ordenador no tiene que saber distinguir entre las palabras “dos”, “dios”, o “tos”. Basta con que sepa diferenciar un sonido parecido a “dos” de otro parecido a “uno”. Pero, ¿qué ocurre si queremos mantener una conversación más complicada con el aparato? Ya existen sistemas que reaccionan a frases completas del tipo: “por favor, ¿puede decirme cuál es el próximo vuelo a Boston?”. Una vez más, estos programas están basados en sus primos utilizados en la industria de la imagen. Igual que un sistema de retoque de fotos es capaz de “imaginar” o inferir información de un rostro a partir de áreas borrosas y reconstruirlo, los programas de reconocimiento de voz pueden completar instrucciones a partir de unas porciones de información sueltas. Detectan en una frase un verbo, un complemento, un tono de pregunta... y se imaginan lo que el interlocutor quiere decirle. Por eso, estos sistemas se basan en inacabables cálculos matemáticos que se van añadiendo cada vez que alguien los utiliza: cuanto más uso se hace de él, más se perfecciona. Sin toses El proceso comienza cuando el aparato capta las ondas sonoras que genera el hablante y filtra las palabras entre otros sonidos como toses, balbuceos o ruidos de fondo. La base de datos del programa cuenta con un stock de fonemas que coteja con los que detecta en la frase pronunciada. Si encuentra alguna similitud, agrupa los fonemas reconocibles y trata de generar la combinación de palabras que más se aproxime a una frase con sentido. El último paso es calcular cuál entre todas las frases posibles tiene más probabilidades de ajustarse a la intención del interlocutor. Para ello se tiene en cuenta toda la información que los diseñadores del programa hayan introducido en el mismo. Por supuesto, el contexto es básico. Si se trata de un sistema de venta de entradas por teléfono, se supone que la inmensa mayoría de las llamadas se referirán a asuntos como el precio, las butacas elegidas o el horario de la obra... con lo que el número de frases útiles se reduce considerablemente. El aumento exponencial de la capacidad de cálculo de los ordenadores ha permitido a este tipo de programas realizar análisis de trigramas, es decir, considerar las probabilidades de que una palabra esté relacionada con las dos palabras inmediatamente anteriores y, éstas, a su vez, con sus dos palabras predecesoras... así indefinidamente. Es algo parecido a lo que hacemos los humanos cuando leemos. En la mayoría de los casos somos capaces de deducir cómo va a terminar una frase siguiendo el hilo del contexto. No necesitamos leer palabra por palabra, fonema por fonema, letra por letra, para dar sentido a la información. Nos basta echar un vistazo general al grupo de signos que estamos contemplando y nuestra mente va construyendo el puzle semántico de significados. |
|||
| La
voz de su amo Uno de los temas más socorridos de la ciencia ficción es el de la relación entre seres humanos y androides. En muchas novelas y películas aparecen memorables diálogos entre representantes de ambos grupos. Quizás estemos cerca de dar los primeros pasos hacia ese logro. Hiroshi Okuno, ingeniero de la Universidad de Kioto (en la foto), ha diseñado un robot cuya peculiaridad más relevante es que posee un par de bellas orejas de silicona. Estos artilugios, de apariencia muy similar al pabellón auditivo humano, le permiten distinguir entre tres distintas texturas de voz. Si le hablan tres personas a la vez, el robot es capaz de diferenciar qué órdenes proceden de cada cuál y responder apropiadamente. |
Hiroshi Okuno juega a mantener |
||
| También es capaz de dirigir la mirada hacia su interlocutor. Mediante un par de lentes CCD instaladas en sus ojos, la máquina combina las informaciones visuales con las auditivas y obra en consecuencia. La intención de Okuno es diseñar un mecanismo de audición que permita al robot desenvolverse en ambientes reales como una calle o una oficina. En estos entornos, el androide está sometido a una contaminación acústica tremenda y ha de saber distinguir las órdenes de sus dueños entre el mar de voces de un tumulto, el ruido de los coches, el sonido de las máquinas fotocopiadoras o el propio efecto sonoro de sus motores y piezas móviles. Así obedecerá mejor. | |||
Más
vale medir que curar El aumento de las enfermedades relacionadas con el ruido ha obligado a establecer férreos controles de decibelios en lugares públicos. Las nuevas tecnologías permiten tomar medidas mediante sonómetros cada vez más precisos. |
|||
| La
música se “habla” Cuando
nos referimos a la capacidad de leer, escuchar, componer o interpretar
notas solemos hablar del “lenguaje musical”. Durante décadas,
los científicos han intentado conocer mejor cómo funciona
ese lenguaje, qué actividad neuronal especial requiere, qué
leyes subyacen bajo su codificación. Ahora, algunos avances recientes
nos dan una idea de hasta qué punto este lenguaje es similar
al lenguaje hablado. |
El estudio estadístico de las |
||
| Cuando hablamos, producimos una serie de frecuencias muy concretas y cuando componemos música utilizamos combinaciones de esas mismas frecuencias. Según David Schwartz, director del experimento, “el lenguaje es un sonido muy especial porque es al que más tiempo estamos expuestos cada día, todos nuestros actos están bañados en él. Por eso, juega un papel fundamental en la evolución del sistema auditivo”. Mediante estudios estadísticos, se ha analizado la cantidad de veces que se repite una misma frecuencia o una serie de notas y se han comparado con los patrones del lenguaje hablado. Curiosamente, los acordes más placenteros coinciden con las secuencias de palabras más comúnmente usadas. | |||
Una de las líneas de investigación
del proyecto Music, Mind and Machine desarrollado en el Laboratorio
de Medios del MIT es un sistema de transmisión de música
grabada y de efectos sonoros que pueda usarse desde Internet con el
fin de evitar los desplazamientos a los estudio de
El dispositivo de la imagen es un teléfono móvil ideado por la compañía Samsung y presentado en la última feria CeBit de Hannover. Además de cumplir las funciones habituales de un celular, este aparato tiene incorporado un sistema de reconocimiento de voz que permite activar algunas tareas y transcribir pequeños mensajes hablados.
|
|||

Descubri..!
10 maneras de pasar las vacaciones con la Web
COMO
HACER
EL CUBO
Siempre
Coca-Cola
Cronologia,
datos
y mucho mas sobre la madre de los vicios "legales"
Computacion para todos
En Diseño...
Vanguardia
Digital
Seguimos recorriendo la Web trallendote los mejores Site del momento
Elabora tu propia Cerveza
La historia del hacker que..
extorsiona a sitios porno
Los gustos
de Mick
Tatuajes
50 Mentiras que usted repite con frecuencia
Eliminación de tatuajes

Guia de los Cinco Pasos
Converti
tus cintas y vinilos a MP3 en
5 pasos
Fobia
al sexo
Cuando el
miedo impide disfrutar del placer
" Del resto de nuestras vidas"
¿Hay
que tapar los
ojos a las webcams?
![]()
El
Orgullo
de ser Virgen

Brooke
Shields
“la última virgen
de Hollywood”
Tus
orgasmos y los de él.
¿Existen técnicas para sincronizarlos?
La"ceguera
amorosa"
Desde
el punto de vista científico
Los mas ...