UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA

Maestría y Doctorado en Ciencias e Ingeniería

 

 

 

 

 

 

 

 

 

 

 

Sistema de Identificación de Locutor dependiente del texto en el contexto del español mexicano

 

 

 

 

 

 

 

 

Anteproyecto de Tesis Doctoral

 

 

 

 

 

 

 

 

 

 

 

José Martín Olguín Espinoza

 

 

Mexicali B.C., enero de 2007


1.    Introducción

La voz es el instrumento de comunicación humana que posee características que lo distinguen de los demás por su facilidad de uso, a diferencia de la escritura que requiere elementos adicionales (papel, lápiz, máquina de escribir, computadora, etc.); además la adquisición de la señal de voz se puede realizar con instrumentos poco invasivos a diferencia de los requeridos para tomar una huella dactilar, imagen del iris, muestra de ADN, etc.

Siendo la voz la forma más natural de comunicación humana, el procesamiento del habla se ha convertido en un área de gran interés dentro del procesamiento de señales [1]. Resultado de este interés es el desarrollo de diversas tecnologías orientadas al tratamiento de las señales de voz, conocidas en su conjunto como Tecnologías del Habla (Speech Technologies), las cuales comprenden dos áreas[2]: síntesis de voz y reconocimiento vocal. Este último engloba el reconocimiento automático del habla (RAH) y el reconocimiento automático de locutor (RAL).

El RAL es de particular interés por el amplio espectro de aplicaciones en las que impacta: aplicaciones biométricas tales como control de acceso, seguridad en el uso de dispositivos; indexación de archivos de audio, búsqueda automática de datos asociados a un locutor, clasificación de audio por locutor, entre otras.

 

2.    Reconocimiento Automático de Locutor

En el esfuerzo por mejorar la comunicación hombre-máquina se han logrado adelantos importantes, sin embargo los sistemas actuales basados en el lenguaje natural están lejos de incorporar y procesar todas las sutilezas de una lengua. Las tecnologías del habla han progresado considerablemente estos últimos años, particularmente en el domino del reconocimiento vocal y de la síntesis.

El RAL consiste en reconocer la identidad de una persona por el análisis de su voz. Existen otros elementos aparte de la voz que pueden ser utilizados para autentificar una persona tales como las huellas digitales o las huellas genéticas, pero contrariamente a la voz, estos últimos elementos son una componente del cuerpo humano, no varían y no son modificados en forma natural por un individuo. A estas propiedades se les conoce con el término de biometría y frecuentemente son empleadas para subrayar su gran fiabilidad. Los gestos de la voz no son un elemento del cuerpo humano y no son reproducibles idénticamente en tiempos diferentes aún por el mismo individuo. En este sentido, la utilización del término de biometría aplicado para huellas dactilares, no es tan evidente al aplicarlo a la caracterización del locutor. Sin embargo, la voz sigue siendo útil para ciertas aplicaciones (e.g. acceso a servicios por red telefónica) como el único elemento disponible para autentificar al usuario [1].

 

Arquitectura de los sistemas RAL

En la Fig. 1 se muestra la arquitectura de los sistemas RAL, se divide en dos fases principales: fase de entrenamiento y fase de reconocimiento. El objetivo del entrenamiento es tomar la señal de voz y obtener un modelo que contenga las características propias de un locutor, el cual será almacenado en un repositorio de modelos (base de datos).  Para obtener el modelo es necesario hacer un preprocesamiento de la señal, esto es, aplicar técnicas para mejorarla (minimizar ruido, resaltar características, etc.), la señal resultante es procesada para la extracción de las características y con éstas se creará el modelo particular que identifica de manera única al locutor emisor de la señal. Por otro lado, la fase de reconocimiento es la operación propiamente del sistema RAL en el dominio de la aplicación. Consiste en obtener la señal de voz y aplicarle el mismo procesamiento utilizado en el entrenamiento para encontrar las características del locutor, mismas que serán comparadas contra las contenidas en el repositorio. Los criterios utilizados para la comparación estarán determinados por el tipo de sistema RAL, si es orientado a la identificación del locutor o a la verificación del locutor, cada uno supone un tratamiento diferente el cual será explicado más adelante.

 

 

Fig. 1 Arquitectura de los sistemas RAL.

 


Desde los primeros trabajos dedicados al RAL, numerosos enfoques han sido propuestos en la literatura – aproximaciones analíticas, conexionistas, predictivas, estadísticas, etc. El RAL, contrariamente al RAH se interesa particularmente en la información extralingüística de la señal vocal (señal de voz). A pesar de todo esto, el RAL muy frecuentemente se ve beneficiado de los avances en RAH. Igualmente, numerosas técnicas que han sido aplicadas en RAH son adaptadas al dominio del RAL.

Nivel de dependencia al texto

Una primera clasificación de los sistemas RAL reposa en el nivel de dependencia al texto. La clasificación más general distingue a los sistemas dependientes del texto de los sistemas independientes del texto [3]. En modo dependiente del texto, el reconocimiento de una persona es realizado sobre la base de un mensaje para el cual el contenido lingüístico es conocido por el sistema (password o frase). En modo independiente del texto, el sistema de reconocimiento no tiene ningún conocimiento sobre el mensaje lingüístico pronunciado por la persona.

Distintas tareas en RAL

La identificación automática del locutor y la verificación automática del locutor son las tareas pioneras del dominio de la RAL. Recientemente, las demandas de aplicación contribuyeron al nacimiento de nuevas tareas como la indexación por locutor de un flujo de audio o el seguimiento de locutores (rastreo de locutores) o nuevas variantes tales como la detección de un locutor en una conversación [1].

Identificación Automática del Locutor

La identificación Automática del Locutor (IAL) es el proceso que consiste en determinar, entre una población de locutores conocidos, la persona que ha pronunciado un mensaje determinado.

Fig. 2. Arquitectura general de un sistema IAL. Tomado y traducido de [1].

 

Desde el punto de vista esquemático (Fig. 2), una secuencia de voz es dada como una entrada al sistema IAL. Para cada locutor conocido por el sistema, la secuencia de voz es comparada con una referencia característica del locutor. La identidad del locutor para el cual la referencia es la más próxima a la secuencia de voz, está dada como la salida del sistema.

En IAL se proponen dos modos: la identificación en un conjunto cerrado para el cual uno supone que la secuencia de voz es efectivamente pronunciada por un locutor conocido por el sistema; y la identificación en un conjunto abierto para el cual cabe la posibilidad de que el locutor pueda no pertenecer al conjunto de búsqueda. En modo “conjunto abierto”, el sistema IAL debe decidir la fiabilidad de su juicio aceptando o rechazando la identidad que encontró. Se puede pensar, por ejemplo, la utilización de un sistema IAL con el objetivo de facilitar la adaptación de un locutor en los sistemas RAH (e.g. sistema de RAH independiente de locutor). Un sistema IAL en conjunto abierto y dependiente del texto puede ser utilizado para controlar el acceso a datos sensibles, en una red o en un edificio [4].

 

Verificación Automática del Locutor

La verificación automática del locutor (VAL) es el proceso de decisión que permite determinar, por medio de un mensaje vocal, la veracidad de la identidad reivindicada por un individuo (Fig. 3). La identidad así como el mensaje vocal constituyen las dos entradas al sistema VAL. La identidad, necesariamente conocida por el sistema, designa automáticamente la referencia característica (modelo de referencia) de un locutor (o más específicamente locutor cliente). Una medida de similitud es calculada entre esta referencia y el mensaje vocal, luego comparada a un umbral de decisión. En el caso donde la medida de similitud es superior al umbral, el individuo es aceptado. En el caso contrario, el individuo es considerado como un impostor y rechazado.

 

Fig. 3. Arquitectura general de um sistema VAL. Tomado y traducido de [1].

 

Las aplicaciones de VAL son variadas y principalmente comerciales [6], algunas de ellas son:

·         Candados vocales para el control de acceso a locales;

·        Autentificación para el acceso a distancia a datos sensibles o servicios específicos a través de la red telefónica (consultas o transacciones bancarias, consultas a bases de datos de carácter confidencial, consulta de correo de voz, telecompras, etc.);

·        Protección de material contra robo (teléfonos portables, carros, etc.);

·        Arresto domiciliario requiriendo una autentificación regular del detenido.

 

3.    Problemática General de los RAL

La señal de voz es una señal muy compleja donde se involucran información lingüística, información característica del locutor, información relativa a los medios utilizados para transmisión o el registro de la señal, etc. Además, la señal de voz es muy redundante (e.g. repetición, omisión o mala articulación de frases, palabras o silencios intermedios). En sus diferentes aspectos, la señal de voz presenta una gran variabilidad.

La capacidad de los sistemas RAL de diferenciar varios individuos, reposa esencialmente sobre la variabilidad interlocutor, es decir, la disposición de la señal de voz a variar entre distintos individuos. Sin embargo, la señal de voz encierra otro tipo de variabilidades que la vuelven problemática en la tarea de reconocimiento, tales como la variabilidad intralocutor (diferencias en la señal proveniente de una misma persona) o la variabilidad debida al medio. Por otro lado, los sistemas RAL deben hacer frente a otras dificultades ligadas al dominio aplicativo, como la utilización de los sistemas en condiciones difíciles (e.g. ruido ambiental, canal telefónico, imitación de voz), las tentativas de impostor, etc. [1]

Variabilidad debida al material

La señal de voz es portadora de información que caracteriza al material utilizado en el momento de su captura (e.g. micrófono, teléfono), de su transmisión (e.g. líneas telefónicas, aire ambiental) y de su registro (e.g. micrófonos, convertidores). Esta información aparece como deformaciones/degradaciones de la señal de voz, las cuales son diferentes según el tipo de material empleado. En particular este será uno de los puntos a abordar del presente trabajo, es decir la variación existente entre una fase de aprendizaje del sistema y una fase de prueba con señales degradadas durante el tránsito por un canal telefónico.

 

La red GSM es considerada como un ambiente importante dentro del contexto telefónico y amerita especial atención. Hay trabajos realizados sobre la comparación de red de telefonía clásica, que dejan de manifiesto diferencias significativas en la calidad de las señales [5]. En efecto, las señales transitando por una red GSM muestran un nivel de ruido muy importante (las llamadas por teléfonos móviles son con frecuencia efectuadas en lugares mas ruidosos que las efectuadas desde un teléfono fijo), un nivel de voz mas elevado, seguido muy próximo a la saturación que conlleva una distorsión en la señal y en su proceso de codificación.

Plataformas y estado del arte en sistemas RAL

Cabe señalar que la mayoría de los trabajos son generados en base a plataformas creadas generalmente con modelos adaptados a idiomas distintos al español.  Uno de los aspectos que afectan el desempeño de un sistema RAL son precisamente los recursos orientados al idioma, en la tecnología de nuestros días existen varias aplicaciones en el idioma inglés, japonés, francés y alemán entre otros [6].

Podemos citar entre las herramientas más reconocidas y dentro del estado del arte en el ámbito de la investigación a las siguientes [8] y [9]:

·        CMU Sphinx. Desarrollada por la Universidad de Carnegie-Mellon, incluye muchas herramientas e información, aún está en desarrollo, pero incluye entrenadores, reconocedores, modelos acústicos, modelos de lenguaje y alguna documentación limitada, Sphinx está licenciada como software libre.

·        Entropic (HTK), es una herramienta popularmente utilizada en el ambiente Windows y ofrece la posibilidad de efectuar reconocimiento de locutor. HTK es una plataforma originalmente construida para desarrolladores e investigación por el grupo “Speech Vision and Robotic Group” en la Universidad de Cambridge,  está disponible en forma gratuita previo registro en el cual se explique la finalidad de su aplicación y esta no sea con fines comerciales.

Es importante señalar, que ambas son interfaces de programación de aplicaciones (API, por sus siglas en inglés) requieren ser adaptadas a un interés en particular, por lo que restaría un gran trabajo para la construcción de un sistema RAL que cumpla el objetivo del presente trabajo de investigación.

Corpus de Locutores

                       Para el desarrollo de los sistemas RAL es necesario contar con una base de señales de voz que permitan la experimentación de diferentes técnicas de procesamiento con una misma señal [10], [11], [12] y [13]. A una base de señales de voz se le denomina corpus. Actualmente existe una gran cantidad de corpus en diversos idiomas, entre los que podemos mencionar:

TIMIT. Referencia internacional en el contexto científico para experimentos sobre reconocimiento de locutor considerando la degradación de un canal telefónico. Está en el idioma inglés.

AURORA. Corpus orientado a la evaluación de algoritmos de extracción de características. Contiene grabaciones de dígitos bajo condiciones ambientales diversas que se dan en el interior de un automóvil (ruido de motor, a diferentes velocidades, con las ventanillas arriba y abajo, etc.). Existen versiones en varios idiomas incluido el español.

AHUMADA. Corpus en español ibérico, consta de grabaciones de 28 locutores masculinos. Surge de un proyecto orientado a la investigación forense.

DIME. Desarrollado en el Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas de la UNAM (IIMAS). Corpus en español mexicano orientado al reconocimiento del habla en un dominio particular.

TLATOA. Desarrollado por la Universidad de las Américas Puebla (UDLA). Consiste en 550 grabaciones de locutores del centro de México y está orientada a la experimentación con el español mexicano del centro del país.

Contexto nacional

Se han encontrado trabajos en México de tecnologías del habla, particularmente en reconocimiento del habla, siendo un número reducido de investigadores los que actualmente abordan esta línea de investigación [7], [14] y [15].

Bases de datos en español mexicano

            Si bien existen bases de datos en el contexto científico mundial bien estandarizadas, entre las cuales podemos citar AURORA y TIMIT, desafortunadamente, no es el caso de bases de datos para realizar experimentos científicos en RAL en español mexicano. Como parte de este trabajo de investigación se espera sumar esfuerzos con los proyectos mexicanos DIME y TLATOA.

Aplicación en el contexto regional

En el estado de Baja California existen empresas dedicadas a proveer servicios de centro de llamadas (call-centers) y servicios de telefonía de larga distancia en la modalidad de prepago. Ambos giros presentan necesidades que pueden ser atendidas con sistemas de Tecnologías del Habla (RAH, RAL). Ejemplos de estas  necesidades son:

a)      Sustitución del Número de Identificación Personal (PIN, por sus siglas en inglés) en los esquemas de prepago,  por un sistema de identificación de mayor facilidad de uso y con el mismo nivel de confiabilidad.

b)      Reconocimiento de comandos de voz para elección de opciones en sistemas automáticos de contestación telefónica.

c)      Detección de palabras clave en mensajes de voz

d)      Traducción automática de un idioma a otro.

Además existen otro tipo de aplicaciones vinculadas con la seguridad pública que también pueden ser atendidas con el desarrollo de TH, tal es el caso de la identificación automática del locutor para casos de secuestro o extorsión telefónica.

Un ejemplo de aplicación en este último punto es contar con aparatos telefónicos (móviles o fijos) que distingan por medio de la voz a locutores confiables (mediante listas de acceso previamente establecidas por el dueño del dispositivo) de locutores que requieran autorización expresa por parte del usuario receptor para aceptar la llamada, ya sea porque no están incluidos en la lista de acceso (locutor desconocido) o porque estén incluidos en una lista de locutores con restricciones.

4.    Propuesta de proyecto

Justificación

Son pocos los trabajos desarrollados en América Latina [16], [17] y particularmente escasos los desarrollados en México, por consiguiente falta un estudio completo en el sentido de construir modelos acústicos y modelos de lenguaje del español mexicano aptos para tecnologías del habla. Las contribuciones científicas en el idioma español mexicano son muy reducidas, quedando por tanto muchos aspectos sin abordar [7].

Si bien en el IIMAS [15] e INAOE existen proyectos que incluyen la comunicación del habla en forma interactiva [14], estos no son concluyentes, pues en ellos no se han definido modelos acústicos, ni modelos de lenguaje, por otra parte no son trabajos orientados a RAL, sino a RAV, por consiguiente no definen una plataforma RAL propia para aplicaciones el español mexicano.

 

Objetivo General

Desarrollo de un sistema  para la identificación de locutores, dependiente de texto con aplicaciones en el contexto del español mexicano.

Metodología

  1. Estudio y análisis de las principales plataformas para implementar sistemas RAL. (Sphinx, HTK)
  2. Análisis de las tecnologías existentes para sistemas RAL dependientes de texto.(HMM, GMM, ANN, SVM, Fuzzy Logic)
  3. Estudio de las técnicas para medir el desempeño de los sistemas RAL.
  4. Estudio de la distribución fonética para el español mexicano.
  5. Investigación sobre los avances en México en la estandarización de un corpus de español mexicano para sistemas RAL.
  6. Adquisición y/o colaboración para la creación de un corpus en español.
  7. Análisis de los sistemas y canales telefónicos y su impacto en un sistema RAL.
  8. Implementar un prototipo de sistema IAL.
  9. Análisis de las principales arquitecturas orientadas a tareas RAL. (cliente-servidor, distribuidas)
  10. Definir requerimientos para un sistema IAL con aplicaciones prácticas.
  11. Construir el sistema IAL.
  12. Evaluar el desempeño del sistema IAL.

Metas

Primer año

  1. Cursar asignaturas del área de tecnologías de voz
  2. Documento sobre el estado del arte en sistemas IAL
  3. Primer prototipo del sistema IAL como prueba de concepto

Segundo año

  1. Generación y normalización para un modelo impostor para el sistema IAL.
  2. Especificación de requisitos del sistema IAL
  3. Propuesta de la arquitectura para el sistema IAL
  4. Implementación de la arquitectura
  5. Segundo prototipo basado en la arquitectura propuesta

Tercer año

  1. Resultados comparativos de la eficiencia del prototipo
  2. Sistema IAL terminado
  3. Publicación de artículo
  4. Redacción del documento final de tesis
  5. Defensa de tesis

5.    Referencias

[1]    Fredouille, C. “Approche Statistique pour la Reconnaissance Automatique du Locuteur : Informations Dynamiques et Normalisation Bayesienne des Vraisemblances”. Tesis doctoral de la Universidad de Avignon, Octubre de 2000. Avignon , Francia.

[2]    Juang, B.H y Tsuhan Chen. “The past, present, and future of speech processing”. Signal Processing Magazine, IEEE. Vol. 15, num. 3, pags. 24-48. Mayo de 1998. ISSN: 1053-5888.

[3]    Bimbot, F., Bonastre, J. et al. “A Tutorial on Text-Independent Speaker Verification”. EURASIP Journal on Applied Signal Processing 2004:4, pags. 430–451. Hindawi Publishing Corporation.

[4]    Rosenberg A. E., Siohan O., Parthasarathy S. “Small group speaker identification with common password phrases. Workshop on Speaker Recognition and its Commercial and Forensic Applications (RLA2C)”, pags. 190-193, Abril de 1998, Avignon, Francia.

[5]    Fissore L., Ravera F., Vair C. “Speech recognition over GSM : specific features and performance evaluation”. Workshop on robust methods for speech recognition in adverse conditions, pags. 127-130, Mayo 1999, Tampere, Finlandia.

[6]    Boves L. Commercial applications of speaker verification : overview and critical success factors. Workshop on Speaker Recognition and its Commercial and Forensic Applications (RLA2C)”, pags. 150-159, Abril de 1998, Avignon, Francia.

[7]    Mayorga-Ortiz P. “Reconnaissance Vocale dans un Contexte de Voix sur IP: Diagnostic et Propositions”, Tesis para obtener el grado de doctor del INPG, especialidad Señales, Imágenes, Voz y Telecoms, Febrero de 2005., Grenoble, Francia

[8]    The CMU Sphinx Group Open Source Speech Recognition Engines. Consultado en http://www.speech.cs.cmu.edu/sphinx/Sphinx.html

[9]    The Hidden Markov Model Toolkit (HTK). Consultado en: http://htk.eng.cam.ac.uk

[10]The AURORA Project. Consultado en http://www.elda.org/article52.html

[11]Campbell, J. P. y Reynolds, D. A. “Corpora for the evaluation of speaker recognition systems”. Proceedings of the IEEE International Conference on acoustics, speech, and signal processing (ICASSP´99). Vol. 2, pags. 829-832. Marzo de 1999, Arizona, EEUU.

[12]           Ortega-García, J., González-Rodríguez, J. et al. “AHUMADA: a large speech corpus in Spanish for speaker identification and verification”. Proceedings of the 1998 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1998. ICASSP '98. Vol. 2, pags. 773-776, Mayo de 1998, Seattle, EEUU.

[13]Pineda, L. A., et al. “The DIME Project”. Lecture Notes In Computer Science; Vol. 2313. Proceedings of the Second Mexican International Conference on Artificial Intelligence: Advances in Artificial Intelligence. Springer-Verlag, pp. 166-175. 2002.

[14]Villaseñor-Pineda, L., Montes-y-Gómez, M., Vaufreydaz, D., Serignat, J-F. “Elaboración de un Corpus Balanceado para el Cálculo de Modelos Acústicos usando la Web”. International Conference on Computing CIC-2003, Ciudad de México. 2003.

[15]Miranda-Palma, C., Mayora-Ibarra O., Uraga, E. “Interfaz con reconocimiento de voz para la manipulación robótica”.  Quinto Encuentro Internacional de Computación, Taller de Interacción Humano-Computadora. Mexico. 2004

[16]Gurlekian, J. et al. “Database for an Automatic Speech Recognition System for Argentine Spanish”. IRCS Workshop on Linguistic Databases, Diciembre de 2001, Philadelphia, EEUU.

[17]San-Martín, C., Carrillo, R. “Implementación de un reconocedor de palabras aisladas dependiente del locutor”. Revista Facultad de Ingeniería, Vol. 12 No. 1 2004, pags. 9-14, Universidad de Tarapacá. Chile.