El
Reconocimiento Automático del Habla (RAH) o
Reconocimiento Automático de Voz es una parte de la
Inteligencia Artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y
computadoras electrónicas. El problema que se plantea en un sistema de
RAH es el de hacer cooperar un conjunto de informaciones que provienen de diversas fuentes de conocimiento (acústica, fonética, fonológica, léxica, sintáctica, semántica y pragmática), en presencia de ambigüedades, incertidumbres y errores inevitables para llegar a obtener una interpretación aceptable del mensaje acústico recibido.
Un sistema de reconocimiento de
voz es una herramienta computacional capaz de procesar la
señal de voz emitida por el ser humano y reconocer la información contenida en ésta, convirtiéndola en texto o emitiendo órdenes que actúan sobre un proceso. En su desarrollo intervienen diversas disciplinas, tales como: la
fisiología, la
acústica, el
procesamiento de señales, la
inteligencia artificial y la ciencia de la
computación.
El reconocimiento de voz se acerca más a la corriente principal y encuentra su mercado nicho en las comunidades medica y legal, en las que se emplean vocabularios especializados, pero aun no se deseche el teclado y el mouse. Estos programas están diseñados para complementar los medios de captura tradicionales, no para reemplazarlos. Pueden ofrecer un gran incremento en la productividad de los usuarios con habilidades limitadas para mecanografiar. Pero para aquellos que tienen una discapacidad, y que sufren daños constantes por el estrés o simplemente siempre tienen las manos ocupadas estos productos son magníficos.
Para esta competencia, los laboratorios de PC Magazine pusieron a prueba, las actualizaciones más recientes de los cuatro productos de reconocimiento de voz: Dragon Naturallly Speaking Preferred 4.0, Free Speech 2000 de Philips, L & H Voice Xpress Profesional Versión 4.0 y Via Voice Pro Millenium Edition de IBM. Todos los fabricantes refinaron sus mecanismos de voz y mejoraron la facilidad de uso e incrementaron el soporte destinado a comandos y controles, así como para el Natural Language Command (NLC) de modo que funcionen en una extensa variedad de aplicaciones, como Microsoft Excel y Outlook.
En los resultados de nuestras pruebas, es evidente que la precisión a mejorado, incluso con menos tiempo de capacitación. En la competencia del año pasado, los evaluadores lograron una precisión promedio de 80 a 90%. Pero para el artículo de este año la precisión inicial va del 91 a 95% en todo el grupo, y aumenta con el tiempo de uso, subiendo hasta 98% en el caso de Via Voice .
La mayor precisión le corresponde a los modelos de lenguaje más inteligentes. Durante nuestras pruebas, observamos una mejor selección de palabras con base en el contexto por parte de Naturally Speaking y Via Voice. Esto no solo produce mayor precisión, también da como resultado la puntuación y aplicación de mayúsculas en forma automática, con ahorro de tiempo al revisar y corregir los dictados. Naturally Speaking, Voice Xpress y Via Voice ahora requieren de unos 10 minutos de lectura para aprenderlos, en lugar de los 30 minutos o más que se necesitaban el año pasado. En la mayor parte de los casos, puede instalar el programa y dictarle con una exactitud muy buena en poco más de 20 minutos. Los tutoriales y las tarjetas de consulta rápida son esenciales para aprender las características del dictado, la navegación y los controles y comandos.
Voice Xpress y Via Voice siempre han tenido un fuerte soporte para controlar su escritorio en Windows y otras aplicaciones que utilizan comandos en lenguaje natural, y ahora amplían ese soporte a los comandos específicos de Microsoft Office 2000, por ejemplo “ al enviar como correo electrónico” o “guardar como pagina Web”. Todos los productos le permiten crear marcos de voz para insertar texto o dictar en cualquier aplicación de windows.
| Todos lo productos que participaron en esta competencia ofrecen algunas características Web que se activan con la voz. Natural Web de Naturally Speaking es el más sencillo de usar para navegar en la Web. Le permiten capturar URL con facilidad y seleccionar vínculos para las paginas por medio de la voz. Via Voice indexa cada pagina en forma dinámica conforme las carga y despliega un número junto a cada vínculo, de modo que solo necesita mencionar el dicho numero para mencionar un vínculo. Via Voice ofrece soporte para Jargon de Charter, un vocabulario para los programas de conversiones en Internet. Free Speech actualiza de forma dinámica su Command |
Explorer con base en la página web que esta cargada en ese momento para mostrar todos lo vínculos activados con la voz, y Via Voice Xpress incluye Web Finder que es una herramienta de metabusqueda que se activa con la voz. Aún tiene más sentido navegar con la Web con un mouse y un teclado, pero el futuro de la tecnología de reconocimiento de voz podría utilizarse para navegar en la web en dispositivos portátiles más pequeños.
Dragon Naturally Speaking Preferred 4.0
Precio de lista : $199 USD. Requiere: Pentium MMX/200 o equivalente; 48 MB en RAM; 200MB de espacio en disco duro; tarjeta de sonido de 16 bits compatible con Creative Labs Sound Blaster; Microsoft Windows 95 , 98 o NT.
Nuestra selección de los editores en esta competencia, Dragon Naturally Preferred 4.0, marca el estándar para la facilidad de uso, desde la instalación directa hasta el formato sencillo y la navegación en el Web activada por la voz.
Con una mejor optimización para los nuevos procesadores y avances en el reconocimiento de palabras y comandos, Naturally Speaking ofrece una exactitud impresionante desde el desempaque. Sólo tiene la desventaja de un soporte limitado para el lenguaje natural en aplicaciones distintas de Microsoft Word. La precisión inicial de Naturally Speaking empató con la de nuestra mención honorífica, el Via Voice, 95%, y aunque este último subió a 98% con capacitación adicional, Naturally Speaking termino en 96%.
Sin embargo, los evaluadores informaron, de manera unánime, haber tenido el menor número de problemas al entender los comandos de voz de Naturally Speaking para la navegación y el formato.
Después de una práctica de 5 minutos, Naturally Speaking tarda alrededor de 2 minutos más en ajustar el modelo de lenguaje de base de acuerdo con su voz y pronunciación. El Vocabulary Builder importa palabras solas, listas de palabras o documentos completos, y le permite practicar todas las palabras o las seleccionadas tan pronto como las importa. Igual que con Via Voice, puede importar documentos para mejorar el reconocimiento.
| Naturally Speaking tiene atajos intuitivos para el dictado y el formato. Por ejemplo, sólo tiene que decir “all cap” o “cap“ para escribir todo en mayúsculas. Los evaluadores encuentran esto más fácil que decir “capitalize” en FreeSpeech y Voice Xpress, o incluso “capitalize this” en Via Voice . Cuando hace una corrección, Naturally Speaking le pide que diga la palabra correcta y la incorrecta, lo cual le ayuda a aprender cómo pronuncia ambas palabras. La corrección de ortografía funciona en forma adecuada, siempre y cuando hable en forma lenta y sin dudar. Naturally Speaking es el único producto en esta competencia que le perimite dictar, corregir y practicar sin utilizar las manos. |
FreeSpeech 2000
Precio lista: con audífonos Plantronics, $99.99 USD; con Philiphs SpeechMike , $149.99 USD. Requiere: Pentium/MMX 166 o equivalente; 48 MB en RAM; 100MB de espacio en disco duro; tarjeta de sonido compatible con Sound Blaster; Microsoft Windows 95,98 o NT con SP3.
FreeSpeech 2000 de Philips Speech Products presenta varios avances respecto a su predecesor: soporte para dictado en seis idiomas. Macros de voz y mayor precisión. Y aun incluye el práctico Philips SpeechMike. Pero las bajas calificaciones en precisión, la información limitada y el hecho de tener que cambiar en forma manual entre los modos de dictado y comandos reduce la facilidad de uso del FreeSpeech.
FreeSpeech, con una calificación inicial de 91% en precisión, mejoró en forma sustancial en comparación con su versión anterior. Pero en una categoría en la que un par de puntos porcentuales afecta la utilidad del producto, ésta es una calificación muy baja. FreeSpeech también se colocó en el último lugar en exactitud, a 93%. Probamos el FreeSpeech con SpeechMike y con Plantronics SR1. Obtuvimos una calidad de sonido aceptable durante la activación del audio con SpeechMike, pero sólo después de tres intentos. El programa también carece de una tarjeta de consulta rápida e incluye poca información de los comandos.
El modo de dictado tiene una característica EasyEdit, que destaca las palabras mientras reproduce el dictado, y la característica EasyCorrect del programa le permite interrumpir la reproducción y reemplazar la palabra subrayada con la opción seleccionada de una lista de alternativas. Para utilizar los comandos de los menús y los cuadros de diálogo, o para navegar en un documento, debe cambiar al modo Comandos con la barra de herramientas o un botón especial de SpeechMike. Esto puede ser confuso, sobre todo comparado con los otros programas, que por el momento no tienen modelos. El botón de SpeechMike facilita el proceso, excepto que, cuando lo suelta, el micrófono se apaga y debe pasar en forma manual al modo de Dictado , lo que reduce los beneficios del botón. Para deletrear palabras, debe cambiar al modo Deletrear, y si desea interrumpir la grabación de la voz, recurra al modo Inactivo. Utilizar cuadros de diálogo que requieren una combinación de navegación y dictado puede ser difícil.
Las herramientas para macros de FreeSpeech le permiten insertar varias líneas de texto, ejecutar programas y golpes de teclas y clics del mouse programados en forma previa. FreeSpeech tiene un soporte adecuado para NCL así como para comandos y controles en todas las aplicaciones. Al igual que Voice Xpress, incluye una lista de comandos de voz en la que es posible buscar por palabras clave.
Los usuarios encontrarán mayor precisión y facilidad de uso en otros programas que participan en esta competencia. Y muchos usuarios se cansarán muy pronto de cambiar en forma manual entre los modos de FreeSpeech.
L & H Voice Xpress Professional, Versión 4
Precio al público: $150 USD. Requiere: Pentium II; 48 MB en RAM con Microsoft Windows 95 o 98, o 64 MB con Windows NT; 200 MB de espacio en disco duro; tarjeta de sonido de 16 bits compatible con Sound Blaster o micrófono USB.
L & H Voice Xpress Professional ofrece las características básicas que todos esperamos en un programa de reconocimiento de voz: es posible dictar en cualquier aplicación, crear macros de voz y controlar las aplicaciones con comandos de voz. El punto fuerte del programa son sus comandos intuitivos con lenguaje natural para Microsoft Word, Excel y el sencillo procesador de palabras Voice Xpress. Pero sus características de corrección son limitadas; por ejemplo, carecen de reproducción de audio.
La instalación del programa y la lectura de información necesaria que tomó 10 minutos se realizaron sin problemas, pero la instalación del audio fue menos intuitiva. Al probar el volumen del micrófono, no hay indicación que le diga cuándo dejar de leer. Al terminar la instalación, aparece una barra de control en la parte superior de la pantalla, pero no es muy evidente cómo encender el micrófono. El delgado manual incluye pocas pantallas o ilustraciones, por lo que es difícil empezar a trabajar cuando se es nuevo en el reconocimiento de voz. En nuestras pruebas, Voice Xpress quedó en tercer lugar en precisión final, con 94%, detrás de Via Voice y Naturally Speaking. Para el uso casual, quizá sea suficiente, pero para un dictado más formal, querrá una calificación de 95% o más alta.
Voice Xpress es fácil de utilizar para dar formato al texto. Reconoce frases como “convertir en negritas las ultimas tres palabras”, convertir en negritas las tres palabras anteriores” y muchas otras variaciones del mismo comando. El programa responde con rapidez a lo que usted dice, por lo que la edición y el formato son rápidos y sencillos. Sus comandos para Excel también funcionan en forma adecuada.
Voice Xpress le permite respaldar sus archivos de voz con facilidad en Iomega Zip Drive u otro lugar aseguro. Los usuarios que desean controlar Excel y Word por medio de la voz quizá consideren que Voice Xpress es una opción adecuada.
Via Voice Pro Millennium Edition
Precio al público: $180 USD. Requiere: Pentium/233 o equivalente; 48 MB en RAM con Microsoft Windows 95 o 98, o 64 MB con Windows NT; 100 MB de espacio en disco duro ; tarjeta de sonido de 16 bits.
Nuestra mención honorífica en esta ronda, Via Voice Pro Millenium Edition de IBM, ofrece una amplia variedad de funcionalidad tanto para aplicaciones de dictado como de control, además de las mejores calificaciones de precisión del grupo. Los novatos empezarán a trabajar con rapidez, mientras que los usuarios de poder apreciarán las capacidades avanzadas de macros del programa. No obstante, los evaluadores encontraron que algunas de las características de edición de Via Voice son complicadas, un factor determinantes en su facilidad de uso en general. La instalación y el manejo inicial transcurrieron sin problemas gracias a las pantallas del asistente bien diseñadas y un personaje animado que explica cómo empezar. Los usuarios podrán empezar a dictar de 20 a 30 minutos después de la instalación del software, lo que incluye de 10 a 15 minutos de lectura del texto del registro.