Escribir código usando reconocimiento de voz, una nueva barrera superada en el desarrollo de software (con algunos inconvenientes)

Alexa, Siri, Android Auto… cada vez, nuestra voz cobra mayor peso en el modo en que interactuamos con las nuevas tecnologías. En muchos casos, lo hacemos por mera comodidad, pero podemos hacerlo porque otros trabajaron antes espoleados por la necesidad.

Y es que cada vez son más las tecnologías que nos permiten desarrollar software mediante la voz (es decir, dictando comandos que permiten manipular el código y automatizar flujos de trabajo), pero es posible porque algunos desarrolladores se vieron antes en la disyuntiva (afectados por discapacidades y lesiones) de crear estos sistemas o dedicarse a otra cosa.

Serenade y Talon, a la cabeza de la carrera

Ryan Hileman empezó a desarrollar Talon en 2017, cuando se vio obligado a dejar su trabajo de programador a tiempo completo tras haber sufrido durante un año de fuertes dolores en una mano.

Quería desarrollar un ‘manos libres’ para programadores que permitiera “a cualquier reemplazar por completo el ratón y el teclado”.

Dos años después, a Matt Wiethoff, ingeniero de software en Quota, le fue diagnosticada una lesión por esfuerzo repetitivo. Él también tuvo que abandonar tu trabajo y empezó a trabajar en su propia plataforma de programación mediante la voz: Serenade.

Wiethoff lo hizo por pura necesidad, ante la perspectiva de tener que dedicarse a otra cosa que requiriera menos esfuerzo tipográfico. Unos meses más tarde Serenade recaudaba 2,1 millones de dólares en una ronda de financiación inicial.

Serenade cuenta con un motor de conversión de voz a texto desarrollado específicamente para reconocer código (y transcribirlo a una sintaxis válida), a diferencia de su equivalente de Google, diseñado para el reconocimiento del habla conversacional.

Talon, por su parte, está compuesto de tres elementos principales: sistema de reconocimiento de voz, de ruido y de seguimiento ocular. Estos dos últimos permiten sustituir por completo al ratón: el primero para usar chasquidos con la boca a modo de clic, y el segundo para mover el puntero. Según Hileman,

“Ese sonido [de chasquido] es fácil de hacer: requiere poco esfuerzo y requiere baja latencia para reconocerlo, por lo que es una forma mucho más rápida y no verbal de hacer clic con el mouse que no causa tensión vocal”.

Existen diferencias de enfoque entre ambos, como se aprecia en el gráfico adjunto; mientras que Talon suena muy distinto del habla conversacional humana, con comandos específicos para cualquier acción, Serenade apuesta por un enfoque más abstracto, en el que el programa asume ciertas acciones vinculadas a cada comando, sonando así mucho más natural (si sabes inglés, claro).

¿Lo malo? Echar de menos el silencio. Y la música.

Hace tres años, la revista Nature abordó el caso de algunos de los pioneros en el campo de la programación mediante voz. Harold Pimentel, experto en genómica computacional, sufría el mismo tipo de lesión que Wiethoff… provocada, en su caso, por el hecho de haber nacido con un sólo brazo. Él y Naomi Saphra (aquejada de neuropatía de fibras pequeñas), empezaron a desarrollar un software, hoy discontinuado, denominado VoiceCode.

Dicho software, al igual que Talon, facilitaba a sus usuarios crearse sus propias configuraciones de comandos personalizados para programar: Pimentel cuenta que tuvo que aprenderse 40 páginas de comandos, mientras que su compañera de proyecto fue capaz, tras dos meses practicando, de manejar fórmulas matemáticas LaTeX.

Pero, junto a las múltiples y obvias ventajas que ofrecía su software, Pimentel y Saphra destacaban también las desventajas de programar con la voz. El primero reconocía tener problemas de garganta y verse obligado a “beber un maldito montón de agua”, además de echar de menos programar en silecio.

Curiosamente, Saphra echaba de menos lo contrario: “Solía escuchar música o cantar mientras escribía código. O simplemente maldecir. Ya no puedo hacer eso”.

Vía | IEEE Spectrum
Imágenes | Serenade & IEEE Spectrum


La noticia

Escribir código usando reconocimiento de voz, una nueva barrera superada en el desarrollo de software (con algunos inconvenientes)

fue publicada originalmente en

Genbeta

por
Marcos Merino

.