Cómo el aprendizaje automático en el dispositivo ha cambiado la forma en que usamos nuestros teléfonos

Google Pixel 4a tomando una foto de una persona

David Imel / Autoridad de Android

Los conjuntos de chips de teléfonos inteligentes han recorrido un largo camino desde los primeros días de Android. Si bien la gran mayoría de los teléfonos económicos tenían una potencia lamentablemente insuficiente hace solo unos años, los teléfonos inteligentes de gama media de hoy funcionan tan bien como los modelos insignia de uno o dos años.

Ahora que el teléfono inteligente promedio es más que capaz de manejar las tareas generales del día a día, tanto los fabricantes de chips como los desarrolladores han estado apuntando a metas más altas. Con esta perspectiva, entonces, está claro por qué tecnologías auxiliares como la inteligencia artificial y el aprendizaje automático (ML) están asumiendo un papel central. Pero, ¿qué significa el aprendizaje automático en el dispositivo, especialmente para usuarios finales como usted y yo?

En el pasado, las actividades de aprendizaje automático requerían enviar datos a la nube para su procesamiento. Este enfoque tiene muchos inconvenientes, que van desde tiempos de respuesta lentos hasta preocupaciones de privacidad y limitaciones de ancho de banda. Sin embargo, los teléfonos inteligentes modernos pueden generar predicciones completamente fuera de línea gracias a los avances en el diseño de conjuntos de chips y la investigación de ML.

Para comprender las implicaciones de este avance, exploremos cómo el aprendizaje automático ha cambiado la forma en que usamos nuestros teléfonos inteligentes todos los días.

El nacimiento del aprendizaje automático de dispositivos: mejores fotografías y predicciones de texto

google photos logo card library libros de fotos impresiones fotográficas 1

Jimmy Westenberg / Autoridad de Android

A mediados de la década de 2010, la industria se apresuró a mejorar la calidad de imagen de la cámara año tras año. Esto, a su vez, ha demostrado ser un factor clave para la adopción del aprendizaje automático. Los fabricantes se dieron cuenta de que la tecnología podría ayudar a cerrar la brecha entre los teléfonos inteligentes y las cámaras dedicadas, a pesar de que el primero tenía un hardware inferior para arrancar.

Con este fin, casi todas las empresas de tecnología importantes han comenzado a mejorar la eficiencia de sus chips en actividades relacionadas con el aprendizaje automático. Para 2017, Qualcomm, Google, Apple y Huawei habían lanzado SoC o teléfonos inteligentes con aceleradores de aprendizaje automático dedicados. En los años siguientes, las cámaras de los teléfonos inteligentes han mejorado al por mayor, particularmente en términos de rango dinámico, reducción de ruido y fotografía con poca luz.

Más recientemente, fabricantes como Samsung y Xiaomi han encontrado casos de uso más innovadores para la tecnología. ¿El primero? Función de toma únicapor ejemplo, utiliza el aprendizaje automático para crear automáticamente un álbum de alta calidad a partir de un único videoclip de 15 segundos. El uso de la tecnología de Xiaomi, mientras tanto, ha pasado de simplemente detectar objetos en la aplicación de la cámara a reemplazando todo el cielo si tu quieres.

Para 2017, casi todas las grandes empresas de tecnología comenzaron a mejorar la eficiencia de sus chips en negocios relacionados con el aprendizaje automático.

Muchos OEM de Android ahora también usan el aprendizaje automático en el dispositivo para etiquetar automáticamente caras y objetos en la galería de su teléfono inteligente. Esta es una característica que anteriormente solo ofrecían servicios basados ​​en la nube como Google Photos.

Por supuesto, el aprendizaje automático en los teléfonos inteligentes va mucho más allá de la fotografía. Es seguro decir que las aplicaciones relacionadas con el texto han existido durante el mismo tiempo, si no más.

Swiftkey fue quizás el primero en utilizar una red neuronal para obtener mejores predicciones de teclado en 2015. La empresa reclamado que había entrenado su modelo en millones de oraciones para comprender mejor la relación entre varias palabras.

Otra característica destacada llegó un par de años después, cuando Android Wear 2.0 (ahora Wear OS) ganó la capacidad de predecir respuestas relevantes para los mensajes de chat entrantes. Más tarde, Google denominó la función de respuesta inteligente y la llevó a la corriente principal con Android 10. Lo más probable es que dé por sentada esta función cada vez que responde a un mensaje desde el área de notificación de su teléfono.

Voz y RA: nueces más difíciles de romper

Transcripción de la aplicación Google Voice Recorder en OnePlus 6

Si bien el aprendizaje automático en el dispositivo ha madurado en la predicción de texto y la fotografía, el reconocimiento de voz y la visión artificial son dos campos que aún experimentan mejoras significativas e impresionantes cada pocos meses.

Tome la función de traducción instantánea de la cámara de Google, por ejemplo, que superpone una traducción en tiempo real de texto extranjero directamente en la transmisión de la cámara en vivo. Si bien los resultados no son tan precisos como su equivalente en línea, la función es más que útil para los viajeros con un plan de datos limitado.

El seguimiento corporal de alta fidelidad es otra característica de realidad aumentada de sonido futurista que se puede lograr con el aprendizaje automático en el dispositivo. Imagina los gestos Air Motion del LG G8, pero infinitamente más inteligentes y para aplicaciones más grandes como monitoreo de entrenamiento y en cambio la interpretación en lengua de signos.

Obtenga más información sobre el Asistente de Google: 5 consejos y trucos que quizás no conozcas

En cuanto al habla, el reconocimiento de voz y el dictado han existido durante más de una década en este momento. Sin embargo, no fue hasta 2019 que los teléfonos inteligentes pudieron ejecutarlos completamente fuera de línea. Para una demostración rápida de esto, consulte la aplicación Grabadora de Google, que aprovecha la tecnología de aprendizaje automático en el dispositivo para transcribir automáticamente el habla en tiempo real. La transcripción se almacena como texto editable y también se puede buscar, un beneficio para periodistas y estudiantes.

La misma tecnología también es compatible con Live Caption, una función en Android 10 (y posterior) que genera automáticamente subtítulos para cualquier medio que se reproduzca en su teléfono. Además de servir como función de accesibilidad, puede resultar útil si está intentando descifrar el contenido de un clip de audio en un entorno ruidoso.

Si bien estas son características ciertamente interesantes por derecho propio, también hay varias formas en que pueden evolucionar en el futuro. El reconocimiento de voz mejorado, por ejemplo, podría permitir interacciones más rápidas con asistentes virtuales, incluso para aquellos con acentos atípicos. Aunque el Asistente de Google tiene la capacidad de procesar comandos de voz en el dispositivo, esta función es, lamentablemente, exclusiva de la gama Pixel. Sin embargo, ofrece un vistazo al futuro de esta tecnología.

Personalización: ¿la próxima frontera para el aprendizaje automático en el dispositivo?

Una foto de gboard, uno de los mejores teclados de Android.

La gran mayoría de las aplicaciones de aprendizaje automático actuales se basan en modelos previamente entrenados, que se generan de antemano en un hardware potente. Inferir soluciones a partir de un modelo previamente entrenado, como generar una respuesta inteligente contextual en Android, solo lleva unos pocos milisegundos.

En este momento, el desarrollador entrena un solo modelo y lo implementa en todos los teléfonos que lo requieran. Este enfoque universal, sin embargo, no tiene en cuenta las preferencias de cada usuario. Tampoco se puede alimentar con nuevos datos recopilados a lo largo del tiempo. Como resultado, la mayoría de los modelos son relativamente estáticos y solo reciben actualizaciones de vez en cuando.

Resolver estos problemas requiere que el proceso de capacitación del modelo se traslade de la nube a los teléfonos inteligentes individuales, un desafío dada la disparidad en el rendimiento entre las dos plataformas. Sin embargo, esto permitiría a una aplicación de teclado, por ejemplo, adaptar sus predicciones específicamente a su estilo de escritura. Yendo un paso más allá, también puede considerar otras pistas contextuales, como sus relaciones con otras personas durante una conversación.

Actualmente, Gboard de Google utiliza una combinación de entrenamiento en el dispositivo y basado en la nube (llamado aprendizaje federado) para mejorar la calidad de las predicciones para todos los usuarios. Sin embargo, este enfoque híbrido tiene sus limitaciones. Por ejemplo, Gboard predice su próxima palabra probable en lugar de oraciones completas en función de sus hábitos individuales y conversaciones pasadas.

concepto de mensajes rápidos

Una idea aún no realizada por SwiftKey para su teclado en 2015

Este tipo de capacitación individualizada debe realizarse absolutamente en el dispositivo, ya que las implicaciones de privacidad de enviar datos confidenciales del usuario (como las pulsaciones de teclas) a la nube serían desastrosas. Apple también reconoció esto cuando anunció CoreML 3 en 2019, lo que permitió a los desarrolladores reconstruir modelos existentes con nuevos datos por primera vez. Una vez más, sin embargo, la mayor parte del modelo debe entrenarse inicialmente en hardware potente.

En Android, este tipo de reentrenamiento iterativo del modelo se representa mejor mediante la función de brillo adaptativo. Desde Android Pie, Google ha utilizado el aprendizaje automático para «observar las interacciones que un usuario hace con el control deslizante de brillo de la pantalla» y volver a entrenar un modelo adaptado a las preferencias de cada individuo.

La formación en el dispositivo seguirá evolucionando de formas nuevas y emocionantes.

Con esta función habilitada, Google reclamado una mejora notable en la capacidad de Android para predecir el brillo correcto de la pantalla en solo una semana de interacción normal con el teléfono inteligente. No me di cuenta de lo bien que funcionaba esta función hasta que cambié de un Galaxy Note 8 de brillo adaptativo al LG Wing más nuevo, que sorprendentemente solo incluye la vieja lógica de brillo «automático».

En cuanto a por qué la capacitación en el dispositivo se ha limitado hasta ahora a unos pocos casos de uso simples, está bastante claro. Aparte de las limitaciones obvias de la computación, la batería y el poder de los teléfonos inteligentes, no hay muchas técnicas de entrenamiento o algoritmos diseñados para este propósito.

Si bien esta desafortunada realidad no cambiará de la noche a la mañana, existen varias razones para ser optimistas sobre la próxima década del aprendizaje automático móvil. Con los gigantes tecnológicos y los desarrolladores enfocados en formas de mejorar la experiencia del usuario y la privacidad, la capacitación en el dispositivo continuará evolucionando de maneras nuevas y emocionantes. Quizás finalmente podamos considerar nuestros teléfonos inteligentes en todos los sentidos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *