Tengo muchas ganas de un asistente de voz similar a ChatGPT en mis altavoces Google Nest

ChatGPT fotografía de stock 12

Édgar Cervantes / Autoridad Android

Los últimos meses en el mundo de la tecnología han sido un torbellino. Un minuto estamos asombrados pero no tan impresionados por las imágenes de baja calidad generadas por IA de Dall-E, y al siguiente estamos chateando con Bing, nuestro nuevo motor de búsqueda favorito. Apenas puedo seguir el ritmo. Todos los días hay un nuevo hilo de Twitter que muestra una herramienta de IA revolucionaria, una nueva forma de usar ChatGPT o Midjourney, o una nueva función basada en la API de ChatGPT. ¿Y de alguna manera ya estamos en ChatGPT 4? Pero a pesar de todo, una idea sigue volviendo a mí: la mayoría de las veces, no necesito inteligencia artificial cuando miro una pantalla; en cambio, preferiría tener esta capacidad de conversación similar a ChatGPT como asistente de voz en mis altavoces inteligentes Nest.

Y la razón de esto es doble. Primero, el Asistente de Google siempre ha tardado en comprender y responder preguntas un poco complejas, y parece volverse más tonto por minutos. Dos, una IA conversacional tiene más sentido en una interfaz de voz que en una pantalla. Déjame elaborar.

¿Está satisfecho con el estado actual de los altavoces inteligentes?

0 votos

El Asistente de Google, como Alexa y Siri, parece un poco desactualizado hoy

Sony Xperia 1 III Asistente de Google

Robert Triggs / Autoridad de Android

A lo largo de los años, la fortaleza del Asistente de Google siempre ha sido su capacidad para comprender y ejecutar comandos de voz dados en lenguaje natural. Pregúntele «quién escribió Orgullo y prejuicio» o «cuál es el nombre del autor de Orgullo y prejuicio» o «quién es el autor detrás de Orgullo y prejuicio» y responderá a Jane Austen en los tres casos. Puede probar docenas de otras formas de formular esa pregunta y aun así lo hará bien.

Esto convierte al Asistente de Google en una herramienta invaluable para configurar recordatorios y temporizadores, agregar reuniones, hacer preguntas de conocimiento general, reproducir canciones específicas y controlar su hogar inteligente. No necesita recordar un comando exacto para apagar las luces, simplemente puede decirlo de forma natural.

El asistente es bueno para seguir los comandos que se le han enseñado. Pero responder preguntas abiertas es su mayor debilidad.

Pero si cavas un poco debajo de la superficie, notarás todas las grietas. En lugar de reproducir la canción original que querías, podrías obtener una acústica, un remix o, Dios no lo quiera, una versión. Incluso podría darle consejos sobre cómo limpiar su cocina en lugar de decirle a la aspiradora inteligente que limpie la cocina como se esperaba.

Sin embargo, nada es tan dañino como lo que sucede cuando le haces una pregunta abierta al Asistente. Lo escuchará divagar en una cita interminable, citando un sitio específico, que puede o no responder correctamente a su pregunta. Básicamente, le leerá el fragmento del primer resultado de búsqueda de Google sin tener en cuenta el contexto. Es demasiado prolijo, a menudo confuso y, a menudo, incapaz de profundizar unas pocas capas para encontrar una respuesta. Permítanme mostrarles tres ejemplos que ilustran esto.

El asistente es demasiado detallado, a menudo confundido y, a menudo, incapaz de encontrar una respuesta.

Ejemplo 1 – confuso: Mi esposo y yo estábamos discutiendo un posible viaje a Chequia y nos preguntábamos si el sistema ferroviario era sólido, lo que facilitaría los viajes de un día y el tránsito. Le pregunté si es «fácil viajar en tren en la República Checa» y me dio indicaciones para llegar a la República Checa desde mi ubicación actual. La reformulación de «adentro» en lugar de «dentro» no ayudó.

Ejemplo 2: incapaz de responder: Estaba jugando con la configuración de mi cámara Olympus. Encontré un menú sin explicación; las opciones eran LF, LN, MN y SN. Así que le pregunté a mi Nest Audio al respecto y su respuesta fue que no puede comparar configuraciones, así que me preguntó si quería saber la diferencia (¿eh, repitiendo mi pregunta?), Dije que sí y simplemente se detuvo. Ninguna respuesta.

Ejemplo 3 – detallado: Después de mi reciente viaje a Barcelona, ​​me preguntaba sobre el sistema político de España, así que le pregunté a Google si tiene parlamento. La respuesta fue un fragmento de un sitio web que comenzó con las dos cámaras y luego me dijo que esas contaban como un sistema parlamentario bicameral.

Ahora compare las respuestas de un asistente de voz tradicional anterior con lo que puede proporcionar un modelo de lenguaje grande como ChatGPT. ChatGPT entendió mi intención detrás de la misma pregunta sobre el tránsito en Chequia, comenzó con un sí, para darme una respuesta inmediata, luego pasó a explicarme las ventajas del sistema ferroviario. Debido a que habló un poco más de lo que me hubiera gustado, limité su producción en las siguientes preguntas a una oración. Y los entendió a ambos, explicando cuáles eran los ajustes de la cámara y comenzando con un «sí» para explicar la situación en el parlamento español.

No hay ningún comando que pueda limitar la respuesta de Google a una oración o forzarlo a reducir su tiempo de chat. Además, todos los asistentes de voz actuales no pueden sintetizar una respuesta de múltiples fuentes, lo cual es uno de los puntos fuertes de ChatGPT y los modelos de lenguaje alternativo.

IA conversacional: interacciones en pantalla versus interacciones de voz

Google Nest Audio representado en una mesa de cristal con plantas

Adam Molina / Autoridad de Android

Hay miles y miles de usos potenciales para una IA conversacional como ChatGPT, pero uno de los mejores que he encontrado para mi propio uso es su capacidad para sintetizar una respuesta de múltiples fuentes mediante la comprensión de las limitaciones de una solicitud. Puede hacer que hable menos como lo mostré en el ejemplo anterior, pedirle que explique conceptos complejos como si tuviera cinco años o darle cualquier cantidad de restricciones para adaptar la búsqueda exactamente a lo que desea.

Por eso tiene aún más sentido interactuar con este tipo de IA a través de la voz. Cuando tengo una pantalla frente a mí, puedo desplazarme a través de múltiples respuestas en un segundo, decir rápidamente cuáles son irrelevantes y elegir ampliar las que quiero conocer más. Cuando uso los comandos de voz, no tengo más remedio que escuchar la única respuesta que me da el Asistente de Google y, como establecimos anteriormente, esa respuesta a veces puede ser menos que satisfactoria.

Cuando miro una pantalla, puedo desplazarme por muchos resultados en un segundo. Cuando uso la voz, solo puedo escuchar la única respuesta que recibo. A partir de ahora, esa respuesta rara vez es lo suficientemente buena.

Es decir, Google es perfectamente capaz de decirme cuándo es el próximo partido del Real Madrid, quién es el presidente de Francia o qué altura tiene Mac McClung, pero no me atrevería a preguntar si puedo hacer un cóctel con licor de yogur y amaretto. pero no hay clara de huevo, o si hay un tren directo de París a Roma. Incluso antes de intentarlo, puedo imaginar todas las formas en que ella malinterpretará o arruinará esas solicitudes, lo que me obligará a sacar mi teléfono e iniciar una larga sesión de búsqueda en Google o Bing para responder.

Y ese es el punto. Si todo lo que hace el Asistente de Google es chatear durante dos minutos mientras me lee un fragmento del primer resultado de búsqueda, entonces es una pérdida de tiempo. Prefiero sacar mi teléfono y buscar allí; al menos puedo buscar más de un resultado en segundos.

No quiero destacar a Google aquí. Las implementaciones actuales de asistente de voz de Amazon Alexa y Apple Siri ni siquiera pueden ahorrarme tiempo de búsqueda, ni obligarme a usarlas más que Google. Y ahí es exactamente donde estoy hoy con cualquier asistente de voz: solo lo uso para algunos controles domésticos inteligentes y las búsquedas y solicitudes más básicas.

Si tuviera un asistente de voz de IA que sintetizara contenido de muchas fuentes y me diera una respuesta breve y satisfactoria, lo usaría una y otra vez.

Pero si tuviera un asistente de voz de IA como ChatGPT que sintetizara contenido de múltiples fuentes y me diera una respuesta breve y satisfactoria cada vez que le preguntara sobre algo, entonces lo contactaría una y otra vez. Prefiero hacer esto y mantener el compromiso con lo que estoy haciendo que sacar mi teléfono, mirar una pantalla y perderme durante media hora.

ChatGPT no es perfecto, pero quiero un asistente de voz similar en mis altavoces Nest

Escucha de Microsoft Bing Chat junto a la escucha del Asistente de Google

Rita El Khoury / Autoridad de Android

Si bien he estado exaltando las virtudes de ChatGPT durante un tiempo, no lo quiero en su estado actual en mi altavoz Nest ni en ningún otro altavoz inteligente. Sus datos de entrenamiento son antiguos, a menudo son demasiado detallados a menos que limite el resultado a una oración (pero nuevamente, agradezco que pueda hacerlo), no cita fuentes, sus datos son muy superiores en inglés sobre otros idiomas y obviamente no puedo controlar mi hogar inteligente o agregar eventos a mi calendario, entre otras restricciones.

Lo que me gustaría ver es un equivalente de Google. Llámalo Google Bard o Assistant 2.0 si quieres, pero así es como imagino mis interacciones de voz con él:

  • Debería poder manejar las mismas solicitudes que la versión actual (hogar inteligente, conversiones, recordatorios, calendario, etc.).
  • También debería ofrecer una IA de lenguaje natural más inteligente que sintetice contenido a través de múltiples fuentes de la web y tenga en cuenta cualquier restricción o parámetro por el cual lo limite.
  • En aras de la brevedad y la inmediatez, sus respuestas no deben mencionar en voz alta los nombres de las fuentes y deben limitarse a una oración (a menos que se indique lo contrario). Pero debería poder pedirle más detalles y explicaciones más largas.
  • Y en aras de la precisión y el aprendizaje adicional, siempre debe enviar una notificación a mi teléfono con la respuesta dada, las fuentes utilizadas y una opción para tocar para realizar una búsqueda exhaustiva y obtener más información.
  • También debería poder controlarlo y limitar su uso a fuentes específicas para evitar contenido que considero de baja calidad o inexacto.

Este es el tipo de evolución de IA de asistente de voz que respaldaría y comenzaría a usar. Solo el tiempo dirá si Google tomará las cosas de esta manera o tomará una ruta diferente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *