Grandes modelos de lenguaje pueden predecir resultados de estudios conductuales complejos

Un estudio publicado el 25 de septiembre de 2024 en la página web del Royal Society Publishing, liderado por Steffen Lippert y coautorizado por Anna Dreber, Magnus Johannesson, Thomas Pleiffer y otros, exploró si los grandes modelos de lenguaje (LLMs) como GPT-3.5 y GPT-4 pueden predecir resultados de estudios científicos complejos sobre comportamiento. El estudio buscaba probar a los LLMs en un estudio existente basado en la expresión emocional en entornos profesionales. Esta temática es fundamental para la expresión de sentimiento de AI, a menudo llena de juicios o sesgos implícitos basados en género. Los investigadores pidieron a los modelos de lenguaje que predijeran cómo se percibirían hombres y mujeres al expresar emociones en diferentes situaciones profesionales. El estudio involucró a 7,665 participantes de 23 países con 27 escenarios diferentes, incluyendo videos, imágenes y historias ficticias para representar estas situaciones. Los participantes luego calificaron a los hombres y mujeres en seis características: competencia, cálida, asertividad, dominancia, atractivo y estatus social. A partir de estas calificaciones, los investigadores identificaron 24 efectos específicos que distinguen entre las expresiones emocionales masculinas y femeninas. Los LLMs luego se les pidió que predijeran las percepciones de los participantes en función de estas características. Es aquí donde las cosas se vuelven asombrosas. GPT-3.5 tuvo lagunas significativas, mostrando solo una correlación de 0.07 entre sus predicciones y resultados reales. Por otro lado, GPT-4 produjo resultados impresionantes, logrando una correlación de 0.89. Los datos también tomaron en cuenta las juicios humanos expertos, que mostraron una correlación de 0.87 en el mismo estudio. Un ejemplo de esto es cuando un individuo expresa tristeza en un entorno profesional. Uno podría esperar ser juzgado como menos competente por los humanos pero más por GPT-3.5 en comparación con las mujeres, que a menudo se perciben como más pasivas o sumisas. Esto destaca el impacto de la sesgo y estereotipos de género sobre las percepciones humanas. A diferencia de eso, los LLMs lucharon para equilibrar sus estimaciones y proporcionar una base más realista. El segundo experimento exploró si la colaboración entre humanos y máquinas podría mejorar las predicciones utilizando GPT-4. 226 estudiantes fueron divididos en dos grupos: uno que utilizó el modelo de lenguaje de GPT-4 y otro que solo utilizó internet. Los participantes que utilizaron GPT-4 mostraron una mayor precisión en sus predicciones, con un descenso de errores desde 0.43 a 0.48. Su correlación también aumentó desde 0.30 hasta 0.48 al usar el AI. El grupo que solo se basaba en internet fue capaz de reducir su tasa de errores, aunque menos significativamente. El estudio concluye que los humanos pueden mejorar grandemente sus resultados en estudios científicos complejos sobre comportamiento, incluso aquellos sin experiencia en el campo. Esto abre prometedores prospectos para el uso futuro de AI, incluyendo la diagnóstico de cáncer. El estudio está disponible en la página web del Royal Society en https://royalsocietypublishing.org/content/11/240682.

Una nueva estudio publicado el 25 de septiembre de 2024 en el sitio web de la Royal Society Publishing dirigida por Steffen Lippert y co-escrita con otros investigadores como Anna Dreber, Magnus Johannesson y Thomas Pleiffer, explora si los Grandes Modelos de Lenguaje (LLM), como GPT-3.5 y GPT-4, pueden predecir los resultados de investigaciones complejas en ciencias comportamentales. La primera experiencia busca probar a los LLM sobre un estudio existente basado en la expresión de la ira al trabajo. Este tema fue elegido porque es fundamentalmente complejo para una IA y a menudo está lleno de juicios implícitos o sesgos según el género. Los investigadores pidieron a los modelos de lenguaje que predijeran cómo se perciben a los hombres y las mujeres cuando expresan ira en situaciones profesionales. El estudio incluyó a 7,665 participantes de 23 países diferentes. Los investigadores crearon 27 escenarios diferentes, incluidos diversos medios como videos, cómics y historias fictivas para representar esas famosas situaciones donde un hombre o una mujer expresa ira, tristeza o neutralidad. Los participantes luego evaluaron a los hombres y las mujeres en seis criterios: habilidades, calidez, fuera de control, dominancia, asertividad y estatus social otorgado. De estos criterios se derivaron 24 efectos específicos, que son las diferencias entre hombres y mujeres según su expresión emocional. Los investigadores pidieron a GPT-3.5 y GPT-4 que predijeran los resultados es decir la percepción de los participantes según esos criterios. Es allí donde se vuelve verdaderamente fascinante. GPT-3.5 tuvo lagunas significativas, mostrando una correlación de solo 0,07 entre sus predicciones y los resultados reales. GPT-4, por otro lado, mostró resultados impresionantes, logrando una correlación de 0,89. Las predicciones de 119 expertos humanos habían mostrado una correlación de 0,87 en la misma investigación. Un hombre está enojado en una reunión. Se espera que los participantes juzguen al hombre como dominante y competente. Pero pongamos a una mujer en la misma situación. Entonces esperamos que ella sea juzgada menos competente o incluso fuera de control. Esto se debe a sesgos de pensamiento y prejuicios. Los humanos confrontados con esta situación sobrestimaron el género, pensando que las mujeres serían sistemáticamente evaluadas negativamente. Las IA en la misma situación lograron equilibrar sus estimaciones y proporcionar una base más realista. La segunda experiencia consistió en ver si una colaboración hombre-máquina podría mejorar las predicciones humanas en comparación con investigaciones complejas de comportamiento utilizando GPT-4. Para ello, 226 estudiantes participaron en dos grupos distintos. Uno podía utilizar el modelo de lenguaje, el otro solo Internet. Los participantes que utilizaron GPT-4 mejoraron la precisión de sus predicciones, con un índice de errores que disminuyó de 0,27 a 0,23. Su correlación pasó de 0,43 a 0,48 después de haber utilizado la IA. Los que solo utilizaron Internet también pudieron reducir su índice de errores, aunque menos significativamente, pasando de 0,30 a 0,28. Los resultados de esta investigación muestran que los humanos pueden mejorar considerablemente sus resultados en investigaciones complejas de comportamiento, incluso si no son expertos en el campo. La IA tiene así un futuro prometedor aquí también, al igual que en el diagnóstico del cáncer, sobre el cual también hemos tratado. El estudio está disponible en el sitio web de la Royal Society Artículo completo aquí.

Los modelos de lenguaje avanzados (LLM) se han probado en un estudio científico del comportamiento complejo para explorar su capacidad para predecir resultados. El estudio, publicado en la Royal Society Publishing, utilizó GPT-3.5 y GPT-4 para analizar las emociones humanas en entornos profesionales. Los hallazgos muestran que GPT-4 superó a GPT-3.5, con una correlación fuerte de 0,89 entre sus predicciones y los resultados reales. Sin embargo, los expertos humanos tuvieron una correlación similar de 0,87. El estudio destaca el potencial de los LLM para predecir resultados de estudios del comportamiento complejo, pero también señala que los humanos pueden mejorar significativamente sus resultados colaborando con la Inteligencia Artificial. Esto tiene implicaciones en campos como la diagnóstico del cáncer, donde la IA puede ayudar a tomar decisiones humanas.


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *