Nuevo clasificador de IA para indicar texto escrito por IA

Reeditado por Platón

seguidores: 0

Estamos lanzando un clasificador capacitado para distinguir entre texto escrito por IA y escrito por humanos.

Hemos entrenado un clasificador para distinguir entre texto escrito por un humano y texto escrito por IA de una variedad de proveedores. Si bien es imposible detectar de manera confiable todo el texto escrito por IA, creemos que los buenos clasificadores pueden informar mitigaciones para afirmaciones falsas de que el texto generado por IA fue escrito por un ser humano: por ejemplo, ejecutar campañas de desinformación automatizadas, usar herramientas de IA para la deshonestidad académica y posicionar un chatbot de IA como un ser humano.

Nuestro clasificador no es totalmente fiable. En nuestras evaluaciones sobre un "conjunto de desafíos" de textos en inglés, nuestro clasificador identifica correctamente el 26 % del texto escrito por IA (verdaderos positivos) como "probablemente escrito por IA", mientras que etiqueta incorrectamente el texto escrito por humanos como 9 % escrito por IA. el tiempo (falsos positivos). La confiabilidad de nuestro clasificador generalmente mejora a medida que aumenta la longitud del texto de entrada. Comparado con nuestro clasificador publicado anteriormente, este nuevo clasificador es significativamente más confiable en texto de sistemas de IA más recientes.

Estamos haciendo que este clasificador esté disponible públicamente para obtener comentarios sobre si las herramientas imperfectas como esta son útiles. Nuestro trabajo sobre la detección de texto generado por IA continuará y esperamos compartir métodos mejorados en el futuro.

Pruebe nuestro clasificador de trabajo en progreso usted mismo:

Limitaciones

Nuestro clasificador tiene una serie de limitaciones importantes. No debe usarse como una herramienta principal para la toma de decisiones., sino como un complemento de otros métodos para determinar la fuente de un texto.

El clasificador es muy poco fiable en textos cortos (menos de 1,000 caracteres). Incluso los textos más largos a veces son etiquetados incorrectamente por el clasificador.
A veces, nuestro clasificador etiquetará de forma incorrecta pero segura el texto escrito por humanos como escrito por IA.
Recomendamos usar el clasificador solo para texto en inglés. Funciona significativamente peor en otros idiomas y no es confiable en el código.
El texto que es muy predecible no se puede identificar de forma fiable. Por ejemplo, es imposible predecir si una lista de los primeros 1,000 números primos fue escrita por IA o por humanos, porque la respuesta correcta es siempre la misma.
El texto escrito por IA se puede editar para evadir el clasificador. Los clasificadores como el nuestro se pueden actualizar y volver a entrenar en función de los ataques exitosos, pero no está claro si la detección tiene una ventaja a largo plazo.
Se sabe que los clasificadores basados en redes neuronales están mal calibrados fuera de sus datos de entrenamiento. Para entradas que son muy diferentes del texto en nuestro conjunto de entrenamiento, el clasificador a veces tiene mucha confianza en una predicción incorrecta.

Entrenando al clasificador

Nuestro clasificador es un modelo de lenguaje ajustado en un conjunto de datos de pares de texto escrito por humanos y texto escrito por IA sobre el mismo tema. Recopilamos este conjunto de datos de una variedad de fuentes que creemos que están escritas por humanos, como los datos previos al entrenamiento y las demostraciones humanas en las indicaciones enviadas a InstruirGPT. Dividimos cada texto en un aviso y una respuesta. En estas indicaciones, generamos respuestas de una variedad de diferentes modelos de lenguaje entrenados por nosotros y otras organizaciones. Para nuestra aplicación web, ajustamos el umbral de confianza para mantener la tasa de falsos positivos muy baja; en otras palabras, solo marcamos el texto como probablemente escrito por IA si el clasificador tiene mucha confianza.

Impacto en los educadores y solicitud de aportes

Reconocemos que identificar el texto escrito por IA ha sido un punto importante de discusión entre los educadores, e igualmente importante es reconocer los límites y los impactos de los clasificadores de texto generados por IA en el aula. Hemos desarrollado un recurso preliminar sobre el uso de ChatGPT para educadores, que describe algunos de los usos y las limitaciones y consideraciones asociadas. Si bien este recurso se centra en los educadores, esperamos que nuestro clasificador y las herramientas de clasificador asociadas tengan un impacto en los periodistas, los investigadores de información errónea y desinformación y otros grupos.

Estamos interactuando con educadores en los EE. UU. para aprender lo que están viendo en sus aulas y discutir las capacidades y limitaciones de ChatGPT, y continuaremos ampliando nuestro alcance a medida que aprendemos. Estas son conversaciones importantes para tener como parte de nuestra misión es implementar modelos de lenguaje grandes de manera segura, en contacto directo con las comunidades afectadas.

Si se ve afectado directamente por estos problemas (incluidos, entre otros, maestros, administradores, padres, estudiantes y proveedores de servicios educativos), envíenos sus comentarios utilizando este formulario. Retroalimentación directa sobre el recurso preliminar es útil, y también agradecemos cualquier recurso que los educadores estén desarrollando o hayan encontrado útil (por ejemplo, pautas de cursos, código de honor y actualizaciones de políticas, herramientas interactivas, programas de alfabetización de IA).