Esta supercomputadora de IA tiene 13.5 millones de núcleos y se construyó en solo tres días

Nodo de origen: 1760183

La inteligencia artificial está en una lágrima. Las máquinas pueden hablar, escribir, jugar y generar imágenes, videos y música originales. Pero a medida que han crecido las capacidades de la IA, también lo han hecho sus algoritmos.

Hace una década, los algoritmos de aprendizaje automático dependía de decenas de millones de conexiones internaso parámetros. Los algoritmos de hoy alcanzan regularmente cientos de miles de millones y incluso trillones de parámetros. Los investigadores dicen que la ampliación aún produce mejoras en el rendimiento, y los modelos con decenas de billones de parámetros pueden llegar en poco tiempo.

Para entrenar modelos tan grandes, necesitas computadoras poderosas. Mientras que la IA a principios de la década de 2010 se ejecutaba en un puñado de unidades de procesamiento de gráficos (chips de computadora que sobresalen en el procesamiento paralelo crucial para la IA), las necesidades informáticas han crecido exponencialmente, y los mejores modelos ahora requieren cientos o miles. IA abierta, Microsoft, Meta, y otros están construyendo supercomputadoras dedicadas para manejar la tarea, y dicen que estas máquinas de IA se encuentran entre las más rápidas del planeta.

Pero incluso cuando las GPU han sido cruciales para escalar la IA (el A100 de Nvidia, por ejemplo, sigue siendo uno de los chips más rápidos y más utilizados en los clústeres de IA), en los últimos años han aparecido alternativas más extrañas diseñadas específicamente para la IA.

Cerebras ofrece una de esas alternativas.

Hacer una comida de IA

Del tamaño de un plato de comida (alrededor de 8.5 pulgadas de lado), el motor a escala de obleas de la compañía es el chip de silicio mas grande del mundo, con 2.6 billones de transistores y 850,000 núcleos grabados en una sola oblea de silicio. Cada Wafer Scale Engine sirve como el corazón de la computadora CS-2 de la compañía.

Solo, el CS-2 es una bestia, pero el año pasado Cerebras dio a conocer un plan para vincular CS-2 junto con un sistema de memoria externa llamado MemoryX y un sistema para conectar CS-2 llamado SwarmX. La compañía dijo que la nueva tecnología podría vincular hasta 192 chips y entrenar modelos dos órdenes de magnitud más grandes que las IA más grandes y avanzadas de la actualidad.

“La industria está superando los modelos de 1 billón de parámetros, y estamos extendiendo ese límite en dos órdenes de magnitud, habilitando redes neuronales a escala cerebral con 120 billones de parámetros”, dijo el CEO y cofundador de Cerebras, Andrew Feldman.

En ese momento, todo esto era teórico. Pero la semana pasada, el compañía anunciada conectaron 16 CS-2 en una supercomputadora de inteligencia artificial de clase mundial.

Conoce a Andrómeda

La nueva máquina, llamada Andromeda, tiene 13.5 millones de núcleos capaces de alcanzar velocidades superiores a un exaflop (un quintillón de operaciones por segundo) con una precisión media de 16 bits. Debido al chip único en su núcleo, Andromeda no se compara fácilmente con las supercomputadoras que se ejecutan en CPU y GPU más tradicionales, pero Feldman dijo alambre HPC Andrómeda es aproximadamente equivalente a la supercomputadora Polaris del Laboratorio Nacional de Argonne, que se clasifica 17º más rápido del mundo, según la última lista Top500.

Además del rendimiento, el rápido tiempo de construcción, el costo y el espacio físico de Andromeda son notables. Argonne comenzó a instalar Polaris en el verano de 2021, y la supercomputadora se puso en marcha aproximadamente un año después. Ocupa 40 bastidores, los gabinetes similares a archivadores que albergan componentes de supercomputadoras. En comparación, Andrómeda costó 35 millones de dólares, un precio modesto para una máquina de su potencia. sólo tres días para montar, y utiliza apenas 16 bastidores.

Cerebras probó el sistema entrenando cinco versiones del modelo de lenguaje grande GPT-3 de OpenAI, así como el código abierto GPT-J y GPT-NeoX de Eleuther AI. Y según Cerebras, quizás el hallazgo más importante es que Andromeda demostró lo que ellos llaman "escalado lineal casi perfecto" de las cargas de trabajo de IA para modelos de lenguaje grandes. En resumen, eso significa que a medida que se agregan CS-2 adicionales, los tiempos de entrenamiento disminuyen proporcionalmente.

Por lo general, dijo la compañía, a medida que agrega más chips, las ganancias de rendimiento disminuyen. El chip WSE de Cerebras, por otro lado, puede demostrar escalar de manera más eficiente porque sus 850,000 núcleos están conectados entre sí en la misma pieza de silicio. Además, cada núcleo tiene un módulo de memoria justo al lado. En conjunto, el chip reduce drásticamente la cantidad de tiempo dedicado al transporte de datos entre los núcleos y la memoria.

“El escalado lineal significa que cuando se pasa de uno a dos sistemas, el trabajo tarda la mitad de tiempo en completarse. Esa es una propiedad muy inusual en la computación”, dijo Feldman. alambre HPC. Y, dijo, puede escalar más allá de 16 sistemas conectados.

Más allá de las propias pruebas de Cerebras, los resultados de la escala lineal también se demostraron durante el trabajo en el Laboratorio Nacional de Argonne, donde los investigadores usaron Andromeda para entrenar el algoritmo de lenguaje grande GPT-3-XL en secuencias largas del genoma de Covid-19.

Por supuesto, aunque el sistema puede escalar más allá de 16 CS-2, queda por ver hasta qué punto persiste la escala lineal. Además, aún no sabemos cómo se comporta Cerebras frente a otros chips de IA. Los fabricantes de chips de IA como Nvidia e Intel han comenzado participar en evaluaciones comparativas periódicas de terceros por los gustos de MLperf. Cerebras aún no ha participado.

Espacio para ahorrar

Aún así, el enfoque parece estar labrándose su propio nicho en el mundo de la supercomputación, y el escalado continuo en IA de lenguaje grande es un caso de uso principal. De hecho, Feldman les dijo a Con conexión de cable el año pasado que la empresa ya estaba hablando con ingenieros de OpenAI, líder en modelos de lenguajes grandes. (El fundador de OpenAI, Sam Altman, también es inversor en Cerebras).

En su lanzamiento en 2020, el modelo de lenguaje grande GPT-3 de OpenAI cambió el juego tanto en términos de rendimiento como de tamaño. Con un peso de 175 mil millones de parámetros, era el modelo de IA más grande en ese momento y sorprendió a los investigadores con sus habilidades. Desde entonces, los modelos de lenguaje han llegado a billones de parámetros, y es posible que se presenten modelos más grandes. Hay rumores—solo eso, hasta ahora— que OpenAI lanzará GPT-4 en un futuro no muy lejano y será otro salto desde GPT-3. (Tendremos que esperar y ver en ese sentido).

Dicho esto, a pesar de sus capacidades, los modelos de lenguaje grande no son perfectos ni universalmente adorados. Sus fallas incluyen resultados que pueden ser falsos, sesgados y ofensivos. La Galáctica de Meta, entrenada en textos científicos, es un ejemplo reciente. A pesar de que se podría suponer que un conjunto de datos es menos propenso a la toxicidad que el entrenamiento en Internet abierto, el modelo fue provocado fácilmente para generar texto dañino e inexacto y se eliminó en solo tres días. Sigue siendo incierto si los investigadores pueden resolver las deficiencias de la IA del lenguaje.

Pero parece probable que la ampliación continúe hasta que se produzcan rendimientos decrecientes. El próximo salto podría estar a la vuelta de la esquina, y es posible que ya tengamos el hardware para hacerlo realidad.

Crédito de la imagen: Cerebras

Sello de tiempo:

Mas de Centro de Singularidad