Cell

Cell es una arquitectura de microprocesador^[1] desarrollada conjuntamente por Sony Computer Entertainment, Toshiba, e IBM, en una alianza conocida con el nombre de “STI”.^[2] El diseño de arquitectura y su primera implementación se llevaron a cabo en el STI Design Center de Austin, Texas, durante un periodo total de cuatro años que comenzó en marzo de 2001, empleando un presupuesto de 400 millones de dólares según IBM.^[3]

Cell es la abreviatura de Cell Broadband Engine Architecture (“arquitectura de motor Cell de banda ancha”), conocida también como CBEA por sus siglas al completo o Cell BE. Cell emplea una combinación de la arquitectura de núcleo PowerPC, de propósito general y medianas prestaciones, con elementos coprocesadores^[4] en cascada, los cuales aceleran notablemente aplicaciones de procesado de vectores y multimedia, así como otras formas de computación dedicada.^[4]

La primera gran aplicación comercial del Cell fue la videoconsola PlayStation 3 de Sony. También podemos encontrar este procesador en servidores duales Cell, blade (tipo de servidor autocontenido) Cell en configuración dual, tarjetas aceleradoras PCI-Express y adaptadores de televisión de alta definición.

Características únicas como el subsistema de memoria XDR de RAMBUS y el bus de interconexión de elementos (Element Interconnect Bus, EIB)^[5] parece que posicionan el Cell de manera ventajosa en el empleo de aplicaciones futuras en el campo de la supercomputación, donde se sacaría provecho de la habilidad del procesador para manejar núcleos de coma flotante. IBM ha anunciado planes para incorporar procesadores Cell como tarjetas de expansión en sus mainframes IBM System z9, para que de este modo puedan ser empleados como servidores en juegos de rol multijugador en línea masivos (MMORPGs).^[6]

En noviembre de 2006, David A. Bader, del Instituto Tecnológico de Georgia fue escogido por Sony, Toshiba e IBM de entre más de una docena de universidades para dirigir el primer Centro STI de expertos para el procesador Cell (STI Center of Competence for the Cell Processor).^[7]^[8]^[9] Esta alianza tiene por objetivo crear una comunidad de programadores y ampliar el apoyo de la industria al procesador Cell.^[7]^[8] Existe un vídeo tutorial sobre cómo programar el Cell a disposición del público.^[10]

En el año 2000, Sony Computer Entertainment, Toshiba Corporation, e IBM formaron una alianza (STI) para diseñar y manufacturar el procesador. El centro de diseño STI (STI Design Center) abrió sus puertas en marzo de 2001.^[11] El Cell estuvo en fase de diseño durante cuatro años, empleando versiones mejoradas de las herramientas de diseño usadas con el procesador POWER4. Alrededor de 400 ingenieros de las tres compañías trabajaron en Austin, con el estrecho apoyo de once de los centros de diseño de IBM.^[11]

Durante este periodo, IBM registró diversas patentes relacionadas con la arquitectura Cell, el proceso de fabricación y el entorno software. La primera versión de la patente del Broadband Engine mostraba un encapsulado de chip conteniendo cuatro “elementos de procesamiento” (Processing Elements), lo cual era la descripción en la patente de lo que ahora se conoce como “elementos power de proceso” (Power Processing Element). Cada elemento del proceso contenía 8 procesadores aritméticos, designados como SPEs en el actual chip Broadband Engine. Dicho encapsulamiento se especula que habitualmente poseía una velocidad de reloj de 4 GHz, con 32 unidades de procesamiento aritmético que proporcionaban un total de 32 GFLOPS cada una. De este modo, el Broadband Engine mostraba un Teraflop de potencia de computación bruta.

En marzo de 2007, IBM hizo público que la versión en 65 nm del Cell BE se encontraba en producción en su planta de East Fishkill, Nueva York.^[12]^[13]

Nuevamente, durante el mes de febrero de 2008, IBM anunció su intención de comenzar la fabricación de procesadores Cell con tecnología de 45nm.^[14]

El 17 de mayo de 2005, Sony Computer Entertainment confirmó algunas de las especificaciones del procesador Cell que sería incluido dentro de la futura videoconsola PlayStation 3.^[15]^[16]^[17] En esta configuración del Cell, se incluiría un elemento power de proceso (PPE) en el núcleo, junto con 8 unidades sinergísticas de proceso (SPEs) en la oblea de silicio.^[17] En la PlayStation 3, las SPEss son 8 , y 1 se reserva para el sistema operativo, dejando con ello 7 SPEs libres para ejecutar el código de los juegos.^[18] La velocidad de reloj objetivo durante su lanzamiento son 3,4 GHz^[16] El primer diseño se fabricó usando tecnología de fabricación SOI de 90 nm, de cuya producción inicial se encargó la fábrica de IBM en East Fishkill.^[12]

La relación existente entre núcleos e hilos es una fuente usual de confusiones. El PPE es capaz de manejar dos hilos de ejecución y se muestra en software como tal, mientras que cada SPE activa se muestra como uno sólo. En la configuración de la PlayStation 3, tal y como la describe Sony, el procesador Cell proporciona nueve hilos de ejecución.

El 28 de junio de 2005, IBM y Mercury Computer Systems hicieron público un acuerdo para producir sistemas basados en Cell para aplicaciones embebidas tales como producción de imágenes médicas, inspección industrial, procesamiento aeroespacial, aplicaciones de defensa, de detección de seísmos y también para telecomunicaciones.^[19] Mercury ha comercializado desde entonces blades, servidores convencionales en armario y aceleradoras PCI-Express con procesadores Cell.^[19]

En el otoño de 2006, IBM lanzó el módulo blade QS20, empleando procesadores Cell BE dobles que proporcionaba un tremendo rendimiento en cierto tipo de aplicaciones, alcanzando un máximo de 410 GFLOPS por módulo. Los módulos QS22 integran supercomputador IBM Roadrunner, que entró en funcionamiento en el 2008. Mercury e IBM hacen uso del procesador Cell al completo, con sus 8 SPEs activas.

El procesador de banda ancha Cell (Cell Broadband Engine) –o más comúnmente Cell– es un microprocesador diseñado para cubrir el hueco existente entre procesadores convencionales de sistemas de escritorio (tales como las familias Athlon, Pentium y PowerPC) y los procesadores especializados de alto rendimiento, como los procesadores gráficos (GPUs) de NVIDIA y ATI Technologies. Su nombre completo indica las especificaciones de su uso, principalmente como componente en sistemas de distribución digital presentes y futuros. Como tal, puede ser empleado en pantallas y equipo de grabación de alta definición, así como en sistemas de entretenimiento informático para la era HDTV. De manera adicional, el procesador puede ser el apropiado para sistemas digitales de obtención de imagen (médicas, científicas, etc.), así como para simulaciones físicas (por ejemplo, modelado de ingeniería estructural o científico).

En un análisis simple, el procesador Cell se puede descomponer en cuatro partes:

Para alcanzar el alto rendimiento necesario para tareas matemáticas intensivas, tales como decodificar o codificar secuencias MPEG, generar o transformar datos 3D, o llevar a cabo análisis Fourier de datos, el procesador Cell aúna las SPE y el PPE por medio del EIB para proporcionarles acceso tanto a la memoria principal como a dispositivos externos de almacenamiento.

El PPE, que es capaz de ejecutar un sistema operativo convencional, posee el control sobre las SPEs y puede comenzar, interrumpir y programar procesos para que se ejecuten en las mismas. Tiene para este fin instrucciones adicionales relativas al control de las SPE. A pesar de presentar arquitecturas Turing completas, las SPE no son completamente autónomas y requieren que el PPE les envíe órdenes antes de poder ejecutar ninguna tarea de utilidad. Sin embargo, la mayor parte del “caballaje” proviene de las unidades sinergísticas de proceso.

El PPE y la arquitectura de bus incluyen varios modos de operación que proporcionan diferentes niveles de protección de memoria. Permitiendo que ciertas áreas de la memoria se protejan del acceso por parte de procesos específicos que se estén ejecutando en las SPE o en la PPE.

Tanto la arquitectura de la PPE como las de las SPE son de tipo RISC, con instrucciones de un tamaño de palabra fijo de 32 bits. El PPE contiene un juego de registros de propósito general de 64 bits (GPR), un registro de coma flotante de 64 bits (FPR) y un juego de registros de tipo Altivec de 128 bits. La SPE contiene solamente registros de 128 bits. Estos se pueden emplear para diversos tipos de datos escalares que pueden ir desde los 8 hasta los 128 bits de tamaño o, para cálculos SIMD, en una variedad de formatos enteros o de coma flotante.

Las direcciones de memoria tanto para el PPE como para las SPEs se expresan como valores de 64 bits, proporcionando un rango teórico de direcciones de 264 bytes (16.777.216 terabytes). En la práctica no todos esos bits se implementan por hardware. De todos modos, el espacio de direcciones es extremadamente grande. Las direcciones de almacenamiento locales de las SPE se expresan como palabras de 32 bits. En la documentación relativa al Cell, el término palabra siempre se refiere a 32 bits, doble palabra a 64 bits y cuádruple palabra a 128 bits.

En el 2008, IBM anunció una variante revisada del Cell llamada PowerXCell 8i, la cual está disponible en los Servidores Blade QS22 de IBM. El PowerXCell es fabricado con proceso de 65 nm, y agrega soporte de hasta 32 GB de memoria DDR3, así como también unas prestaciones dramáticamente mejoradas en coma flotante de doble precisión en los SPE con picos de alrededor de 12,8 GFLOPS hasta 102,4 GFLOPS total para ocho SPEs. La supercomputadora IBM Roadrunner, actualmente la segunda más rápida del mundo, consiste de 12.240 procesadores PowerXCell 8i, junto a 6.562 procesadores AMD Opteron.^[20]Junto al QS22 y la computadora RoadRunner, el procesador PowerXCell también está disponible como un acelerador en una tarjeta PCI-Express y se utiliza como el procesador de núcleo en el proyecto QPACE.

En algunos aspectos el sistema Cell se asemeja a los primeros diseños de Seymour Cray, pero a la inversa. El conocido CDC6600 empleaba un único procesador, muy rápido, para manejar los cálculos matemáticos, mientras que diez sistemas de menor velocidad ejecutaban programas más pequeños para así mantener a la memoria principal alimentada con datos.

El problema ha sido invertido en el Cell: leer datos ya no constituye el problema gracias a los complejos códigos empleados en la industria. Hoy en día el problema es decodificar los datos en un formato cada vez menos y menos comprimido lo más rápido posible.

Las modernas tarjetas gráficas tienen elementos muy parecidos a los de las SPEs, conocidos como unidades de sombreado, con una memoria de alta velocidad asociada. Unos programas, conocidos como “sombreadores” (shaders), se cargan en dichas unidades para procesar el flujo de datos de entrada que proporcionan estadios previos (posiblemente la CPU), de acuerdo con las operaciones requeridas.

Las principales diferencias se aprecian en que las SPEs del Cell son de propósito mucho más general que las unidades de sombreado, y la habilidad de encadenar bajo el control de un programa varias SPEs ofrece una flexibilidad mucho mayor, permitiendo que el Cell maneje gráficos, sonido o cualquier otra carga de trabajo.

Aunque el integrado Cell puede presentar diversas configuraciones, la más básica es un chip multinúcleo compuesto de un “elemento Power de proceso" (Power Processor Element, PPE), también llamado a veces “elemento de proceso” (PE); y varias “unidades sinergísticas de procesamiento” (Synergistic Processing Elements, SPE).^[21]El PPE y las SPEs están interconectadas entre sí mediante un bus interno de alta velocidad denominado “bus de interconexión de elementos” (Element Interconnect Bus, EIB).

Debido a la naturaleza de sus aplicaciones, el Cell está optimizado para la computación de datos de coma flotante de precisión simple. Las SPEs son capaces de ejecutar cálculos de doble precisión, pero a cambio de una penalización notable en el rendimiento. Sin embargo, existen modos de solucionar esto en el software por medio del empleo de refinamientos de tipo iterativo, lo que significa que los valores sólo serán calculados en doble precisión cuando sea necesario. Jack Dongarra y su equipo han hecho una demostración en público en la que un Cell a 3,2 GHz con 8 SPEs proporcionaba un rendimiento igual a 100 GFLOPS procesando una matriz estándar Linpack 4096x4096 con datos de doble precisión

El PPE es un núcleo de dos vías multihilo basado en arquitectura Power que actúa como controlador para las 8 SPEs, que se ocupan de la mayor parte de la carga de computación. El PPE trabaja con sistemas operativos convencionales debido a su similitud con otros procesadores Power PC de 64 bit, mientras que las SPEs están diseñadas para la ejecución de código vectorizado en coma flotante.

El PPE contiene instrucciones de 32 KB y memoria caché de nivel 1 de 32 KB, así como una caché de 512 KB nivel 2. Adicionalmente, IBM ha incorporado una unidad Altivec,^[22] la cual se encuentra configurada para procesar datos de coma flotante en doble precisión mediante pipelines.

Cada PPU puede completar dos operaciones de doble precisión por ciclo de reloj, lo cual se traduce en un rendimiento de 6,4 GFLOPS a 3,2 GHZ.^[23]

Cada SPE se compone de una “unidad sinergística de proceso” (Synergistic Processing Unit, SPU) y una “controladora de flujo de memoria” (Memory Flow Controller, MFC, DMA, MMU, o bus interface).^[24]Una SPE es un procesador RISC con una organización SIMD de 128 bits preparada para ejecutar instrucciones de precisión doble o sencilla.^[22]^[25]^[26] En la generación actual de Cell, cada SPE contiene 256 KB de SRAM embebida, para almacenamiento de instrucciones y datos, denominada “almacenamiento local” (no confundir con “memoria local”, que en la documentación de Sony se corresponde con la VRAM), visible para la PPE y que puede ser direccionada directamente por software. Cada SPE soporta hasta 4 GB de memoria de almacenamiento local.

El almacenamiento local no opera como la caché de una CPU convencional, ya que no es ni transparente al software ni contiene estructuras para la predicción de los datos a cargar. Las SPEs contienen una línea de registros de 128 bits con 128 entradas que mide 14,5 mm² con la tecnología de fabricación de 90 nm. La SPE puede realizar operaciones con 16 enteros de 8 bits, 8 de 16 bits, 4 de 32 bits o bien 4 números de coma flotante en precisión simple en un solo ciclo de reloj, así como realizar una operación de memoria. Obsérvese que la SPU no puede direccionar memoria del sistema directamente: las direcciones virtuales de 64 bits formadas en la SPU han de ser transmitidas a la unidad de control de flujo de memoria (MFC) para ejecutar una operación DMS dentro del espacio de memoria del sistema.

En un escenario de uso típico, el sistema cargará pequeños programas en las SPEs (parecidos a hilos), encadenándolas juntas de manera que cada una se haga cargo de un pequeño paso en una operación compleja. Por ejemplo, un decodificador de sobremesa podría cargar programas para leer un DVD, decodificar audio y vídeo y control de pantalla; y los datos serían transmitidos de SPE a SPE hasta que finalmente alcanzaran la televisión. Otra posibilidad consiste en dividir los datos de entrada y poner a operar a las SPEs en la misma tarea en paralelo. A 3,2 GHZ, cada SPE proporciona un rendimiento teórico de 25,6 GFLOPS en datos de precisión simple.

Comparado con un computador personal moderno, el mayor rendimiento relativo de un procesador Cell en coma flotante parece dejar en ridículo las capacidades de unidades SIMD en procesadores de sobremesa como el Pentium 4 y el Athlon 64. Sin embargo, comparar tan sólo las capacidades en coma flotante de un sistema es una manera de efectuar mediciones unidimensional y fuertemente ligado a ciertas aplicaciones. A diferencia de un procesador Cell, las CPUs de escritorio están mejor capacitadas para ejecutar software de propósito general ejecutado habitualmente en computadores personales. Además de ejecutar varias instrucciones por ciclo de reloj, los procesadores de Intel y AMD proveen predicción de bifurcaciones. El Cell se diseñó para compensar esto con la ayuda de su compilador, en el que se crean instrucciones para la preparación de bifurcaciones. Para datos en precisión doble, usualmente empleados en computadores personales, el rendimiento del Cell decrece considerablemente, pero aún alcanza los 12,8 GFLOPS.^[27]

Pruebas recientes realizadas por IBM muestran que las SPEs pueden alcanzar el 98% de su máximo teórico empleando multiplicación de matrices paralelas.^[23]

Toshiba ha desarrollado un coprocesador operado por cuatro SPEs y ningún PPE, llamado SpursEngine, que está diseñado para acelerar 3D y efectos de películas en electrónica de consumo.

El EIB es un bus de comunicaciones interno del procesador Cell que interconecta los diversos elementos de sistema integrados en el chip: el procesador PPE, el controlador de memoria (MIC), los ocho coprocesadores SPE y las dos interfaces externas I/O del chip, formando un total de 12 participantes. El EIB incluye una unidad de asignación que funciona como un conjunto de semáforos. En algunos de los documentos de IBM los participantes del EIB son denominados “unidades”.

Actualmente, el EIB se implementa como un anillo circular compuesto de 4 canales unidireccionales de 16 Bytes que rotan en sentido contrario a las agujas del reloj por parejas. Cuando los patrones del tráfico los permiten, cada canal puede transmitir hasta un máximo de 3 transacciones de forma concurrente. Dado que el EIB funciona a la mitad de velocidad del reloj del sistema, el rendimiento efectivo son 16 bytes cada dos ciclos de reloj. Con tres transacciones activas en cada uno de los cuatro anillos, esto es, con una concurrencia máxima, el pico máximo instantáneo en ancho de banda del EIB es de 96 bytes por ciclo de reloj (12 transacciones simultáneas*16 bytes/2 ciclos de reloj). Aun cuando este valor es normalmente citado por IBM resulta irreal escalar este número por la velocidad del procesador. La unidad de asignación impone restricciones adicionales, las cuales se discuten más abajo en la sección asignación de ancho de banda.

David Krolak, Ingeniero Jefe de IBM y director de diseño del EIB, explica el modelo de concurrencia:^[28]

Cada uno de los participantes en el EIB posee un puerto de lectura de 16 bytes y otro de escritura de 16 bytes. El límite para cada participante individual es el de leer y escribir a una velocidad de 16 bytes por ciclo de reloj (por simplicidad muchas veces se indican 8 bytes por ciclo de reloj). Téngase en cuenta que cada SPU contiene una cola de administración DMA dedicada capaz de planificar grandes secuencias de transacciones hacia diversos puntos de destino sin interferir con los cálculos que la SPU esté llevando a cabo. Estas colas DMA pueden ser manejadas tanto de manera local como remota, proporcionando una flexibilidad adicional en el modelo de control.

Los datos circulan por un canal EIB en el sentido de las agujas del reloj alrededor del anillo. Dado que existen doce participantes, el número total de pasos alrededor del canal de vuelta al origen son doce. Seis pasos es la distancia máxima entre cualquier par de participantes. A un canal EIB no se le permite comunicar datos que requieran más de seis pasos. Este tipo de datos habrá de tomar la ruta más corta en la otra dirección. El número de pasos implicados en enviar un paquete tiene poco impacto en la latencia de transferencia: la velocidad de reloj que controla todos los pasos es muy rápida con relación a cualquier otra consideración. Sin embargo, distancias de comunicación más largas sí que son perjudiciales para el rendimiento general del EIB, dado que reducen la concurrencia disponible.

A pesar del deseo original de IBM de implementar el EIB como un conmutador (crossbar) más potente, la configuración circular que adoptaron para economizar recursos en muy raras ocasiones representa un factor limitador en el rendimiento del chip Cell como un todo. En el peor de los casos, el programador ha de tener un cuidado extra a la hora de planificar patrones de comunicación allí donde el EIB es capaz de funcionar con altos niveles de participación.

David Krolak explica:^[28]

A la hora de citar cifras de rendimiento, asumiremos un procesador Cell corriendo a 3,2 GHz, la más frecuentemente citada. A esta frecuencia de reloj cada canal transmite a un ritmo de 25,6 GB/s. Contemplando el EIB aisladamente de los elementos que interconecta, alcanzar doce transacciones simultáneas con este ratio de transferencia arrojaría un ancho de banda teórico de 207,2 GB/s. Basándose en esta perspectiva muchas de las publicaciones de IBM describen el ancho de banda disponible en el EIB como “mayor de 300 GB/s”. Este número refleja el pico instantáneo de ancho de banda del EIB escalado por la frecuencia del procesador.^[29]

Sin embargo, otras restricciones técnicas se ven involucradas en el mecanismo de arbitraje para los paquetes que son aceptados en el bus. Como explica The IBM Systems Performance Group:^[23]

Esta cita representa aparentemente la mayor revelación pública por parte de IBM de este mecanismo y su impacto. La unidad de arbitraje del EIB, el mecanismo de vigilancia y la generación de interrupciones en segmentos o los fallos de traducción de página no están bien descritos en los juegos de documentación pública de IBM.

En la práctica el ancho de banda efectivo del EIB puede también estar limitado por los participantes involucrados en el anillo. Mientras que cada uno de los nueve núcleos de proceso puede mantener una velocidad de lectura y escritura de 25,6 GB/s de manera simultánea, el adaptador de controladora de memoria (memory interface controller , MIC) está sujeto a un par de canales de memoria XDR que permiten un tráfico máximo de 25,6 GB/s para escrituras y lecturas combinadas; y las dos controladoras de E/S, según aparece en la documentación, soportan una velocidad máxima combinada de entrada de 25,6 GB/s y una velocidad máxima combinada de salida de 35 GB/s.

Para aumentar aún más la confusión, algunas publicaciones antiguas hablan del ancho de banda del EIB asumiendo un reloj de sistema de 4 GHz Este marco de referencia resulta en una cifra de ancho de banda instantáneo de 384 GB/s y en un valor de ancho de banda limitado por arbitraje de 256 Gb/s. El valor teórico de 204,8 GB/s, el más citado, es el mejor a tener en cuenta, considerando cualesquiera otros aspectos. El IBM Systems Performance Group ha realizado demostraciones donde se alcanzaban flujos de datos de 197 GB/s alrededor de las SPUs en un procesador Cell corriendo a 3,2 GHz, así que esta cifra es un indicador fiable también en la práctica.

Sony está actualmente trabajando en el desarrollo de una tecnología de interconexión óptica para su empleo como adaptador interno o entre dispositivos externos para varios tipos de sistemas de electrónica de consumo y de entretenimiento basados en Cell.

El procesador Cell contiene un macro XIO Rambus doble canal de nueva generación, que interconecta con memoria XDR Rambus. La controladora adaptadora de memoria (MIC) está separada del macro XIO y ha sido diseñada por IBM. El enlace XIO-XDR corre a 3,2 GB/s en cada pin. Dos canales de 32 bits pueden proporcionar un máximo teórico de 25,6 GB/s.

El adaptador de sistema empleado en Cell, también un diseño Rambus, es conocido como FlexIO. La interface FlexIO está organizada en 12 carriles, siendo cada carril un canal de 8 bits punto a punto. Cinco caminos de 8 bits de ancho punto a punto son carriles de entrada al Cell, mientras que los siete restantes son de salida. Esto proporciona un ancho de banda máximo teórico de 62,4GB/s (36,5GB/s salida, 26GB/s entrada).

La interface FlexIO puede poseer una frecuencia de reloj independiente (típicamente, a 3,2 GHz). Cuatro canales de entrada y cuatro de salida se encargan de implementar la coherencia de memoria.

El 29 de agosto de 2007, IBM presentó el BladeCenter QS21. Generando unos 1,05 GFLOPS (Giga Floating Point Operations Per Second) medidos por vatio, con un rendimiento máximo de aproximadamente 460 GFLOPS, es una de las plataformas de computación más eficientes en consumo hasta el día de hoy. Un chasis de BladeCenter puede alcanzar 6,4 TFLOPS y alrededor de 25,8 TFLOPS en un armario 42U estándar. Empresas como Blizzard utilizan este tipo de servidores para alojar sus juegos en línea masivos.^[30]

La consola de videojuegos PlayStation 3 de Sony contiene la primera aplicación fabricada del procesador Cell, a una velocidad de reloj de 3,2 GHz, con siete de los ocho SPEs operacionales, lo que permite a Sony incrementar la producción en la fabricación del procesador. Solo seis de los siete SPEs son accesibles para los desarrolladores, mientras que el séptimo se reserva para el sistema operativo.^[18]

Se ha dicho que Toshiba está considerando la posibilidad de producir televisores de alta definición (HDTVs) haciendo uso del Cell. Ya han presentado un sistema que decodifica 48 flujos de MPEG-2 en definición estándar simultáneamente en una pantalla de 1920x1080.^[31]^[32] Esto permitiría al usuario elegir un canal de entre docenas de vídeos en miniatura presentados simultáneamente en pantalla.

La nueva supercomputadora planeada por IBM, el IBM Roadrunner, será un híbrido entre procesadores de propósito general CISC y procesadores Cell. Se dice que esta combinación producirá el primer computador capaz de operar a la velocidad del petaflop. Usará una versión actualizada del procesador Cell, fabricada con tecnología de 65 nm y con SPUs mejoradas que puedan manejar cálculos en doble precisión en los registros de 128 bits, alcanzando los 100 GFLOPS en doble precisión.^[33]^[34]

Los clústeres de consolas PlayStation 3 son una atractiva alternativa a los sistemas de gama alta basados en Blades Cell. El Innovative Computing Laboratory, cuyo grupo lidera Jack Dongarra, dentro del departamento de ciencia computacional de la Universidad de Tenesse, investigó dicha aplicación en profundidad.^[35] Terrasoft Solutions (desde 2008 Fixstars), implementando las investigaciones de Dongarra, vende clústeres de PlayStation 3 de 8 o 32 nodos, con Yellow Dog Linux preinstalado. Como publicó la revista Wired el 17 de octubre de 2007, una aplicación interesante del uso de PlayStation 3 en configuración de clúster fue implementada por el astrofísico Dr. Gaurav Khanna, que sustituyó el tiempo empleado en supercomputadores por ocho PlayStation 3.^[36] El laboratorio de computación bioquímica y biofísica de la Universidad de Pompeu Fabra en Barcelona construyó un sistema BOINC basado en el software CellMD (el primero diseñado específicamente para el Cell) llamado PS3GRID^[37] para computación compartida.

Con la ayuda del poder de cálculo de alrededor de medio millón de consolas PlayStation 3, el proyecto de computación distribuida Folding@Home ha sido reconocido por el libro Guiness de los Records como la más poderosa red de computación distribuida del mundo.^[38] El primer récord se obtuvo el 16 de septiembre de 2007, cuando el proyecto sobrepasaba un PETAFLOPS, lo que nunca había sido alcanzado antes por ninguna red de computación distribuida. Los esfuerzos colectivos permitieron que sólo las PS3 alcanzaran la marca del PETAFLOPS el 23 de septiembre de 2007. En comparación, la supercomputadora más potente del mundo, el IBM "Roadrunner", tiene una potencia de alrededor de 1,105 PETAFLOPS. Esto significa que la potencia de cálculo de Folding@Home es aproximadamente la misma que la de Roadrunner (aunque la interconexión entre CPUs en Roadrunner es mucho más rápida, hablamos del orden de millones de veces, que la media de velocidad en la red Folding@Home).

El 25 de abril de 2007 IBM anunció que comenzaría a integrar sus microprocesadores con arquitectura Cell Broadband Engine en su línea de mainframes.^[39]

La arquitectura Cell implanta novedades como son la estructura de coherencia de memoria, por la que IBM ha recibido varias patentes. Esta arquitectura enfatiza la relación rendimiento por vatio, da prioridad al ancho de banda sobre la latencia y favorece la máxima salida de cálculo sobre la simplicidad del código de programación. Debido a ello, Cell es considerado normalmente como un entorno difícil de desarrollo de software.^[40] IBM proporciona una plataforma de desarrollo completa basada en Linux para ayudar a los programadores a afrontar esta tarea.^[41] El factor principal para comprobar si Cell llega a desarrollar su potencial de rendimiento es la adaptación del software. A pesar de estas dificultades, los estudios indican que Cell sobresale en diversos tipos de computación científica.^[42]

Dada la naturaleza flexible del Cell, existen diversas posibilidades para el empleo de sus recursos, que no se limitan simplemente a diferentes paradigmas de computación.^[43]

El PPE mantiene una cola de trabajo, planifica trabajos en las SPEs y monitoriza los progresos. Cada SPE ejecuta un mini núcleo cuyo trabajo consiste en recoger un trabajo, ejecutarlo y sincronizarlo con el PPE.

El núcleo y la planificación se distribuye entre los SPEs. Las tareas se sincronizan empleando semáforos o multitexes tal y como ocurre en sistemas operativos convencionales. Las tareas listas para su ejecución esperan en una cola a que las SPE las ejecute. Las SPE emplean memoria compartida para todas las tareas en esta configuración.

Cada SPE ejecuta un programa determinado. Los datos provienen de un flujo de entrada y son enviados a las SPEs. Cuando una SPE ha concluido el procesado, los datos de salida son enviados a un flujo de salida. Esto proporciona una arquitectura flexible y potente para el procesado de flujos y permite planificar explícitamente cada SPE por separado. Otros procesadores son también capaces de ejecutar tareas de procesado de flujos (streaming), pero se ven limitados por el tipo de núcleo cargado.

Existe una aplicación de computación distribuida BOINC activa en https://web.archive.org/web/20171217224351/http://www.ps3grid.net/PS3GRID/. Se dedica enteramente a diversos tipos de cálculos biológicos que sólo se pueden completar con éxito mediante microprocesadores corriendo en paralelo.

Una estrategia basada en el software Open Source fue asumida para acelerar el desarrollo de un “ecosistema” Cell BE y para proporcionar un entorno en el que desarrollar aplicaciones Cell.^[44] En 2005, los desarrolladores de IBM enviaron parches habilitando el soporte de Cell para su inclusión en el núcleo Linux.^[45] Anrd Bergmann (uno de los desarrolladores de estos parches) también describió la arquitectura Cell basada en Linux en el LinuxTag de 2005.^[46]

Tanto el PPE como las SPEs se pueden programar en C/C++ empleando una API común que proporcionan librerías.

Terra Soft Solutions suministra Yellow Dog Linux tanto para sistemas Cell IBM como para Mercury, así como para la PlayStation3.^[47] Terra Soft se ha aliado estratégicamente con Mercury para suministrar el paquete de soporte LinuxBoard para Cell, además de apoyo y desarrollo de aplicaciones software en varias otras plataformas Cell, incluyendo el IBM BladeCenter JS21, el Cell QSQ20 y las soluciones de Mercury.^[48] Terra Soft mantiene asimismo la suite de construcción y administración de clústeres Y-HPC (High Performance Computing) y las herramientas de secuenciación de genes Y-Bio. Y-Bio está construida sobre el estándar de administración de paquetes Linux RPM y ofrece herramientas que ayudan a los investigadores bioinformáticos a llevar a cabo su trabajo con mayor eficiencia.^[49] IBM ha desarrollado un pseudo sistema de archivos para Linux denominado “SPufs”, el cual simplifica el acceso y uso de los recursos de las SPEs. IBM mantiene actualmente un núcleo Linux y adaptaciones GDB, mientras que Sony mantiene la cadena de herramientas GNU (GCC, binutils...).^[50]

En noviembre de 2005 IBM lanzó en su sitio web el kit de desarrollo de software para CBE versión 1.0 (Cell Broadband Engine (CBE) Software Development Kit Version 1.0), consistente en un simulador y herramientas varias. Versiones de desarrollo del último núcleo y herramientas para Fedora Core 5 se pueden encontrar en el sitio web del Centro de Supercomputación de Barcelona.^[51]

En agosto de 2007, Mercury Computer Systems lanzó un kit de desarrollo de software para computación de alto rendimiento destinado a la PlayStation 3.^[52]

Con la salida de la versión 2.6.16 del núcleo el 20 de marzo de 2006 el kernel Linux proporcionaba soporte oficial para el procesador Cell.^[53]