132 meneos
1954 clics
Graphcore dice tener el procesador más complejo del mundo: un chip con 59.400 millones de transistores y 1472 núcleos
Graphcore puede que no sea tan conocida y popular como otros fabricantes de procesadores como pueden ser Intel o NVIDIA. Esto se debe a que se centran especialmente en el ámbito de la inteligencia artificial. Para mejorar el desarrollo de estas tecnologías ha presentado su nuevo chip GC200. Dicen que se trata del procesador más complejo del mundo. En una arquitectura de 7 nm, el procesador GC200 integra en su interior hasta 1472 núcleos que permiten 8832 hilos paralelos separados. Para ello cuenta con 59.400 millones de transistores.
|
comentarios cerrados
Igual acaba yéndose a la máquina de café en vez de currar, pero es una opción que acabará por llegar.
www.youtube.com/watch?v=haVaaDLwWvI
Lo recomiendo.
Un caso tipico es tener una ingesta de una fuente y dejarlo en un bus de datos. Por ejemplo Kafka. En kafka puedes especificar que un topic tenga N particiones. Luego en Spark levantas N executor y cada executor coge datos de una partición, hace su trabajo y las ponen luego todas en común.
¿Es factible de una forma relativamente sencilla? Si. Pero esto no esta enfocado a un solo algoritmo, sino a super ordenadores que vayan a tirar muchos algoritmos muy masivos en el mismo cluster.
De todas formas yo no le veo sentido, para ser honesto, a dia de hoy las plataformas existentes escalan maravillosamente bien de forma horizontal. Es fácil comprar máquinas con 4 sockets de 40 nucleos cada una, y escalar horizontalmente. Esto te da mejor redundancia y si se te jode una máquina no se te cae tanto procesamiento de golpe.
Para optimizar ciertos algoritmos a nivel de paralelismo creo que es mejor solución usar una FPGA para casos muy concretos, que siempre van a dar mejor tiempo en ciertas tareas repetitivas facilmente paralelizables.
De hecho hadoop yarn (El orquestador de hadoop que corre los procesos de spark) ya está en la versión 3.0 contemplando el uso de FPGA's para acelerar los procesos.
Los procesadores de las tarjetas gráficas se basan en eso precisamente, en renderizar pixeles en paralelo. El machine learning tambien lo aprovecha muy bien.
Lo importante está en la optimización de la arquitectura, el nº de transistores no tiene utilidad real.
Nop, no es "lo mismo pero más rápido" es otra arquitectura y más que el numero bruto que es publi habría que ver como de eficiente es la capa de soppftware que tienen montada
Llámame prosaico.
para redes neuronales es similar, de hecho existen nuevos tipos de datos que bajan la precisión porque, al fin y al cabo, están haciendo una predicción y equivocarse un poco no pasa nada
www.youtube.com/watch?v=QY5YqqPzLmI Black dragon vs lockjaw battlebots 2019 episode 15
Así que más que del algoritmo en sí depende de cuán paralelizable es la tarea o el problema en cuestión.
Para que te hagas una idea el superordenador más potente que existe en el mundo ronda los 450 petaflops, por detrás la mayoría están entorno a 100.
Edit: 64000 procesadores, 16000 servidores, 16 exaflops