En 2004, Apple cambió la CPU de los portátiles de la serie Power de IBM a la serie Core de Intel porque la relación rendimiento-consumo de energía de la CPU de Intel superaba con creces la de IBM.
En 2020, Apple abandonó por completo a Intel y utilizó su propia CPU. De hecho, la razón es la misma que antes, porque la CPU que desarrollamos nosotros mismos es mucho mejor que la de Intel en términos de rendimiento y consumo de energía.
Pero, de hecho, la arquitectura de la CPU de la serie M1 de Apple es muy similar a la de la serie Intel Core y la serie AMD Zen3. Entonces, ¿por qué M1 es mucho más fuerte?
A continuación, compararé estas tres CPU típicas. Para reducir la carga de conferencias de todos, no repetiré los nombres completos de Intel Core y AMD Zen3, sino que solo hablaré de Intel y AMD.
Al ejecutar tareas, estas CPU siguen los cinco pasos de "buscar instrucciones - decodificar instrucciones - ejecutar instrucciones - leer memoria - escribir resultados". A continuación, hablemos de estas diferencias detalladas.
Antes de ejecutar instrucciones, el vínculo que afecta al rendimiento es la obtención de instrucciones. Esto corresponde al paso "aceptar instrucciones" que acabamos de mencionar. Las instrucciones recuperadas se colocarán en la caché de primer nivel, por lo que si la caché de primer nivel es lo suficientemente grande, ayudará a la CPU a mejorar el rendimiento.
En este paso, M1 ha superado ampliamente a Intel y AMD. El caché L1 del M1 es de 192 KB, que es 5 veces mayor que los 32 KB de Intel y AMD.
Una vez obtenida la instrucción, es necesario decodificarla. Esto se debe a que todas las instrucciones externas deben traducirse a un idioma que la CPU comprenda. Aquí, M1 tiene 8 decodificadores, Intel tiene 5 decodificadores y AMD tiene 4 decodificadores. Sólo podemos ver la diferencia en números.
Pero en realidad la brecha no es sólo cuantitativa. Porque en realidad las instrucciones que se pueden leer dentro de estas tres CPU son todas instrucciones llamadas RISC (Conjunto de instrucciones reducido). Estas instrucciones tienen una duración y un tiempo de ejecución fijos, pero no pueden ser demasiado complejas. Si desea completar acciones complejas, necesita acumular una gran cantidad de RISC.
Para distinguirla de las instrucciones antes de entrar al decodificador, cada instrucción después de pasar por el decodificador se denomina "microinstrucción".
¿Y cuáles son las instrucciones que se introducen en la CPU?
M1 de Apple, la entrada son instrucciones RISC. Para Intel y AMD, son las instrucciones X86. Esta es una instrucción completamente diferente de las instrucciones RISC. Se llaman CISC (Conjunto de instrucciones complejas). La longitud de esta instrucción y el tiempo de ejecución no son fijos, pero una instrucción puede realizar algunas tareas complejas sin apilar muchos bloques.
RISC y CISC son dos campos completamente diferentes. En las CPU Intel y AMD, también se necesita un programa para traducir CISC a RICS, por lo que el proceso de traducción naturalmente requiere energía y tiempo. En cuanto al M1 de Apple, la instrucción de entrada es RISC y el traductor genera RISC.
Quizás quieras preguntar, dado que la entrada y salida de Apple son todas RISC, ¿por qué es necesario traducirlo? Por la necesidad de estandarización. Pero este tipo de estandarización es un poco similar a traducir el chino tradicional al chino simplificado, que es relativamente simple. La traducción realizada por Intel y AMD en este paso es similar a la traducción del chino antiguo al chino simplificado, que es mucho más laboriosa. Entonces, en este paso, M1 ahorra mucha energía.
Antes de la ejecución, hay otro paso que es emitir instrucciones para la estandarización de la traducción. Durante el paso de inicio, M1 puede emitir 8 microinstrucciones a la vez, AMD puede emitir 6 a la vez e Intel puede emitir 4 a la vez. En otras palabras, bajo las mismas tareas y frecuencia, la cantidad de microinstrucciones emitidas por M1 es exactamente el doble que la de Intel.
Antes de ejecutar las microinstrucciones, hay otro paso para secuenciarlas. Debido a que es necesario ejecutar algunas instrucciones, es necesario esperar los resultados de los cálculos anteriores.
Por ejemplo, el préstamo dividido es un ejemplo típico. Por lo tanto, existe el fenómeno de que el orden de algunas microinstrucciones no se puede cambiar.
También hay muchas microinstrucciones que se ejecutan sin ningún orden en particular, siempre que los resultados se calculen lo antes posible.
Como resultado, las instrucciones que deben esperar el resultado del cálculo de requisitos previos pueden acumularse fácilmente en la cola. Esta área de cola se llama "búfer". Debido a que este búfer se utiliza para poner en cola microinstrucciones, también se le llama "búfer de reordenamiento".
Cuanto mayor sea el área, mejor. M1 puede ocupar el puesto 630 aquí, Intel puede ocupar el puesto 224 y AMD puede ocupar el puesto 256. El M1 tiene más del doble de tamaño que los otros dos modelos.
El siguiente paso es la parte de ejecución. Cuantas más instrucciones ejecute un trabajador y más rápido se vuelva, es menos probable que se convierta en un cuello de botella para el desempeño general. En las operaciones de punto flotante, que tienen el impacto más directo en el rendimiento actual, M1, Intel y AMD planifican la misma cantidad de recursos, que son similares a dos unidades de ejecución de 256 bits.
Por supuesto, además de las operaciones de punto flotante, esta unidad también es responsable de ejecutar operaciones con números enteros. Las operaciones con números enteros más las operaciones con coma flotante son todas operaciones de la CPU. La unidad que almacena temporalmente números enteros y partes de coma flotante, M1, también es más fuerte y tiene una estructura de 354 384, mientras que la de Intel es de 180 168 y la de AMD es de 192 168.
Entonces, aunque la ejecución de la unidad de ejecución es la misma, la parte de almacenamiento temporal (registro) es más grande, por lo que es más propicio para eliminar cuellos de botella.
La parte de ejecución está completa. En términos de caché L2, M1 ha planeado enormes recursos, y cada núcleo tiene 3 MB de caché L2. Este es el más grande en la historia del diseño de procesadores. Intel tiene 65438 0,25 MB por núcleo, AMD tiene 0,5 MB por núcleo.
El caché de segundo nivel es grande, por lo que al predecir qué instrucciones se usarán, se pueden hacer preparativos con anticipación, por lo que existe una alta probabilidad de que las instrucciones que se usarán a continuación se ingresen con anticipación. . Una vez utilizado, recuperarlo del caché es mucho más rápido que recuperarlo de la memoria. Hay una diferencia tan grande como si el equipo de emergencia viene desde abajo o desde tres cuadras de distancia.
Por supuesto, estar a tres cuadras también es importante. Porque, después de todo, todo lo que necesita usarse primero se almacena en la memoria, luego se mueve al caché y luego se envía a la CPU. El gran ancho de banda de la memoria también elimina los cuellos de botella.
Sin embargo, el M1 tiene un enfoque de la memoria completamente diferente. En el M1, no puedes tocar esas memorias, porque están colocadas debajo de la cubierta de hierro de la CPU y integradas con la CPU. ¿Y dónde está la memoria de una computadora normal? A unos 5-10 cm de distancia de la CPU, hay tarjetas de memoria que se pueden insertar una por una. Así surgieron las tarjetas de memoria. La mayor ventaja del M1 es la reducción de la latencia, que se reduce de los 70 ns de los ordenadores tradicionales a los 45 ns.
La diferencia en el ancho de banda de la memoria es aún mayor. M1 Ultra puede alcanzar los 800 GB/s, incluso M1 Pro y M1 tienen 200 GB, mientras que Intel y AMD solo pueden tener unos 50 GB/s-60 GB/s.
Así que en cada segundo en alta -Tareas de edición de vídeo de definición que implican decenas de GB de transmisión de datos en tiempo real, la eficiencia de procesamiento de los portátiles Apple es muy alta. Así que hoy en día, mientras la situación económica lo permita, la mayoría de los propietarios de vídeos UP definitivamente utilizarán los portátiles Apple para editar.
¿Qué determina el rendimiento de la CPU?
De hecho, si el rendimiento de la CPU es bueno o no, no se puede lograr confiando en un vínculo determinado. Debido a que el proceso informático es una línea de montaje, el cuello de botella en cualquier punto de la línea de montaje determina el rendimiento máximo de la CPU. La ventaja del M1 es que es mejor que la CPU tradicional y está integrado en todos los aspectos.
En el procesamiento de algunas tareas típicas de renderizado de imágenes (Cinebench R23), la potencia de núcleo completo del M1 es de 7800 puntos, mientras que el i9 12900K de Intel es de 13500 puntos. Aunque el rendimiento de la CPU de la máquina insignia de Intel es el 170% del M1, el consumo de energía es el 650% del M1. En conjunto, con el mismo rendimiento, la CPU de arquitectura M1 solo requiere entre 1/4 y 1/3 del consumo de energía de Intel.
Por lo tanto, el portátil Apple basado en M1 no requiere un adaptador de corriente y la duración de la batería está absolutamente garantizada para durar todo el día.
Esto es actualmente cada vez más imposible en los procesadores tradicionales.
Debido a que tanto Intel como AMD compiten por el mayor rendimiento, es imposible diseñar un diseño con un consumo de energía aceptable de manera pausada. Se debe exprimir hasta la última gota de rendimiento y, a veces, incluso se duplica el consumo de energía a cambio de un rendimiento. mejora de alrededor del 10%.
Esto lleva a otra cosa extraña. Si compra una computadora portátil con un procesador tradicional, habrá una diferencia de rendimiento del 30 al 40% cuando se conecta y desconecta.
Porque si el sistema sigue funcionando al máximo rendimiento cuando la alimentación de CA no está enchufada, la batería se agotará rápidamente y la experiencia del usuario será demasiado pobre. Por lo tanto, cuando solo queda batería, el sistema obligará a la CPU y a la GPU a funcionar a baja frecuencia y bajo voltaje. En este momento, el rendimiento se reduce considerablemente.
La CPU de Apple no tiene tal configuración en absoluto y el rendimiento es exactamente el mismo cuando se usa batería y energía.
¿Por qué son tan caras las CPU de Apple?
Hablando de eso, hemos estado hablando del M1 lanzado en 2020. De hecho, lo que más preocupa a todos es el M1 Ultra, que se lanzó la noche del 8 de marzo. Sin embargo, comprender M1 es muy importante para comprender M1 Ultra porque:
M1=8 CPU 8 GPU
m 1 Pro = 10 CPU 16 GPU
M1 Max =10 CPU 32 GPU
M1 Ultra=20 CPU 64 GPU
La cantidad de transistores de M1 es 1,6 mil millones y la cantidad de transistores de M1 Ultra es 11,4 mil millones, que es Más de 7 veces mayor que el M1, también es el primer chip del mundo con más de 10 mil millones de transistores. El M1 Ultra está construido utilizando la estructura básica del M1.
Primero hablemos de por qué la CPU de Apple es tan buena.
En primer lugar, porque tiene una buena relación calidad-precio. El coste de esta CPU es de varias a diez veces más caro que el de Intel y AMD. Según un análisis de la industria, el costo de fabricación del M1 Ultra es de alrededor de 350 dólares estadounidenses, mientras que el costo de las CPU de gama alta de Intel y AMD es de sólo unas pocas docenas de dólares estadounidenses.
Por supuesto Apple tiene ventajas técnicas, pero si el coste de una sola CPU se limita a un rango similar al de Intel y AMD, Apple sólo podrá alcanzar el nivel de Intel y AMD.
Pero ¿por qué Apple se atreve a fabricar una CPU tan cara?
La razón es que Apple no vende CPU, sino máquinas completas.
Si ganas dinero vendiendo CPU como Intel y AMD, solo el coste de fabricación será de 350 dólares. Si el costo de RD es de US$50/unidad, el costo total es de US$400 y el precio de venta es de al menos US$2.000. Hoy en día, el precio de los modelos de CPU más vendidos suele oscilar entre 200 y 400 dólares estadounidenses.
Por lo que ni Intel ni AMD planearán una arquitectura tan lujosa. Apple se atreve a hacer esto porque solo vende máquinas completas y el precio es muy alto, oscilando entre 5.000 y 8.000 dólares estadounidenses por unidad. Entonces no hay problema en distribuir el costo de $350 entre los componentes más críticos.
La segunda razón es que Apple puede reducir aún más los gastos de I+D.
La arquitectura M1 desarrollada se puede apilar continuamente, 2 veces, 3 veces, 7 veces, desde terminales móviles hasta computadoras portátiles, computadoras de escritorio y máquinas todo en uno, y es común a todas las plataformas. Sólo Apple puede hacer esto cuando un producto básico se utiliza a tan gran escala y puede transformarse en una variedad de productos ampliando su escala. Debido a que cada uno de los productos de Apple tiene más de 100 millones de usuarios, estas plataformas e incluso sistemas operativos están unificados.
Por supuesto, la CPU de Apple no es perfecta.
Por ejemplo, M1 Ultra en realidad sacrifica algunas ventajas en el consumo de energía y aumenta deliberadamente su tamaño para alcanzar a los últimos procesadores Core de 12.ª generación de Intel.
Por poner otro ejemplo, en comparación con el M1, el rendimiento de un solo núcleo del M1 Ultra casi no mejora. El rendimiento central total de la CPU es 3,2 veces mayor que el del M1, pero el número real de transistores es 7,1 veces mayor que el del M1.
Además, aunque la GPU de Apple tiene especificaciones extremadamente altas, difícilmente se puede utilizar para jugar. Esto se debe a que el software del juego no lo admite y es una razón histórica.
Pero también podemos predecir que Ultra será la última versión de la arquitectura M1. Cuando Apple actualice la CPU nuevamente, su nombre en clave definitivamente se actualizará a M2, que puede aparecer en el lanzamiento de septiembre de 2022.