# Tema 1: Memoria cache (parte 2) Principales parámetros de diseño

Iñigo Perona Balda (CAS) Nestor Garay (EUS) — Olatz Arbelaitz (CAS/EUS)

> Universidad del País Vasco (UPV/EHU) Grado en Ingeniería Informática Arquitectura de Computadores

> > 7 de septiembre de 2023

#### Parámetros de diseño

- ➤ A la hora de diseñar una cache hay que tener en cuenta una serie de parámetros. Veamos los más importantes:
  - 1. Tamaño o capacidad
  - 2. Contenido
  - 3. Bloque
  - 4. Correspondencia: búsquedas y estructura
  - 5. Algoritmo de reemplazo
  - 6. Política de escritura
  - 7. Algoritmo de búsqueda
  - 8. Extra: optimizaciones
- ► El objetivo siempre es el mismo:
  - conseguir la mayor tasa de acierto posible
  - conseguir el menor tiempo de acceso posible

### Índice

```
Capacidad (tamaño)
   Directorio + datos
```

## Capacidad (tamaño)

- A pesar de que cada vez son mayores, la memoria cache es bastante más pequeña que la memoria principal. Por ejemplo, 8 MB de cache, pero 64 GB de memoria principal.
- Por tanto, en la memoria cache no caben todos los bloques de memoria principal. Por tanto, en algunas ocasiones los bloques que el procesador necesita no estarán en la cache.
- En general, cuanto mayor sea la memoria cache, mayor será su tasa de aciertos (h) (siempre teniendo en cuenta el comportamiento del programa)

### Capacidad (tamaño)

- ► ¡Atención! El coste también será mayor
  - hay que conseguir un equilibrio entre rendimiento y coste
- ► En los procesadores actuales:
  - Dos o tres niveles de cache
    - ► L1: 32–128 kB
    - L2: 256-1024 kB
    - ► L3: 4–120 MB
  - On chip. Las caches L1 y L2 dentro del chip (más rápidas); L3 dentro o fuera del chip (más lenta), dependiendo de su tamaño.
  - Privadas / compartidas. L1 y L2 privadas para cada núcleo (core); L3 compartida entre todos los núcleos.

### Índice

```
Contenido
   Directorio + datos
```

#### Contenido

- El procesador accede tanto a datos como a instrucciones, cuyo patrón de acceso (tasa de aciertos) es diferente. ¿Cómo gestionar esta diferencia?
  - Cache unificada: datos e instrucciones en la misma cache.
     Habitual en caches grandes (el tamaño no es problema).
  - Caches separadas: datos e instrucciones se almacenan en distintas caches ⇒ cache de datos y cache de instrucciones.
    - Se pueden utilizar estructuras/ parámetros diferentes en las caches; y, sobre todo, se puede acceder a la vez a datos e instrucciones.
- En general, las caches L1 son separadas (datos e instrucciones), mientras que las caches L2 y L3 son unificadas.

### Índice

```
Bloque (line)
   Directorio + datos
```

# Bloque (line)

- Bloque: n palabras consecutivas de memoria; unidad de transferencia entre MP y MC. ¿De qué tamaño son los bloques?
- Por una parte, debido a la localidad espacial, es bueno que los bloques sean grandes: a priori, se cargan palabras que luego se utilizarán, por lo que la tasa de aciertos aumenta.
- ► Pero, no es conveniente que sean demasiado grandes:
  - polución: podrían no utilizarse todas las palabras del bloque (apuesta), por lo que cargaríamos en la cache información inútil
  - caben menos bloques en la cache, por lo que disminuye la tasa de acierto (localidad temporal)
  - mayor tiempo de transferencia del bloque
- ► Tamaños habituales: 32-64-128 bytes

### Bloque (line): Ejemplo

- $\blacktriangleright$  MP: 1 MB  $\rightarrow$  directiones de 20 bits
- ▶ Palabras: 8 bytes (3 bits para indicar un byte)  $\rightarrow$  128 k palabras
- **Bloques**: 16 palabras (4 bits para indicar una palabra) o 8 k bloques



| Dirección de memoria: 12536          | 0000 0011 0000 1111 1  | 000 |
|--------------------------------------|------------------------|-----|
| Palabra: $dir/8 = 1567$              | 0000 0011 0000 1111 10 | 000 |
| byte (pal): dir mod $8 = 0$          | 1567                   | 0   |
| Bloque: Palabra/ $16 = dir/128 = 97$ | 0000 0011 0000 1111 1  | 000 |
| Pal (bloq): palabra mod 16 =         | 97 15                  | 0   |
| = dir mod 128 = <b>15</b>            |                        |     |

### Bloque

#### Tiempo de transferencia de un bloque a memoria cache

- Dado que la MP está entrelazada, todas las palabras del bloque se leen a la vez hacia los buffers de entrelazado. Tendremos en cuenta estos tiempos:
  - T<sub>MP</sub>: transferencia de una palabra: lectura de MP y transferencia por el bus.
  - T<sub>buff</sub>: transferencia de una palabra desde el buffer de entrelazado (previamente ya se ha leído de MP).
- Por tanto, la transferencia de un bloque completo: primera palabra (T<sub>MP</sub>) más el resto de palabras desde los bufferes de entrelazado (T<sub>buff</sub>)

$$T_{tb} = T_{MP} + (palabras\_bloque - 1) \times T_{buff}$$

#### Tabla de contenidos

```
Correspondencia
   Marcas de dirección (tag)
   Directorio + datos
```

- En la MC no caben todos los bloques de la MP. Por ello, ¿dónde se carga un bloque de MP? ¿cómo encontrar ese bloque en MC posteriormente, cuál es su dirección en MC?
- Tres opciones:
  - Un bloque de MP se carga siempre en un bloque fijo (siempre el mismo o round robin) de MC: cache directa (direct).
  - Un bloque de MP puede cargarse en cualquier bloque de MC: cache totalmente asociativa (full associative).
  - ► El espacio de la cache se divide en conjuntos. Un bloque de MP se carga siempre en un conjunto fijo (directa) y, dentro de ese conjunto, en cualquier bloque (asociativa): cache asociativa por conjuntos (set associative).

### Correspondencia: tipos de correspondencia



Por tanto, el contenido de la cache puede organizarse de diferentes formas, en función del número de conjuntos y del tamaño de cada conjunto:

| $N \times 1$ | $N/2 \times 2$ , $N/4 \times 4$ , $N/8 \times 8$ | $1 \times N$          |
|--------------|--------------------------------------------------|-----------------------|
| directa      | asociativas por conjunto                         | totalmente asociativa |

- Una posición de cache no identifica un bloque concreto, dado que en esa posición puede cargarse más de un bloque.
- Por tanto, al cargar un bloque en la cache, hay que mantener información de dicho bloque en el directorio. En todos los accesos a memoria, se debe analizar el directorio para ver si la palabra (el bloque) a la que se quiere acceder está o no en cache.
- A dicha información se le llama marca de dirección o tag. Es una parte de la dirección del bloque, en función de la correspondencia de memoria cache que se utilice.
- Veamos los tres casos posibles.

#### Directa

Un bloque se carga siempre en el mismo bloque de MC. Los bits de menos peso del bloque indican su posición en la cache; el resto de los bits se guardan en el directorio, para identificar el bloque que está en esa posición.



- ▶ bloque (MC) = Bloque (MP) mod num bloques cache
- tag (direct.) = Bloque (MP) / num\_bloques\_cache

#### Totalmente asociativa

Un bloque puede estar en cualquier posición en la cache; por tanto, hay que guardar todos los bits de la dirección del bloque en el directorio para identificar el bloque que está en esa posición.



- **▶ bloque** (MC) = cualquiera (¡asociativa!)
- ► tag (direct.) = dirección del bloque

#### Asociativa por conjuntos

Un bloque se carga en un determinado conjunto, siempre el mismo (directa), y dentro del conjunto en cualquier posición (asociativa). Por tanto, los bits de menos peso del bloque identifican el conjunto; el resto de bits, se guardan en el directorio.



- conjunto (MC)= bloque (MP) mod num cjtos cache
- ▶ bloque (MC) = cualquiera, dentro del conjunto
- ▶ tag (direct.) = bloque (MP) / num cjtos cache

- Recuerda:
  - bits de menos peso → resto de la división
  - ▶ bits de más peso → división

#### Ejemplo MP



▶ 64 kB - palabras de 4 bytes (16 k pal) - bloques de 8 palabras (2 k bloques)

```
Dirección, 16 bits = 25396
Palabra, 14 bits = 25396 / 4 = 6349
Bloque, 11 bits = 6349 / 8 = 793
Palabra/bloque, 3 bits = 6349 mod 8 = 5

0110 0011 0011 010
0110 0011 001
0110 0011 001
0110 0011 001
```

#### Ejemplo MC



 ▶ 1 kB  $\rightarrow$  256 palabras  $\rightarrow$  32 bloques  $\times$  8 palabras

 Dirección:
 0110 0011 0011 0100

 ▶ directa
 Bloque(MC), 5 bits = 793 mod 32 = 25
 11 001

tag, 6 bit = 793 / 32 = 24
Palabra de MC, 8 bits

11 001

0110 00

11 0011 01

totalmente asociativa

| tag, 11 bits = <b>793</b> |                                      | 0110 0011 001 |  |
|---------------------------|--------------------------------------|---------------|--|
|                           | Palabra de MC, 8 bits (5 direc. + 3) | xx xxx1       |  |

01

#### Ejemplo MC



▶ 1 kB ightarrow 256 palabras ightarrow 32 bloques ightarrow 8 palabras

|            | • |         |         |      |
|------------|---|---------|---------|------|
| Dirección: |   | 0110 00 | 11 0011 | 0100 |
|            |   |         |         |      |

asociativa por conjuntos, 8 conjuntos x 4 bloques

| conjunto, 3 bits = $793 \mod 8 = 1$  | 001        |
|--------------------------------------|------------|
| tag, 8 bits = 793 / 8 = <b>99</b>    | 0110 0011  |
| Palabra de MC, 8 bits (5 direc. + 3) | xx xxx1 01 |

#### Tabla de contenidos

Correspondencia Directorio + datos Latencia de las operaciones en memoria

# Correspondencia: estructura de la cache (directorio + datos)

- La memoria cache tiene dos partes: directorio y datos (contenido). Para almacenar los datos se utiliza una memoria SRAM; sin embargo, el diseño del directorio depende de la correspondencia.
- ► En el caso de cache directa, es suficiente una memoria SRAM, dado que se conoce dónde se almacena el bloque. Sin embargo, en la cache totalmente asociativa es necesaria una memoria asociativa, dado que el bloque puede estar en cualquier posición. En el caso intermedio, asociativa por conjuntos, existen diversas soluciones, en función del número de conjuntos.
- Veamos a continuación cómo se organiza el directorio de la cache en cada caso.

### Directa (p.e., cache de 4 bloques de 2 palabras)



▶ Búsqueda: leer el contenido del directorio en la posición del bloque; comparar el tag del bloque que está en la cache (si la posición está ocupada) con el tag del bloque que se busca

#### Directa

- El directorio y la memoria de datos (contenido) son RAM estáticas y pueden accederse en paralelo, dado que se conoce la ubicación del bloque. Se trata de una estructura barata y rápida.
- Puede no gestionar adecuadamente el espacio de memoria. A un bloque de MP le corresponde un bloque fijo de MC; si está ocupado, hay que reemplazar ese bloque para meter otro (a pesar de que haya sitio en la MC!) Por ello, la tasa de aciertos, h, puede ser más baja de la esperada.

#### Totalmente asociativa



▶ Búsqueda: buscar el tag del bloque en el directorio (memoria asociativa); la respuesta es si ese tag está o no está, y, si está, en qué posición está. Una vez obtenida la posición, se puede acceder a la RAM de datos.

#### Totalmente asociativa

- El directorio es una memoria asociativa, que es más compleja que una SRAM, y también más cara: hay que comparar la palabra ha buscar con todas las posiciones de directorio
- ► El principal problema es que son necesarios dos accesos secuenciales. Primero al directorio para ver si el bloque está o no en la cache y en qué posición está, y un segundo a la SRAM de contenidos, una vez conocida la posición del bloque: no se trata de una solución rápida.
- Por contra, gestiona muy bien el espacio de memoria: hasta llenar la MC, siempre hay sitio para un bloque de MP.
  - tasa de aciertos, h, grande

#### Asociativa por conjuntos

- ➤ Se trata del caso general; las dos anteriores pueden verse como extremos de este caso general: en la cache totalmente asociativa, 1 conjunto con n bloques; en la cache directa, n conjuntos con un único bloque. Por tanto, la estructura de la cache puede ser una mezcla de las dos anteriores.
- ► En general, el tamaño del conjunto (grado de asociatividad, way) es pequeño (4–16) y el número de conjuntos es grande (p.e. 1024 grupos de 4 bloques). Por ello, se puede evitar el problema que conlleva la asociatividad: la necesidad de realizar dos accesos secuenciales, dado que no se conoce la ubicación del bloque.

#### Asociativa por conjuntos

- Para ello, se utiliza más de un módulo de memoria y se entrelazan los bloques de los conjuntos. De esta forma, es posible acceder a todos los bloques (y palabras) de un conjunto y, finalmente, escoger uno de ellos (para las escrituras, como en los casos anteriores, hay que esperar a recibir la respuesta del directorio).
- Veamos un ejemplo.

### Asociativa por conjuntos (2 conjuntos x 2 bloques)



Búsqueda: acceder a la vez a todos los bloques de un determinado conjunto (y al directorio). En función de la respuesta del acceso al directorio, escoger la palabra de la RAM de datos.

#### Asociativa por conjuntos

- ► El contenido se divide en conjuntos, dentro de los que se puede utilizar cualquier posición libre. Al número de bloques del conjunto se le llama grado de asociatividad (way). Por ejemplo, 8 way associative ⇒ conjuntos de 8 bloques.
- Se trata de un compromiso entre las correspondencias directa y la totalmente asociativa:
  - tiempo de acceso, similar a la directa
  - tasa de aciertos (h), similar a la totalmente asociativa
- ▶ ¿Qué se utiliza actualmente?
  - asociativa por conjuntos (conjuntos de 4–16 bloques). Por ejemplo, i7 ⇒ L1: 8 way; L2: 4 way; L3: 16 way

### Correspondencia: Resumen

- ► Un bloque de MC puede alojar a varios bloques de MP. Por tanto, además de los datos, hay que mantener información (marcas de dirección o tag) para identificar los bloques existentes en MC: directorio. En cualquier acceso a la cache, hay que analizar el directorio para ver si el bloque accedido está o no en la cache.
- En función de la correspondencia, el diseño y la información que hay que guardar en el directorio es distinta. En la cache directa, el directorio es un SRAM; en la totalmente asociativa, es necesaria una memoria asociativa. Las caches directas son rápidas, pero su tasa de aciertos, h, no es la más elevada; en la totalmente asociativa h es más elevada, pero su acceso es más lento.
  - Las caches asociativas por conjunto son un compromiso entre las dos anteriores; h similar a la totalmente asociativa y un tiempo de acceso similar a las caches directas. La cantidad de bloques (way) no suele ser alta (con 4–16 se logran buenos resultados)

#### Índice

```
Directorio + datos
Algoritmo de reemplazo
```

### Algoritmo de reemplazo

- Se produce un fallo en MC, por lo que hay que cargar un nuevo bloque de MP, pero ¿si no hay sitio en MC (en la posición que le corresponde al nuevo bloque)?
- ► En este caso, antes de cargar el nuevo bloque, hay que quitar uno de la memoria cache. ¿Qué bloque se sustituye?
  - Si la cache es directa no hay elección. El bloque a sustituir está totalmente definido, dado que un bloque de MP siempre se carga en un bloque fijo de MC.
  - Si hay asociatividad, hay que elegir un bloque de toda la cache (totalmente asoc.) o de un conjunto (asoc. por conjuntos).
- A la hora de elegir el bloque, ¿qué estrategia utilizar? Es decir, ¿qué algoritmo de reemplazo se utiliza? Existen dos tipos de algoritmos:

### Algoritmo de reemplazo

#### No tienen en cuenta el comportamiento del programa

- ► Aleatorio (random): cualquier bloque
  - Simple / poco optimizado (h pequeña)
- ► FIFO: el bloque que más tiempo lleva en cache ("más antiguo").
  - ▶ Para determinar cuál es el bloque más antiguo se utiliza un contador de n bits en el directorio; en cada acceso, se actualiza el valor del contador (n = log₂ num\_bloques). Cuando hay que reemplazar un bloque, se elige el bloque con mayor contador (más antiguo) y se actualizan los contadores de todos los bloques. Por ejemplo, para 4 bloques (bloque a reemplazar):

```
b2-00 b2-01 b2-10 b2-11 b6-00 b4-00 b4-01 b4-10 b4-11 b1-00 b1-01 b1-10 b7-00 b7-01
```

# Algoritmo de reemplazo

#### Tienen en cuenta el comportamiento del programa

- ► LRU (Last Recently Used): el bloque que más tiempo lleva en la MC (o en el conjunto) sin ser utilizado.
  - Se usan contadores y hay que actualizarlos en cada acceso, no sólo en los fallos (0 al último accedido k y +1 a los contadores de 0 a k-1)

- ▶ Difícil de implementar (salvo que el tamaño del conjunto sea de 2 bloques), pero consigue la mayor tasa de aciertos.
- Actualmente: LRU (con 2 bloques por conjunto) o, generalmente, variaciones de LRU (pseudo-LRU).

# Algoritmo de reemplazo

#### LRU

La información de reemplazo (contadores...) debe guardarse también en el directorio:

#### Profundizar

¿Quieres saber más sobre procesos de correspondencia y reemplazo?

Investiga la Victim cache

# Índice

```
Directorio + datos
Operaciones: Política de escritura
```

# Operaciones: lectura

El procesador realiza dos operaciones en la cache: lectura (10ad) o escritura de una palabra (store). La palabra debe estar en cache para poder realizar la operación; por tanto, el primer paso será analizar el directorio.

# Lecturas (rd)

- Es una operación simple. Tras la búsqueda en el directorio:
  - Acierto. La palabra está en la cache y se accede desde la cache, de forma rápida.
  - ► Fallo. La palabra no está en la cache. Por tanto, hay que transferir desde MP el bloque que tiene la palabra (ver apartado de optimizaciones)
- ► En general, para no perder tiempo, se puede empezar la lectura a la vez que la búsqueda

# Escrituras (wr)

- Las escrituras son complejas, dado que suponen una actualización de la información. Al utilizar memoria cache, se trabaja con copias de la información (MC y MP). Por tanto, ¿dónde se escribe? ¿cómo se gestionan las copias de la misma información?
- Hay dos tipos de escritura:
  - write-through: cuando se escribe una palabra se actualizan todas las copias de la jerarquía de memoria (MC y MP).
  - write-back: la palabra sólo se escribe en MC. La MP no se actualiza hasta que se reemplace el bloque de la MC (terminar el programa / cambio de contexto)

# write-through (WT)

- Las copias de los bloques son siempre coherentes (misma copia), pero la latencia de escritura es mayor, dado que siempre hay que actualizar la MP.
- En general, en lugar de escribir directamente en MP se utiliza un buffer de escritura intermedio; el controlador de memoria se encargará de ir actualizando la MP (ver apartado de optimizaciones).
- Se utilizan dos estrategias principales:
  - Escribir tanto en MC como en MP (write allocation).
  - Se escribe en MP, pero no en MC; si el bloque estaba en MC, se anula y, si no estaba, no se transfiere de MP. Ejemplo: ¿merece la pena llevar el vector C a la MC?

```
for(i=0; i<N; i++){ C[i] = A[i]+B[i]; }</pre>
```

### write-back (WB)

- Dado que las escrituras se hacen sólo en MC, la información no va a ser coherente: en las escrituras habrá dos copias distintas en MC y MP.
  - ► El valor válido será el de MC.
  - ► Consecuencia: a la hora de reemplazar un bloque de MC, si está modificado, debe actualizarse en MP.
- Para saber si un bloque de MC ha sido modificado hay que incluir un bit de control en el directorio de MC: modificado (dirty).
  - direct.  $\Rightarrow$  ocup mod reem tag
- ► ATENCIÓN: al actualizar una palabra en MC, ese bloque queda modificado, y al reemplazarlo se actualiza todo el bloque en MP, no sólo la palabra modificada.

# write-back (WB)

► El bloque a guardar en memoria se deja en un buffer de escritura; el controlador de memoria se encargará de escribirlo luego en memoria, aprovechando los momentos que el bus de datos esté libre (ver las optimizaciones más adelante).

# write-back (WB)

- ► En general, esta estrategia es más adecuada que WT. No obstante, se vuelve a hacer una apuesta:
  - si se actualiza continuamente un bloque de MC antes de reemplazar el bloque, se minimiza el tiempo de acceso y el tráfico del bus entre MP y MC, dado que se actualizará únicamente una vez la MP (al reemplazar el bloque).
  - pero si el reemplazo se produce nada más actualizar el bloque una única vez, habrá que actualizar todo el bloque (no sólo esa palabra) en MP, dado que el bit dirty afecta a todo el bloque.
- Es habitual que los distintos niveles de cache (L1, L2, y L3) utilicen estrategias diferentes.

- Cuidado con las copias: no es difícil saber dónde está la copia a utilizar...siempre que todas las operaciones estén bajo una única unidad de control
- ► En sistemas de un solo núcleo o core eso es lo habitual, a excepción de un caso: las operaciones de entrada/ salida (E/S), cuando el controlador de DMA carga datos externos...pero, ¿dónde? ¿en MP? ¿y si esos datos se llevan a cache?
- Para resolver ese problema hay dos opciones:
  - hacer flush en la cache: los datos nuevos se cargan en MP, y las copias que pueda haber en cache de bloques de datos de E/S se anulan (basta con poner ocup.=0 en el directorio).
  - los bloques de datos que se usen en E/S no se llevan nunca a MC: cuando se necesite un dato (rd/wr), hay que ir siempre a MP.

# Índice

```
Directorio + datos
Algoritmo de búsqueda
```

# Algoritmo de búsqueda

- Para minimizar el tiempo de acceso, se puede adelantar la búsqueda de la información en MP (prefetch), aprovechando la localidad espacial.
- ightharpoonup Cuando el procesador utiliza el bloque i, se transfiere en bloque i+1 desde MP a MC (si no está ya en MC).
- ► ATENCIÓN: apuesta → mayor tráfico en el bus, polución de la MC.
  - prefetch always: al acceder al bloque i, se trae siempre el bloque i+1 (no está ya en MC)
  - ▶ prefetch on miss: si al acceder al bloque i se produce fallo, se traen a MC los bloques i e i+1. (¿Es lo mismo que traer un bloque el doble de grande?)
- ▶ La tasa de fallos puede minimizarse entre un 40 % y un 80 %.

#### Tabla de contenidos

```
Directorio + datos
Extra
```

Latencia de las operaciones en memoria



En general, el tiempo de acceso medio a la jerarquía de memoria puede expresarse de esta:

$$T_a = h_1 \times T_1 + (1 - h_1) \times [h_2 \times T_2 + (1 - h_2) \times [...]]$$

- $\triangleright$   $h_i$ : tasa de acierto del nivel i
- $ightharpoonup T_i$ : tiempo de acceso al nivel i

- ➤ Es difícil modelar al detalle la latencia de una determinada operación dado que interviene diferente hardware de forma simultánea en las operaciones, y no acaban a la vez. El modelo depende del punto de vista en que se realice: desde el punto de vista del procesador, de la cache o de la memoria principal.
- Además, la casuística es diversa: acierto/ fallo, reemplazos, escritura WB/WT...y se pueden realizar optimizaciones a diferentes niveles.
  - Además la ejecución de instrucciones está segmentada (siguiente tema)
- Por ello, es difícil plantear un modelo completo. Para simplificar, tendremos en cuenta el siguiente modelo de tiempo de acceso y tráfico en el bus, desde el punto de vista del sistema de memoria (en general, el procesador puede avanzar más rápidamente, en cuanto tenga el dato). Vamos a simplificar mucho el modelo, para realizar los cálculos de forma sencilla. En la realidad, el modelo es más complejo.

# Tiempo de transferencia de un bloque a MC (o desde MC)

Tal y como se ha presentado, el tiempo de transferencia de un bloque se puede modelar de esta forma: primera palabra  $(T_{MP})$  + resto palabras del bloque desde los buffers de entrelazado  $(T_{buff})$ .

$$T_{tb} = T_{MP} + (palabras\_bloque - 1) \times T_{buff}$$

# Tiempo de lectura de una palabra y tráfico en el bus

 $(T_{MC} = tiempo de acceso a memoria cache)$ 

- Acierto: T<sub>MC</sub>. La palabra está en MC; es la operación más rápida. Tráfico en el bus entre MC y MP: no existe.
- Fallo:  $T_{MC} + T_{tb}$ . Hay que transferir el bloque desde MP. Tráfico en el bus: un bloque (MP > MC).

# Tiempo de escritura de una palabra — write-back (=lectura)

- Acierto:  $T_{MC}$ . La palabra está en cache. Tráfico en el bus: no existe.
- ► Fallo:
  - T<sub>MC</sub> + T<sub>tb</sub>. La palabra no está en cache. Transferir bloque desde MP. Tráfico en el bus: un bloque (MP > MC)
  - (+ reemp.):  $T_{MC} + 2T_{tb}$ . Si hay reemplazo de un bloque modificado en MC, hay que transferir ese bloque en MP antes de cargar el nuevo bloque en MC. Tráfico en el bus: 2 bloques (MC > MP; MP > MC)

# Tiempo de **escritura** de una palabra — write-through

- Acierto: T<sub>MC</sub> + T<sub>MP</sub>. La palabra está en MC; hay que actualizar la MP y actualizar/ anular la palabra en MC (operaciones simultáneas en MP y MC). Tráfico en el bus: una palabra (> MP).
- ► Fallo:
  - $ightharpoonup T_{MC} + T_{MP}$ . Actualizar MP y no traer el bloque a MC (no write allocation). Tráfico en el bus: **una palabra** (> MP)
  - ▶  $T_{MC} + T_{MP} + T_{tb}$ . Actualizar MP y traer el bloque a MC (write allocation). Tráfico: una palabra (> MP) + un bloque MP > MC)

#### Tabla de contenidos

```
Directorio + datos
Extra
```

**Optimizaciones** 

55 / 73

- ➤ Es fundamental un uso óptimo de la memoria cache para lograr una ejecución eficiente de los programas. Por una parte, es importante maximizar la tasa de acierto y, por otra, minimizar el tiempo de acceso en caso de fallo.
- Además, es importante minimizar el tráfico en el bus entre el procesador y el sistema de memoria: la transmisión de datos puede saturar la capacidad del bus (por ejemplo, en el caso de que se produzcan muchos fallos seguidos) y, en consecuencia, los tiempos de espera pueden llegar a ser elevados.
- Veamos algunas optimizaciones básicas.

### Minimizar el tiempo de acceso en caso de fallo

A Para leer/ escribir un dato hay que realizar una búsqueda en la cache y, en caso de fallo, acceder a MP.

Para minimizar el tiempo de búsqueda, las operaciones se inician tanto en la memoria cache como en memoria principal. Posteriormente, si es un acierto en cache, se anula la operación iniciada en MP; si se trata de un fallo en cache, no se pierde el tiempo utilizado en el acceso ya iniciado a MP.



#### Minimizar el tiempo de acceso en caso de fallo

B En caso de fallo en cache, a la hora de transferir el bloque de MP, la transferencia no se inicia desde la primera palabra del bloque, sino desde la palabra requerida por el procesador:

$$A_0, A_1, A_2, \ldots A_n - 1 > A_2, \ldots A_n - 1, A_0, A_1$$

De esta forma, el procesador puede seguir con la ejecución tan pronto como reciba la palabra; entretanto, se cargan el resto de palabras del bloque en la cache.

### Minimizar el tiempo de acceso en caso de fallo

- C En la escritura WB, en caso de reemplazo de un bloque modificado, antes de cargar el nuevo bloque en la cache, puede ser necesario transferir el bloque a reemplazar (si está modificado) a MP. La operación se realiza de esta forma:
  - se copia el bloque de cache en un buffer interno: buffer de escritura (esta copia es rápida).
  - se transfiere desde MP el nuevo bloque, para que el procesador siga trabajando.
  - cuando el bus esté libre, se transfiere a MP el bloque almacenado en el buffer de escritura.



#### Minimizar el tiempo de acceso en caso de fallo

D En los procesadores avanzados, cuando se produce un fallo en la cache, la cache no se bloquea: el procesador "aparca" la instrucción hasta que se solucione el fallo y sigue con otra instrucción.

# Aumentar la tasa de acierto (ya se ha visto)

- Caches lo más grandes posibles
- Bloques no muy pequeños (cuidado con los bloques grandes)
- Asociatividad / algoritmo de reemplazo
- Intentar mejorar la localidad en los accesos, tanto espacial como temporal:
  - prefetch
  - optimizar el código (programador o compilador)

### Algunos ejemplos de optimización de código

A Intentar realizar los accesos en palabras consecutivas para aprovechar los bloques (cambiar orden de bucles)



► ¡Atención!

C: las matrices se guardan por filas en memoria; Fortran: por columnas.

# Algunos ejemplos de optimización de código

- B Intentar reutilizar los datos.
  - En los dos bucles se utilizan los bloques de A y B, pero en el segundo caso hay que volverlos a leer (y quizá ya no estén en MC)

```
for i...
  A[i] = B[i] * B[i];
for i...
  C[i] = B[i] + A[i];
```

▶ **Mejor**. Ahora los elementos de A y B se utilizan en la misma iteración para las dos instrucciones. Es suficiente una única lectura de memoria para cada vector.

```
for i...
{
   A[i] = B[i] * B[i];
   C[i] = B[i] + A[i];
}
```

# Algunos ejemplos de optimización de código

- C Intentar minimizar el número de accesos a memoria. En este caso, la mejora no es debida a una mayor tasa de acierto, sino al menor uso de la memoria.
  - Leer una y otra vez el mismo valor:

```
for i...
   for j...
     ... = ... + A[i]; // en el bucle j se lee siempre el mismo valor
```

▶ Mejor. Guardarlo en un registro para utilizar menos la MP.

```
for i... {
   x = A[i]; // el valor se lee una vez y se guarda en un registro
   for j...
   ... = ... + x; // se utiliza n veces, sin acceder a memoria
}
```

#### Tabla de contenidos

```
Directorio + datos
Extra
   Resumen
```

- Las velocidades de los procesadores y de las memorias son muy diferentes. Para intentar minimizar este gap se utilizan las memorias cache; de hecho, es el principal componente para acelerar la ejecución de los programas
- El acceso a instrucciones y datos no es aleatorio (localidad)
  - la memoria se organiza formando una jerarquía.
  - Se utilizan 2 o 3 niveles de cache (L1, L2...). La cache L1 suele ser separada: instrucciones y datos. Recordad: el contenido de cada nivel de memoria es un subconjunto del siguiente.
- Se trata de una apuesta: se trae a la cache la información que se supone que va a ser utilizada por el procesador en ese momento (bloque).
  - Un bloque contiene n palabras consecutivas de memoria.

- Existen tres tipos de correspondencias (que determinan la ubicación de los bloques de memoria en la cache):
  - Directa: en un determinado bloque de cache.
  - ► Totalmente asociativa: en cualquier bloque libre.
  - Asociativa por conjuntos: en un determinado conjunto (directa) y, dentro del conjunto, en cualquier bloque (asociatividad).
    - Grado de asociatividad (way): número de bloques del conjunto. Ejemplo: 4 way associative
    - Ésta es la opción más utilizada hoy en día.

- ➤ A la hora de utilizar la memoria cache, los fallos se clasifican en tres tipos:
  - Carga: al utilizar las instrucciones/datos la primera vez (carga de la información).
    - bloques de datos grandes
  - **Capacidad**: todos los bloques de datos no entran en la cache.
    - caches más grandes
  - Correspondencia: hay que reemplazar el bloque para cargar en esa posición un nuevo bloque (a pesar de que la cache no esté llena).
    - conjuntos más grandes

[ en inglés, "tres C-s": compulsory, capacity y conflict ]

- Además de la información, la cache tiene un directorio para realizar la búsqueda de los bloques. Contenido del directorio:
  - [ ocupado modificado LRU tag o marca de dirección ]
  - ▶ tag: información necesaria para encontrar un bloque de MP en la cache, en función de la correspondencia
- Dos opciones en caso de escritura:
  - ▶ WT: se escribe siempre en MP (palabra); las copias de la información son coherentes (actualizando o anulando la MC).
  - ▶ WB: se escribe siempre en MC. Posteriormente, al reemplazar un bloque modificado, se actualiza dicho bloque (entero) en MP.
- ➤ Se pueden realizar diferentes optimizaciones (prefetch, buffers de escritura, compilador...). Objetivo: minimizar el tiempo de ejecución de los programas.

- Hoy en día los procesadores tienen más de un núcleo de ejecución (multicore).
  - ▶ La memoria cache se organiza en **tres niveles**. Normalmente, L1 y L2 son caches privadas en cada núcleo, mientras que la cache L3, mucho más grande, suele ser compartida por todos los núcleos (puede estar dentro o fuera del chip).



- ► Gama alta: IBM Power9 (24 core, 8.000 millones transistores, bloque = 128 bytes)
  - ► L1: 32 kB + 32 kB (por núcleo); 8 way, pseudo-LRU; WT, no write-allocate
  - ► L2: 512 kB (2 núcleos), inclusiva; 8 way, LRU; WB, write allocate
  - L3: 120 MB (compartida); 20 way, "sophisticated replacement policy"
- ▶ Gama media: Intel i7-7700 (Kaby Lake,  $\sim$ 2.000 millones trans., 4 core, BI = 64 bytes)
  - ► L1: 32 kB + 32 kB (por núcleo); 8 way, TreePLRU; WB
  - L2: 256 kB (por núcleo), no inclusiva; 4 way, QLRU; WB
  - L3: 8 MB (compartida), inclusiva; 16 way, Adaptive
- Móviles: ARM Cortex A8 (bloque = 64 byte)
  - L1: separada, 16 edo 32 kB; 4 way, random; WB, no write allocate
  - L2: unificada: 0, 128 kB...1 MB; 8 way
- Comentario: la tecnología evoluciona rápido; esos datos son sólo una referencia

- Hemos analizado la estructura y uso general de la memoria cache, pero hay más técnicas para conseguir aumentar el rendimiento, por ejemplo, para mejorar el tiempo de acceso.
- Además, surgen **nuevos problemas** en procesadores con más de un core:
  - Una variable puede estar en varias caches L1. ¿Qué ocurre si se modifica en una de ellas? ¿Cómo sabrá el resto de núcleos que esa variable se ha modificado?
  - Este problema de coherencia de datos se soluciona mediante hardware especial (snoopy). Se estudiará en la asignatura PAR.



# Tema 1: Memoria cache (parte 2) Principales parámetros de diseño

Iñigo Perona Balda (CAS) Nestor Garay (EUS) — Olatz Arbelaitz (CAS/EUS)

> Universidad del País Vasco (UPV/EHU) Grado en Ingeniería Informática Arquitectura de Computadores

> > 7 de septiembre de 2023

#### Resumen: POWER9



# Thread Sharing of POWER9 Cache + Prefetch



#### Cache

- L1 caches are per SMT4 core, 1-4 threads
  - L2/L3 caches are per pair of SMT4 cores
    - 64B reload bus from L2/L3 is shared by 1-2 cores
    - 16B store bus per SMT4 core to L2

| Cache      | Domain    | Size         | Threads Max |
|------------|-----------|--------------|-------------|
| L1 I-Cache | Core      | 32k x 8 way  | 4           |
| L1 D-Cache | Core      | 32k x 8 way  | 4           |
| L2 Cache   | Core Pair | 512k x 8 way | 8           |
| L3 Cache   | Core Pair | 10M x 20 way | 8           |

#### Prefetch

- · L1 Data Cache Miss Queue (LMQ) per core
  - Supports Demand and L1 Prefetch requests
- L3 Data Prefetch Queues are per pair of SMT4 cores

| Queue       | Domain    | Size               | Threads Max |
|-------------|-----------|--------------------|-------------|
| LMQ         | Core      | 8, 12 (w/ atomics) | 4           |
| L3 Prefetch | Core Pair | 32                 | 8           |

#### Resumen: ITANUIM2

