АОР2/Јул 2022
- Овај рок није решен. Помозите SI Wiki тако што ћете га решити.
Јулски рок 2022. године одржан је 2. јула и трајао је 90 минута. На испиту је такође био подељен подсетник векторских инструкција са документацијом AVX инструкција са Интеловог званичног сајта.
1. задатак
Поставка
Описати технику оптимизације векторских инструкција која се заснива на дохватању изабраних елемената (Scatter-gather) приликом приступа подацима. Дати пример инструкција процесора које омогућавају ову технику и пример програма код кога се јасно види предност коришћења ове технике.
Решење
2. задатак
Поставка
Дата је функција int elementsInRange(const unsigned int* input, int n, int min, int max)
која за целобројне елементе низа задатог показивачем input
и дужине n
пребројава колико има елемената у интервалу [min, max]
. Сматрати да је n > 0. Елементи низа су цели бројеви int
(32 bit).
Потребно је преправити код тако да има исти резултат извршавања коришћењем векторских инструкција које су дате у прилогу испита.
int elementsInRange(const unsigned int* input, int n, int min, int max) {
int result = 0;
for (int i = 0; i < n; i++) {
if (input[i] >= min && input[i] <= max)
result = result + 1;
}
return result;
}
Решење
Испод је дата тражена имплементација функције као и остатак програма који тестира перформансе и успешност ове реимплементације:
#include <chrono>
#include <cstdlib>
#include <iostream>
#include <immintrin.h>
const int N = 65530;
const int MIN = 0;
const int MAX = RAND_MAX / 10;
// Унија за приступ појединачним члановима вектора.
union V256I {
__m256i v;
int i[8];
};
// Низови за податке који се прослеђују функцијама.
unsigned int niz1[N];
unsigned int niz2[N];
// Оригинални код из задатка.
int elementsInRangeOriginal(const unsigned int* input, unsigned int n, unsigned int min, unsigned int max) {
int result = 0;
for (unsigned int i = 0; i < n; i++) {
if (input[i] >= min && input[i] <= max)
result = result + 1;
}
return result;
}
// SIMD-оптимизован код.
int elementsInRangeSIMD(const unsigned int* input, unsigned int n, unsigned int min, unsigned int max) {
unsigned int roundedDownN = (n / 8) * 8;
// Сви вектори потребни за рад функције.
V256I resultVector;
resultVector.v = _mm256_set_epi32(0, 0, 0, 0, 0, 0, 0, 0);
__m256i minVector = _mm256_set_epi32(min, min, min, min, min, min, min, min);
__m256i maxVector = _mm256_set_epi32(max, max, max, max, max, max, max, max);
__m256i zeroVector = _mm256_set_epi32(0, 0, 0, 0, 0, 0, 0, 0);
for (unsigned int i = 0; i < n; i += 8) {
__m256i inputVector = _mm256_loadu_si256((__m256i*)(input + i));
// _mm256_cmpgt_epi32 ће поставити све јединице на места где је испуњен
// услов.
__m256i minCompareVector = _mm256_cmpgt_epi32(inputVector, minVector);
__m256i maxCompareVector = _mm256_cmpgt_epi32(maxVector, inputVector);
// Остављамо све јединице на месту где су испуњена оба услова, и за
// минимум и за максимум.
__m256i blendedVector = _mm256_blendv_epi8(zeroVector, maxCompareVector, minCompareVector);
// Напомена: све јединице заправо означавају број -1, па у овом вектору
// чувамо негативне бројаче уместо позитивне.
resultVector.v = _mm256_add_epi32(resultVector.v, blendedVector);
}
int result = 0;
for (unsigned int i = 0; i < 8; ++i) {
// Пошто смо изнад додавали негативне бројеве на резултат, овде морамо
// да обрнемо знак да бисмо израчунали крајњи резултат како треба.
result -= resultVector.i[i];
}
// Урачунавамо све преостале елементе у резултат.
for (unsigned int i = roundedDownN; i < n; ++i) {
if (input[i] >= min && input[i] <= max) {
++result;
}
}
return result;
}
int main() {
// Пунимо улазне низове насумичним подацима.
for (int i = 0; i < N; ++i) {
unsigned int randomNumber = static_cast<unsigned int>(rand());
niz1[i] = randomNumber;
niz2[i] = randomNumber;
}
// Меримо време колико је потребно оригиналном коду да се изврши.
std::chrono::steady_clock::time_point beginOriginal = std::chrono::steady_clock::now();
int resultOriginal = elementsInRangeOriginal(niz1, N, MIN, MAX);
std::chrono::steady_clock::time_point endOriginal = std::chrono::steady_clock::now();
std::cout << "Original: " << std::chrono::duration_cast<std::chrono::microseconds>(endOriginal - beginOriginal).count() << "ms" << std::endl;
// Меримо време колико је потребно SIMD коду да се изврши.
std::chrono::steady_clock::time_point beginSIMD = std::chrono::steady_clock::now();
int resultSIMD = elementsInRangeSIMD(niz2, N, MIN, MAX);
std::chrono::steady_clock::time_point endSIMD = std::chrono::steady_clock::now();
std::cout << "SIMD: " << std::chrono::duration_cast<std::chrono::microseconds>(endSIMD - beginSIMD).count() << "ms" << std::endl;
// Упоређујемо резултате оригиналног и SIMD кода.
if (resultOriginal != resultSIMD) {
std::cerr << "Result mismatch (original: " << resultOriginal << ", SIMD: " << resultSIMD << ")" << std::endl;
return EXIT_FAILURE;
}
return EXIT_SUCCESS;
}
Решење превести коришћењем команде g++ -march=native fajl.cpp
.
3. задатак
Поставка
Описати технику коришћења кеша за чување трагова извршавања (Trace cache). Дати пример места у проточној обради где се овај кеш може налазити и образложити одговор. Шта представљају улази и излази и описати по чему се овај кеш разликује од обичне кеш меморије.
Решење
4. задатак
Поставка
Разматра се рачунарски систем у коме се извршавање одређене инструкција одвија у 6 фаза помоћу измењеног процесора са стандардном проточном обрадом (слика 4.1.). У процесор са стандардом проточном обрадом је додата као други степен јединица PD (Instruction PreDecode) који[sic] обавља трансформацију инструкција задате архитектуре у инструкције RISC архитектуре. Сматрати да приступ меморији траје два сигнала такта. Архитектура процесора дефинише 16 регистра[sic] опште намене. Адресе и подаци су величине 16 бита.
- Написати секвенцу инструкција (микроинструкција) циљне RISC архитектуре у коју се обавља пресликавање за део инструкцијског сета из табеле 4.1. изворишне CISC архитектуре. Уколико је потребно проширити број регистара опште намене у регистарском фајлу, онда треба за сваки додат регистар написати чему служи. Регистар R13 представља указивач на врх стека (SP) и показује на последњу слободну локацију. Стек расте према вишим адресама. Регистар R14 представља указивач на базну адресу стека (BP). Регистар R0 се користи као акумулатор. Бит PSWI у PSW се налази на позицији 3, бит PSWC у PSW се налази на позицији 2. У табели 4.1. акције нису оптимизовано написане, већ описно.
- Нацртати формат инструкција циљне RISC архитектуре (на основу инструкција из табеле 4.1.).
Асемблерска инструкција | Акција | Микро инструкције |
---|---|---|
ADDB Rx
|
AX15..8 = 0 AX7..0 = AX7..0 + Rx7..0 |
|
ENTER immed
|
PUSH BP BP = SP SP = SP + immed |
|
INTD
|
PSWI = 0
|
|
POPPC
|
POP PC
|
|
SUB (adr)
|
AX = AX - MEM[MEM[adr]]
|
|
LOOPZ disp
|
R12 = R12 - 1 IF R12 == 0 THEN PC = PC + disp |
|
LD +(Rx)
|
Rx = Rx - 1 ACC = MEM[Rx] |
|
SUBC (adr)
|
IF PSWC == 1 THEN ACC = ACC - MEM[MEM[adr]] - 1 ELSE ACC = ACC - MEM[MEM[adr]] |
Решење
Подсетник
У подсетнику је била дата документација за следеће инструкције:
_mm256_loadu_si256
_mm256_set_epi32
_mm256_cmpgt_epi32
_mm256_mul_epi32
_mm256_storeu_epi32
_mm256_blendv_epi32
_mm256_add_epi32
Документација за ове инструкције може се наћи са званичног Интеловог сајта и овде неће бити поновљена.