CSAPP 3.11 Floating-Point Code

Table of Contents

📝 상세 정리
#

Floating-Point Code
- 부동소수점 아키텍쳐는 어케 동작할라나
  - 부동소수점 값이 저장되고 엑세스되는 방법
  - 부동소숫점 데이터에서 작동하는 명령어
  - 부동소수점 값을 함수에 전달하고 반환하는데 사용되는 컨벤션/관례
  - 함수 호출 중 레지스터가 보존되는 방법에 대한 규약
- SSE는 128비트, AVX는 256비트, AVX-512는 512비트..
- %xmm0, %xmm1등의 어셈블리 코드가 나오면 현대적인 레지스터다!
  - %rax, %rbx, %rsp, … %r15랑은 아예 별개. 위치도 다른듯?
  - 연산 방식 자체가 보수방식 / 지수가수 방식으로 다르니까 다른 장치에서
    - SIMD도 가능하다!
3.11.1 Floating-Point Movement and Conversion Operations
- vmovss / vmovsd / vmovaps / vmovapd 같은 명령어들이 있다
- 코드 최적화 지침은 32비트 데이터는 4바이트 정렬을, 64비트 데이터는 8바이트 정렬을 만족하도록 권장하지만 안그래도 동작은 한다
- 정수 mov과 같은 방식으로 웬만하면 동작한다!
- GCC는 스칼라 이동 연산을 xmm 레지스터 - 메모리 사이에서만 수행한다.
  - xmm 레지스터 사이에서 전송하기 위해선 vmovaps나 vmoapd
  - 안에있는 a는 aligned, 정렬을 의미한다
- ```
float float_mov(float v1, float *src, float *dst){
    float v2 = *src;
    *dst = v1;
    return v2;
}
```
- 위 코드는 다음과 같이 번역된다.
- ```
  v1 in %xmm0, src in %rdi, dst in %rsi
```
1 float_mov: 2 vmovaps %xmm0, %xmm1 Copy v1 3 vmovss (%rdi), %xmm0 Read v2 from src 4 vmovss %xmm1, (%rsi) Write v1 to dst 5 ret Return v2 in %xmm0 ```
- vmovaps, vmovss를 둘다 확인할 수 있다!
- float -> 정수에서는 잘 반올림해서 들어감
- 정수 -> float에서는 신기하게도 뒤에 피연산자가 3개 들어간다
  - 이때 두번째 피연산자는 상위 바이트에만 영향을 미쳐서 무시해도 된다
    - 일단 두번째 연산자는 결과가 들어갈 레지스터의기 기존 값을 의미한다.
    - 웬만한 연산에서 두번째 피연산자와 세번째 목적지 피연산자는 같다
- float -> float에서
  - 조금 이상한 코드가 생성된다
  - 상위비트를 다시 활용하지 못하게 하기 위함
    - 가짜 의존성
      - 이전의 상위 비트값을 써야될때 값을 기다리게 하지 않기 위해, 그냥 덮어버린다
    - single -> double, double -> single 둘다 마찬가지
3.11.2 Floating-Point Code in Procedures
- 크아악 프로시져다
  - 언제나 그랬듯 XMM 레지스터를 이용해서 float 인수들을 함수로 전달하고 반환받고 한다
- x86-64에서는 다음과 같은 관습이 관찰된다
  - 최대 8개의 float arg가 xmm0~7로 전달되고, 더 필요하면 스택 사용
  - float 반환은 xm0에서
  - 모든 XMM 레지스터는 caller-saved. 이후에 호출된놈이 맘대로 바꿔도 됨
  - double f1(int x, double y, long z);
  - 위의 예에서, %edi에 x, %xmm0에 y, %rsi에 z
3.11.3 Floating-Point Arithmetic Operations
- ```
double funct(double a, float x, double b, int i){
    return a*x - b/i;
}
```
- 위 코드는 다음과같이 번역된다.
- ```
	a in %xmm0, x in %xmm1, b in %xmm2, i in %edi
```
1 funct: The following two instructions convert x to double 2 vunpcklps %xmm1, %xmm1, %xmm1 3 vcvtps2pd %xmm1, %xmm1 4 vmulsd %xmm0, %xmm1, %xmm0 Multiply a by x 5 vcvtsi2sd %edi, %xmm1, %xmm1 Convert i to double 6 vdivsd %xmm1, %xmm2, %xmm2 Compute b/i 7 vsubsd %xmm2, %xmm0, %xmm0 Subtract from a*x 8 ret Return ```
3.11.4 Defining and Using Floating-Point Constants
- 정수 연산과 달리 AVX float 연산은 immediate value로 연산할 수 없다.
  - 대신 컴파일러는 임의값에 대해 스토리지를 할당하고 초기화하고, 메모리로부터 값을 읽는다.
  - double cel2fahr(double temp){ return 1.8 * temp + 32.0; }
  - 과 같은 함수가 있다면, 이는 다음과 같이 바뀐다.
  - double cel2fahr(double temp) temp in %xmm0
  1 cel2fahr: 2 vmulsd .LC2(%rip), %xmm0, %xmm0 Multiply by 1.8 3 vaddsd .LC3(%rip), %xmm0, %xmm0 Add 32.0 4 ret 5 .LC2: 6 .long 3435973837 Low-order 4 bytes of 1.8 7 .long 1073532108 High-order 4 bytes of 1.8 8 .LC3: 9 .long 0 Low-order 4 bytes of 32.0 10 .long 1077936128 High-order 4 bytes of 32.0 ```
  - .LC2의 위치로부터 1.8을 가져오고, .LC3에서 32.0을 판독해오는 것으로 보인다.
3.11.5 Using Bitwise Operations in Floating-Point Code
- 비트연산을 float에서도 사용할 수 있다!
  - vxorps, vxorpd, vandps, vandpd
- 근데 float에서 비트연산은 진짜 왜하지?
  - 레지스터를 0으로 초기화하고 싶을 때
    - 자기 자신을 xor하기
  - 부호 반전 / 절댓값화
    - 맨앞 MSB 만지기
  - (x<0 ? 0:x)과 같은 경우 (RELU)
3.11.6 Floating Point Comparison Operations
- 아무래도 수를 비교는 해야겠지
  - ucomiss / ucomisd
  - S1와 S2 비교
  - 늘 그랬듯 ZF, CF, PF를 설정한다
  - 하나라도 NaN이면, 세 플래그를 다 킨다!
3.11.7 Observations about Floating-Point Code
- AVX2가 float에 대해 정수랑 비슷하지만, 훨씬더 다양한 명령어와 형식을 포함하는걸 알 수 있었다.
- 또한 패킹된 데이터에 병렬연산을 수행해서 더 빠르게 실행시킬수도 있다.
  - 요새 gcc가 해주더라

CSAPP 3.11 Floating-Point Code

📝 상세 정리
#

❔질문 사항
#

🔗 참고 자료
#

📝 상세 정리#

❔질문 사항#

🔗 참고 자료#

📝 상세 정리
#

❔질문 사항
#

🔗 참고 자료
#