arytmetyka zmiennopozycyjna

FEMO · Post autor: **FEMO** » 5 gru 2008, o 18:49

Rozpatrzmy arytmetyki przenośne binary 16 a binary 32 o formacie opisanym w standardzie IEEE 754. Niech x będzie liczbą znormalizowaną o następującej reprezentacji bitowej w arytmetyce binary16

\(\displaystyle{ |s|c_{4}...c_{1}c_{0}|d_{1}...d_{}d_{10}|}\)

jaka jest reprezentacja bitowa tej samej liczby x w arytmetyce binary32?

jak rozwiązać to zadanie?

Fibik · Post autor: **Fibik** » 5 gru 2008, o 22:45

chyba jakoś tak:
|s|111c4..c0|d1..d10 0..0]

FEMO · Post autor: **FEMO** » 6 gru 2008, o 13:36

sprawdziłem to dla jakiejś liczby i chyba raczej będzie tak:

|s|c4...c0 111|d1...d10 0...0|

Fibik · Post autor: **Fibik** » 6 gru 2008, o 16:53

A uwzględniłeś odwracanie słów, które występuje w procach intela?

FEMO · Post autor: **FEMO** » 6 gru 2008, o 17:10

w czym występuje?

spajder · Post autor: **spajder** » 6 gru 2008, o 18:16

chodzi o kowencję Little Endian. Nie ma ona tu znaczenia, liczbę tę odczytujemy jako całe 32 bity a nie po 8 bitów (choć w pamięci rzeczywiście będzie to poprzestawiane)

FEMO · Post autor: **FEMO** » 6 gru 2008, o 20:24

wiec w koncu jak bedzie wygladala ta liczba?

Fibik · Post autor: **Fibik** » 7 gru 2008, o 17:31

Musisz to zwyczajnie przeliczyć:

zapis: s|c|d = s|...c1c0|d0d1...
\(\displaystyle{ x = (-1)^s\cdot 2^{c-b}\cdot d}\)

wykładnik: w = c-b

Dla float32 bias: b = 127 = 2^7-1 = 0111111b; długość c wynosi 8 bitów: lc = 8;
a dla tego 16 bitowego masz: lc = 5, czyli b = 2^4 - 1 = 15 = 01111,

czyli w float mamy takie coś:
w = c-127 i to musi być równe w przypadku 16 bitowego: w' = c' - 15
w = w', czyli c' - 15 = c-127 => c = c' + 127 - 15 = c' + 112 = c' + 01110000b

czyli wychodzi że trzeba dodać tam po prostu 112 do cechy...
sprawdzimy:
x = 1.5 = 3/2 = 2*3/4 = 2^1*(1/2 + 1/4)

16: 0|1+15|3 = 0|10000|110...
32: 0|1+127|3 = 0|10000000|110..., czyli tu wypełniamy zerami.
[W maszynie będzie tak: 0|10000000|10... najstarszy bit mantysy nie jest zapisywany w float i double - ma zawsze wartość 1]

x = 3/32 = 2^-3 * (1/2+1/4)
16: 0|-3 + 15|3 = 0|01100|110...
32: 0|-3 + 127|3 = 0|01111100|110... tu już nie wypełniamy zerami.

nie ma tu prostego wypełniania... trzeba dodawać 112:
10000 = 16 => 16 + 112 = 128 = 10000000
01100 = 12 => 12 + 112 = 124 = 01111100