-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathgestione_dati.py
64 lines (59 loc) · 2.21 KB
/
gestione_dati.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
from moduli import *
import numpy as np
# Associo a ciasuna classe di immagini il relativo intero assegnato come label dai creatori del dataset
label_ind_by_names = {
"Aeroplani": 0,
"Automobili": 1,
"Uccelli": 2,
"Gatti": 3,
"Cervi": 4,
"Cani": 5,
"Rane": 6,
"Cavalli": 7,
"Navi": 8,
"Camion": 9,
}
# Metodo implementato dai fornitori del dataset Cifar-10 per importare i dati
def unpickle(file):
import pickle
with open(file, 'rb') as fo:
dict = pickle.load(fo, encoding='bytes')
return dict
# Importo i dati e ottengo i tensori per le immagini e per le relative classi
def importa_dati(directory):
nomefil=r"\data_batch_"
nomefil2=r"\test_batch"
indirizzo_dati=directory+nomefil
indirizzo_dati2=directory+nomefil2
dati_ris=[]
risp=[]
for i in range(5):
pr=unpickle(indirizzo_dati+str(i+1))
X=pr.get(b'data')
y=pr.get(b'labels')
cont=0
for i in X:
sol=[i[0:1024],i[1024:2048],i[2048:3073]]
dati_ris.append(np.array(sol).reshape(3,32,32))
risp.append(y[cont])
cont+=1
pr=unpickle(indirizzo_dati2)
X=pr.get(b'data')
y=pr.get(b'labels')
cont=0
# Separo i tre canali RGB e li transormo in matrici quadrate usandu numpy
for i in X:
sol=[i[0:1024],i[1024:2048],i[2048:3073]]
dati_ris.append(np.array(sol).reshape(3,32,32))
risp.append(y[cont])
cont+=1
return th.tensor(np.array(dati_ris)) , th.tensor((np.array(risp)))
# Metodo per separare l'insieme di training da quello di validation e test
def split_dataset(dati: th.Tensor, risposta: th.Tensor, prop_train):
dim=dati.size()[0]
# Genero casualmente una permutazione degli indici corrispondenti a ciascun immagine
idx_rand = th.randperm(dim)
dim_train=int(dim*prop_train) # Ricavo la dimensione dell'insieme di training
idx_train=idx_rand[0:dim_train] # Scelgo gli indici delle immagini da assegnare all'insieme di training
idx_test=idx_rand[dim_train:dim] # I rimanenti andranno nell'altro dataset
return dati[idx_train], risposta[idx_train],dati[idx_test], risposta[idx_test]