Performanta Modelului

PCA (150 componente, whitened) + SVM (kernel RBF)

87.30% pe 244 imagini de test

Matricea de Confuzie

Randul \(i\), coloana \(j\): numarul de imagini din clasa \(i\) clasificate ca \(j\).

Confusion matrix

Diagonala principala contine predictiile corecte. Idealul este ca toata masa sa fie concentrata acolo.

SVM vs Eigenfaces clasic

Aceeasi impartire train/test, 150 componente PCA:

  • SVM RBF: 87,3% acuratete
  • Nearest centroid (Turk-Pentland clasic, fara whitening): 64,3%
  • Nearest centroid + whitening: 88,5% (usor peste SVM)
  • 1-NN euclidian: ~74%

Pe acest dataset, factorul critic este whitening-ul, nu alegerea clasificatorului. Cand componentele PCA sunt normalizate la varianta unitara, ipoteza implicita a metodei nearest centroid (clase aproximativ sferice) este satisfacuta, iar avantajul SVM se diminueaza.

Distributia claselor

Dezechilibru puternic: George W. Bush are de ~7x mai multe imagini decat Ariel Sharon. Compensat cu class_weight='balanced'.

Class distribution
Acuratete per persoana

Clasele cu mai putine imagini tind sa aiba acuratete mai mica.

Accuracy per class
Raport de clasificare

Celulele sunt colorate: verde = ≥ 0.85, galben = 0.65 - 0.85, rosu = < 0.65. Linia finala = medie ponderata.

Cum se citesc metricile
TP/FN/FP/TN quadrants

Cele patru cadrane pentru o clasa fixata \(c\).

Precizie: din pozele etichetate ca \(X\), cate sunt chiar \(X\). \(P = \dfrac{\text{TP}}{\text{TP} + \text{FP}}\).

Recall: din toate pozele care sunt chiar \(X\), cate le-a gasit modelul. \(R = \dfrac{\text{TP}}{\text{TP} + \text{FN}}\).

F1-score: media armonica: \(F_1 = \dfrac{2 P R}{P + R}\).

Support: numarul de exemple per clasa in setul de test.

Persoana Precizie Recall F1-score Support
Ariel Sharon 1.00 0.62 0.77 16
Colin Powell 0.81 0.91 0.86 47
Donald Rumsfeld 0.90 0.79 0.84 24
George W Bush 0.88 0.97 0.92 106
Gerhard Schroeder 0.94 0.68 0.79 22
Tony Blair 0.85 0.79 0.82 29
Medie ponderata 0.88 0.87 0.87 244
Scree Plot: Varianta Explicata

Cat din varianta totala captureaza primele \(k\) componente. Linia rosie marcheaza pragul de 95%.

Scree plot
Eroare de reconstructie vs numarul de componente (k)

Aici \(k\) reprezinta numarul de componente PCA folosite la reconstructie. Eroarea medie patratica (Mean Squared Error, MSE) scade pe masura ce adaugam componente. Complementar scree plot-ului: perspectiva din unghiul erorii.

Reconstruction error
Proiectie PCA 2D

Fiecare punct este o imagine proiectata pe primele doua componente principale \((z_1, z_2)\). Separabilitatea partiala vizibila aici sugereaza ca, pentru numarul intreg de 150 de componente, atat SVM cat si clasificatori simpli pe distanta euclidiana (cu whitening) ajung la separare buna.

PCA 2D scatter