Performanta Modelului
PCA (150 componente, whitened) + SVM (kernel RBF)
Matricea de Confuzie
Randul \(i\), coloana \(j\): numarul de imagini din clasa \(i\) clasificate ca \(j\).
Diagonala principala contine predictiile corecte. Idealul este ca toata masa sa fie concentrata acolo.
SVM vs Eigenfaces clasic
Aceeasi impartire train/test, 150 componente PCA:
- SVM RBF: 87,3% acuratete
- Nearest centroid (Turk-Pentland clasic, fara whitening): 64,3%
- Nearest centroid + whitening: 88,5% (usor peste SVM)
- 1-NN euclidian: ~74%
Pe acest dataset, factorul critic este whitening-ul, nu alegerea clasificatorului. Cand componentele PCA sunt normalizate la varianta unitara, ipoteza implicita a metodei nearest centroid (clase aproximativ sferice) este satisfacuta, iar avantajul SVM se diminueaza.
Distributia claselor
Dezechilibru puternic: George W. Bush are de ~7x mai multe imagini
decat Ariel Sharon. Compensat cu class_weight='balanced'.
Acuratete per persoana
Clasele cu mai putine imagini tind sa aiba acuratete mai mica.
Raport de clasificare
Celulele sunt colorate: verde = ≥ 0.85, galben = 0.65 - 0.85, rosu = < 0.65. Linia finala = medie ponderata.
Cum se citesc metricile
Cele patru cadrane pentru o clasa fixata \(c\).
Precizie: din pozele etichetate ca \(X\), cate sunt chiar \(X\). \(P = \dfrac{\text{TP}}{\text{TP} + \text{FP}}\).
Recall: din toate pozele care sunt chiar \(X\), cate le-a gasit modelul. \(R = \dfrac{\text{TP}}{\text{TP} + \text{FN}}\).
F1-score: media armonica: \(F_1 = \dfrac{2 P R}{P + R}\).
Support: numarul de exemple per clasa in setul de test.
| Persoana | Precizie | Recall | F1-score | Support |
|---|---|---|---|---|
| Ariel Sharon | 1.00 | 0.62 | 0.77 | 16 |
| Colin Powell | 0.81 | 0.91 | 0.86 | 47 |
| Donald Rumsfeld | 0.90 | 0.79 | 0.84 | 24 |
| George W Bush | 0.88 | 0.97 | 0.92 | 106 |
| Gerhard Schroeder | 0.94 | 0.68 | 0.79 | 22 |
| Tony Blair | 0.85 | 0.79 | 0.82 | 29 |
| Medie ponderata | 0.88 | 0.87 | 0.87 | 244 |
Scree Plot: Varianta Explicata
Cat din varianta totala captureaza primele \(k\) componente. Linia rosie marcheaza pragul de 95%.
Eroare de reconstructie vs numarul de componente (k)
Aici \(k\) reprezinta numarul de componente PCA folosite la reconstructie. Eroarea medie patratica (Mean Squared Error, MSE) scade pe masura ce adaugam componente. Complementar scree plot-ului: perspectiva din unghiul erorii.
Proiectie PCA 2D
Fiecare punct este o imagine proiectata pe primele doua componente principale \((z_1, z_2)\). Separabilitatea partiala vizibila aici sugereaza ca, pentru numarul intreg de 150 de componente, atat SVM cat si clasificatori simpli pe distanta euclidiana (cu whitening) ajung la separare buna.