Rémi Flamary

Site web professionel

SVM avec des étiquettes incertaines

Description

Les SVM sont des algorithmes de discrimination efficaces mais ils ne peuvent pas être utilisés tels quels dans le cas où les données contiennent des étiquettes certaines {-1,1} et des étiquettes incertaines correspondant à un estimé de probabilité à posteriori [0,1].

Nous nous attaquons à ce problème dans notre article SSP2011 :

E. Niaf, R. Flamary, C. Lartizien, S. Canu, Handling uncertainties in SVM classification, IEEE Workshop on Statistical Signal Processing , 2011.
Abstract: This paper addresses the pattern classification problem arising when available target data include some uncertainty information. Target data considered here is either qualitative (a class label) or quantitative (an estimation of the posterior probability). Our main contribution is a SVM inspired formulation of this problem allowing to take into account class label through a hinge loss as well as probability estimates using epsilon-insensitive cost function together with a minimum norm (maximum margin) objective. This formulation shows a dual form leading to a quadratic problem and allows the use of a representer theorem and associated kernel. The solution provided can be used for both decision and posterior probability estimation. Based on empirical evidence our method outperforms regular SVM in terms of probability predictions and classification performances.
BibTeX:
@inproceedings{ssp2011,
author = { Niaf, E. and Flamary, R. and Lartizien, C. and Canu, S.},
title = {Handling uncertainties in SVM classification},
booktitle = { IEEE Workshop on Statistical Signal Processing },
editor = {},
year = {2011}
} 

En résumé, nous apprenons une fonction discriminante qui maximise les performances en classification sur les étiquettes certaines et qui prédit bien les probabilités sur les étiquettes incertaines. Notre approche a montré de bons résultats en terme de classification et en terme de prédiction probabiliste lorsque comparé à l'algorithme de Platt.

Il nous a été suggéré que dans nos travaux, nous nous attaquons à un problème proposé dans le livre Learning with kernels par B. Scholkopf and A. Smola. Il est en effet très similaire au problème 7.11 de la page 223 de ce très bon livre. Nous avons donc proposé une nouvelle manière de résoudre ce problème en prenant en compte une information probabiliste.

Téléchargement

Version courante : 0.2

Téléchargement : svm_uncertain_labels.zip

Installation

Notre code nécessite l'utilisation de la toolbox SVM and Kernel Methods Matlab Toolbox. Une manière simple de faire fonctionner tout ça est de la télécharger ici et de l'extraire dans un sous dossier de notre code.

  • Télécharger les fichiers zip (both svm_uncertain_labels.zip et SVM-KM).
  • Les extraire (SVM-KM doit être dans un sous dossier de notre code)
  • Essayer d'exécuter un des fichiers de test sous matlab (test*.m).

Informations

Ce paquet contient notre article, une fonction Matlab permettant d'apprendre avec des étiquettes incertaines (usvmclass.m), et 3 scriptes de test correspondant aux expérimentations numériques de notre article (test*.m). Le code est Open Source et peut être redistribué, n'hésitez pas à nous envoyer vos modifications.

Ce code est le résultat de travaux collaboratifs avec Emilie Niaf, Carole Lartizien et Stéphane Canu.