Banque, analyse des données quantitatives, création d'un modèle, organisme de prêts, régression logistique, procédure Stepwise, évaluation des performances, arbres de décision
Ce travail d'analyse des données quantitatives consiste à mettre en pratique certains outils d'analyse, dans le cadre d'une étude de cas. Notre rôle dans cette étude de cas est de construire un modèle permettant à un organisme de prêts de prendre des décisions sur l'octroi ou non d'un prêt, et ce, sur base de données connues. Ces données sont un ensemble de 22 variables explicatives, continues ou catégorielles, et d'une variable dépendante, la variable réponse, qui est dichotomique.
Nous disposons d'un échantillon de 700 données avec lequel nous allons essayer de construire le modèle le plus performant possible, qui permettra d'effectuer la décision de l'octroi du prêt. Le modèle de régression logistique a pour but de modéliser les relations entre une variable dépendante, la variable réponse, et des variables explicatives.
Afin de pouvoir choisir le modèle le plus performant, nous avons besoins de données indépendantes de l'échantillon sur lequel nous construisons le modèle. C'est pourquoi nous avons préalablement divisé notre échantillon en deux : le training set sur lequel nous construisons les différents modèles, et la validation set sur lequel nous essayons chacun de ces modèles. Une fois notre modèle le plus performant sélectionné, nous l'appliquerons sur le « test set ». Le bénéfice obtenu sera la référence de qualité de notre modèle pour l'organisme de prêts.
Afin de comparer les performances obtenues par les différents modèles, il nous semble pertinent d'examiner les différentes matrices de confusions pour chacun des modèles, ainsi que leurs taux d'erreur, et ce, sur le « validation set ».
Il existe deux types d'erreurs différentes : l'erreur de type 1 qui consiste à accorder un crédit à un mauvais payeur, et l'erreur de type 2 qui consiste à refuser un crédit à un bon payeur. Remarquons que, si l'erreur de type 2 représente un manque à gagner pour l'entreprise, l'erreur de type 1 est nettement plus importante, car elle produit une perte plus importante. Le taux d'erreur (qui reprend la somme des deux types d'erreurs) est, dans notre étude, moins important que l'erreur de type 1, mais représente un point de comparaison des performances des modèles.
[...] C'est pourquoi nous avons préalablement divisé notre échantillon en 2 : le training set sur lequel nous construisons les différents modèles, et la validation set sur lequel nous essayons chacun de ces modèles. Une fois notre modèle le plus performant sélectionné, nous l'appliquerons sur le test set Le bénéfice obtenu sera la référence de qualité de notre modèle pour l'organisme de prêts. Nous commencerons par un rappel théorique, et nous expliquerons ensuite notre démarche et nos résultats. Scénario 1 : Phase exploratoire 1. Rappel théorique La régression logistique. [...]
[...] Tentons ici de modéliser la probabilité p que la variable dépendante appartienne à une catégorie spécifique, et ce à l'aide d'une combinaison linéaire des différentes variables explicatives. Mais cette combinaison linéaire donne des résultats pour p compris dans l'ensemble des réels (entre + et - alors que la probabilité p doit être comprise entre 0 et 1. C'est pourquoi nous utilisons alors la transformation logistique de p comme variable dépendante. Nous obtenons ainsi le modèle de régression logistique : Ce qui donne après résolution : Il est ensuite nécessaire d'estimer les coefficients de régression ( afin de pouvoir construire le modèle de régression. [...]
[...] Cette estimation se fait également à l'aide du maximum de vraisemblance, en maximisant la log-vraisemblance en ( : La règle de décision de Bayes. La règle de décision de Bayes a pour objectif de déterminer quelle décision prendre à partir de la sortie du classifieur. Le principe est de minimiser le risque de classifications incorrectes, car ces dernières engendrent des coûts. Il est utile de rappeler la règle générale, mais nous ne nous étendrons pas dessus, étant donné que, pour s'adapter aux objectifs du travail, nous utiliserons surtout la règle de décision qui consiste à maximiser les bénéfices de l'entreprise. [...]
[...] Il faut alors tenter de trouver les valeurs de ( qui maximisent cette log- vraisemblance, pour dégager les meilleurs estimateurs de ces coefficients de régression. Pour ce faire, un des algorithmes les plus souvent utilisés est celui de Newton-Raphson, mais nous ne détaillerons pas cette démarche ici Cas particulier : réponse dichotomique. Intéressons-nous maintenant au cas particulier qui concerne plus notre travail, à savoir le cas où la variable dépendante est dichotomique, c'est- à-dire qu'elle peut être classée dans 2 catégories. Nous pouvons alors estimer les probabilités a posteriori de tomber dans la catégorie s : avec s =1ou2. [...]
[...] Il convient tout d'abord de faire la différence entre deux types de variables explicatives : les variables continues et les variables catégorielles. En effet, l'étude univariée des variables continues aboutira à des analyses de distributions, de moyenne, d'écarts-types, etc , alors que celle des variables catégorielles fournira des résultats moins nombreux (probabilité de tomber dans une catégorie spécifique, nombre d'individus dans chaque catégorie, C'est pourquoi nous avons repris ici, à titre d'exemple, l'analyse univariée d'une variable continue. Les résultats obtenus à l'aide du logiciel SAS/JMP, pour la variable montant sont repris sous la forme d'un histogramme, d'un box plot, et des valeurs de moyenne, des quantiles, etc. [...]
Référence bibliographique
Source fiable, format APALecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture