La régression logistique est une technique ou méthode qui s'applique à prédire ou à expliquer les valeurs prises par une variable BINAIRE (Y). Ceci à partir d'une collection (terme de stat) de variables X binaires ou continues.
Cette méthode particulièrement indiquée et utilisée en médecine, dans l'anamnèse d'une maladie, épidémie...est très intéressante dans le domaine du turf, du fait de sa valeur binaire (0 ou 1, vrai ou faux). Les variables dépendantes, indépendante que l'on peur lui lier sont bien évidemment multiples. Outre l'aspect cheval (animal), les aspects humains (jockey et entraineurs) sont également des variables binaires ou non, prédictives, indépendantes et exogènes (liste non exhaustive).
Cette technique évite les dangers liés à la régression linéaire qui souvent, c'est humain, détermine le choix des variables en fonction du résultat connu. Le gros avantage réside dans le fait que des logiciels adaptés à toutes les plateformes d'ordinateur existent, et le plus souvent sont gratuits. Donc, les logiciels vous permettent d'interroger votre variable Y en lui demandant de vous fournir les variables X qui contribuent à assurer, ou conduisent, à un état "vrai" ou "faux" de la variable Y. Ceci permet, dans une très large mesure, d'alimenter la collection avec des variables X dont on se sait pas au préalable leur rôle dans le résultat. Si pour certaines c'est évident, pour d'autres c'est l'inconnu. Les logiciels permettent de savoir assez précisément l'importance (elle est chiffrée) de chaque variable dans ledit résultat.
Ce qui très intéressant, c'est que cette méthode vous donnera, si vous le souhaitez, les facteurs de vos variables pour trouver le 15 ème d'une course. Ceci implique bien évidemment que l'arrivée de la course soit une des variables X.
Les machines étant très performantes aujourd'hui, le nombre de variables peut être très grand. On peut ainsi cerner les variables qui sont très importantes et celles qui le sont moins. Le hic de l'histoire et d'avoir une base de données recensant le plus de variables possibles afin d'avoir un champ d'investigation le plus étendu possible.
Actuellement je teste l'intégration d'une soixantaine de pronostiqueur de la presse avec une centaine de pronostics issus de routine à la sauce Huber, Dieudonnat, Rodney, Iso, Xeon et j'en oublie...
Personnellement j'ai la chance de collaborer avec un office de la statistique qui me permet d'utiliser en Terminale Serveur leur usine à gaz. Sur le net on trouve Tanagra et R qui sont des supers outils pour la régression logistique, j'ai utilisé un module XLSTAT, mais c'est payant.