Πιθανότητες – Λογιστική Παλινδρόμηση

Logistic regression

 

Εισαγωγή 

Οι πιθανότητες κυμαίνονται μεταξύ 0 και 1, και εκφράζουν την πιθανότητα ενός συμβάντος ως αναλογία τόσο των εμφανίσεων όσο και των μη συμβάντων. Το 0 είναι το χαμηλότερο όριο και εκφράζει την μειωμένη πιθανότητα ενώ το 1 είναι το υψηλότερο όριο και εκφράζει την αυξανόμενη πιθανότητα.

Η λογιστική παλινδρόμηση (Logistic regression) αποτελεί ένα μοντέλο ταξινόμησης των τιμών μιας μεταβλητής απόκρισης Υ με βάση τη θεωρία των πιθανοτήτων. Στο μοντέλο αυτό όπου η μεταβλητή Υ συνήθως έχει δυαδικό χαρακτήρα (λαμβάνει δύο τιμές) και στοχεύεται η πρόβλεψη της έκβασης αυτής από ένα πλήθος προβλεπτικών μεταβλητών που μπορεί να είναι ονομαστικές, τακτικές ή ποσοτικές.

Υπάρχουν τρεις κατηγορίες λογιστικής παλινδρόμησης οι οποίες είναι οι εξής: 

Διωνυμική λογιστική παλινδρόμηση 

Δυαδική (binary) εξαρτημένη μεταβλητή, η οποία αποτελείται από δύο κατηγορίες. Η δυαδική λογιστική παλινδρόμηση αποτελεί μια διωνυμική εξίσωση στην οποία η μεταβλητή απόκρισης Υ είναι το τυχαίο αποτέλεσμα εμφάνισης μιας από δύο δυνητικές εκβάσεις του τύπου επιτυχία ή αποτυχία.

Αποτελεί μέρος κατηγορικών στατιστικών μοντέλων γνωστών ως Γενικευμένα Γραμμικά μοντέλα (McCullagh & Nelder, 1989), τα οποία περιλαμβάνουν τη γνωστή κλασική παλινδρόμηση, την ανάλυση διακύμανσης και συνδιακύμανσης και τη λογαριθμογραμμική παλινδρόμηση. 

Η μέθοδος αυτή επιτρέπει την πρόβλεψη των τιμών εξαρτημένης διμερούς μεταβλητής μορφής από ένα πλήθος ανεξάρτητων μεταβλητών, οι οποίες μπορεί να είναι ποσοτικές, διχοτομικές ή πολυμερείς ή και συνδυασμοί αυτών. 

Τακτική λογιστική παλινδρόμηση

Τακτική (ordinal) εξαρτημένη μεταβλητή συνίσταται από τρεις ή περισσότερες κατηγορίες. Η πολλαπλή τακτική παλινδρόμηση (Ordinal regression) επιλέγεται στις περιπτώσεις όπου η εξαρτημένη μεταβλητή διακρίνεται σε περισσότερες από δύο κατηγορίες οι οποίες δύνανται να διαβαθμιστούν με κάποια λογική έννοια.

Θα πρέπει να αποφεύγεται η εφαρμογή της τακτικής παλινδρόμησης στη θέση της κλασικής γραμμικής παλινδρόμησης, για το λόγο ότι οι τακτικές τιμές, στη θέση συνεχών της εξαρτημένης μεταβλητής παραβιάζει τις υποθέσεις της παλινδρόμησης με τη μέθοδο ελάχιστων τετραγώνων (Garson 2011). Αφού δεν μπορεί να καθοριστεί η προσεγγισιμότητα των τακτικών τιμών της εξαρτημένης μεταβλητής ως προς τη μετρική κλίμακα ισοδιαστημάτων, η χρησιμοποίησή της στην κλασική γραμμική παλινδρόμηση είναι υπό αμφισβήτηση. Η αμφισβήτηση είναι αντίστοιχη με αυτή που εγείρεται κατά τη χρησιμοποίηση τακτικών μεταβλητών της κλίμακας Likert, στη γραμμική παλινδρόμηση, την παραγοντική ανάλυση, την ανάλυση συστάδων, τη διακριτική ανάλυση, κ.α.

Ονομαστική λογιστική παλινδρόμηση 

Ονομαστική (Nominal) ή πολυωνυμική (polynomial) μεταβλητή απόκρισης περιέχει τρεις ή περισσότερες κατηγορίες χωρίς κάποια φυσική διαβάθμιση. Επιλέγεται στις περιπτώσεις όπου η εξαρτημένη μεταβλητή είναι ονομαστική και περιέχει οπωσδήποτε περισσότερες από δύο αδιαβάθμητες κατηγορίες.

Η τεχνική, γνωστή και ως πολυμερής ή πολυωνυμική παλινδρόμηση, παραδέχεται ότι κάθε ανεξάρτητη μεταβλητή έχει μία μόνο τιμή για κάθε παρατήρηση και ότι η εξαρτημένη δεν μπορεί να προβλεφθεί́ άριστα από μία μόνο ανεξάρτητη μεταβλητή για καθεμία παρατήρηση. Οι ανεξάρτητες μεταβλητές θα πρέπει να μη συσχετίζονται ισχυρά μεταξύ τους. Στα μοντέλα όπου η εξαρτημένη μεταβλητή έχει τη μορφή θεμάτων πολλαπλής επιλογής (multiple choice items), με τη δυνατότητα επιλογής περισσότερων της μιας κατηγοριών τη φορά, η τεχνική προϋποθέτει ότι ισχύει η ανεξαρτησία των λοιπών μη σχετικών εναλλακτικών επιλογών. 

Στην πολυμερή λογιστική παλινδρόμηση, μία από τις κατηγορίες της εξαρτημένης μεταβλητής επιλέγεται ως βασική ή προς σύγκριση ή αλλιώς κατηγορία αναφοράς (baseline category). Χωριστές αναλογίες πιθανοτήτων εκτιμώνται για όλες τις ανεξάρτητες μεταβλητές για καθεμία κατηγορία της εξαρτημένης, εκτός από τη βασική η οποία αποκλείεται από περαιτέρω ανάλυση.

Αξιοπιστία

Η αξιοπιστία των αποτελεσμάτων της λογιστικής παλινδρόμησης επηρεάζεται κατά πολύ από το δειγματοληπτικό μέγεθος της έρευνας. Ένας χρυσός κανόνας υπαγορεύει την αντιστοιχία του αριθμού των επιθυμητών εκβάσεων προς τον αριθμό των ανεξάρτητων μεταβλητών. Εάν υπάρχουν ονομαστικές ανεξάρτητες μεταβλητές, όπως, για παράδειγμα, διχοτομικές, ο παραπάνω κανόνας θα ισχύει για το μέγεθος των παρατηρήσεων της ολιγοπληθέστερης κατηγορίας.

Βιβλιογραφία 

Garson, G. D. (2006). Statnotes: Topics in multivariate analysis. Retrieved December4, 71-92.

McCullagh, P., & Nelder, J. A. (2019). Generalized linear models. Routledge.