Το Kappa του Fleiss στο SPSS

Εισαγωγή 

Το kappa του Fleiss, κ (Fleiss, 1971; Fleiss et al., 2003), είναι ένα μέτρο της συμφωνίας μεταξύ των βαθμολογητών που χρησιμοποιείται για τον προσδιορισμό του επιπέδου συμφωνίας μεταξύ δύο ή περισσότερων βαθμολογητών (επίσης γνωστών ως “κριτών” ή “παρατηρητών”) όταν η μέθοδος αξιολόγησης, γνωστή ως μεταβλητή απόκρισης, μετράταισε μια κατηγορική κλίμακα. Επιπλέον, το kappa του Fleiss χρησιμοποιείται όταν: (α) οι αξιολογούμενοι στόχοι (π.χ. ασθενείς σε ένα ιατρείο, μαθητές που δίνουν εξετάσεις οδήγησης, πελάτες σε ένα εμπορικό κέντρο/εμπορικό κέντρο, μπιφτέκια σε μια αλυσίδα fastfood, κουτιά που παραδίδονται από μια εταιρεία διανομής, σοκολάτες από μια γραμμή συναρμολόγησης) επιλέγονται τυχαία από τον πληθυσμό ενδιαφέροντος αντί να επιλέγονται ειδικά- και (β) οι βαθμολογητές που αξιολογούν αυτούς τους στόχους δεν είναι μοναδικοί και επιλέγονται τυχαία από έναν ευρύτερο πληθυσμό βαθμολογητών. Εξηγούμε αυτές τις τρεις έννοιες – τυχαία επιλογή των στόχων, τυχαία επιλογή των βαθμολογητών και μη μοναδικοί βαθμολογητές – καθώς και τη χρήση του kappa του Fleiss στο παράδειγμα που ακολουθεί.

Ως παράδειγμα για το πώς μπορεί να χρησιμοποιηθεί το kappa του Fleiss, φανταστείτε ότι ο επικεφαλής ενός μεγάλου ιατρικού ιατρείου θέλει να καθορίσει αν οι γιατροί του ιατρείου συμφωνούν για το πότε θα συνταγογραφήσουν σε έναν ασθενή αντιβιοτικά. Ως εκ τούτου, τέσσερις γιατροί επιλέχθηκαν τυχαία από τον πληθυσμό όλων των γιατρών του μεγάλου ιατρείου για να εξετάσουν έναν ασθενή που παραπονιέται για μια ασθένεια που μπορεί να απαιτεί αντιβιοτικά (δηλαδή, οι “τέσσερις τυχαία επιλεγμένοι γιατροί” είναι οι μη μοναδικοί βαθμολογητές και οι “ασθενείς” είναι οι αξιολογούμενοι στόχοι). Οι τέσσερις τυχαία επιλεγμένοι γιατροί έπρεπε να αποφασίσουν αν θα “συνταγογραφούσαν αντιβιοτικά”, “θα ζητούσαν από τον ασθενή να προσέλθει για ένα ραντεβού παρακολούθησης” ή “δεν θα συνταγογραφούσαν αντιβιοτικά” (δηλαδή, όπου “συνταγογράφηση”, “παρακολούθηση” και “μη συνταγογράφηση” είναι τρεις κατηγορίες της ονομαστικής μεταβλητής απόκρισης, απόφαση συνταγογράφησης αντιβιοτικών). Η διαδικασία αυτή επαναλήφθηκε για 10 ασθενείς, όπου σε κάθε περίπτωση, τέσσερις γιατροί επιλέχθηκαν τυχαία από όλους τους γιατρούς του μεγάλου ιατρείου για να εξετάσουν έναν από τους 10 ασθενείς. Οι 10 ασθενείς επιλέχθηκαν επίσης τυχαία από τον πληθυσμό των ασθενών του μεγάλου ιατρείου (δηλαδή, ο “πληθυσμός” των ασθενών του μεγάλου ιατρικό ιατρείο αναφέρεται σε όλους τους ασθενείςτου μεγάλου ιατρικού ιατρείου). Το επίπεδο συμφωνίας μεταξύ των τεσσάρων μη μοναδικών γιατρών για κάθε ασθενή αναλύεται με τη χρήση του kappa του Fleiss. Δεδομένου ότι τα αποτελέσματα έδειξαν πολύ καλή ισχύ συμφωνίας μεταξύ των τεσσάρων μη μοναδικών ιατρών, ο επικεφαλής του μεγάλου ιατρείου αισθάνεται κάπως σίγουρος ότι οι ιατροί συνταγογραφούν αντιβιοτικά στους ασθενείς με παρόμοιο τρόπο. Επιπλέον, η ανάλυση των επιμέρους kappas μπορεί να αναδείξει τυχόν διαφορές στο επίπεδο συμφωνίας μεταξύ των τεσσάρων μη μοναδικών ιατρών για κάθε κατηγορία της ονομαστικής μεταβλητής απάντησης. Για παράδειγμα, τα μεμονωμένα kappas θα μπορούσαν να δείξουν ότι οι γιατροί συμφωνούσαν περισσότερο όταν η απόφαση ήταν να “συνταγογραφήσουν” ή να “μη συνταγογραφήσουν”, αλλά σε πολύ μικρότερη συμφωνία όταν η απόφαση ήταν να “παρακολουθήσουν”. Αξίζει επίσης να σημειωθεί ότι ακόμη και αν οι βαθμολογητές συμφωνούν απόλυτα, αυτό δεν σημαίνει ότι η απόφασή τους είναι σωστή (π.χ. οι γιατροί θα μπορούσαν να κάνουν λάθος διάγνωση των ασθενών, ίσως να συνταγογραφούν αντιβιοτικά πολύ συχνά ενώ δεν είναι απαραίτητο). Αυτό είναι κάτι που πρέπει να λαμβάνετε υπόψη όταν αναφέρετε τα ευρήματά σας, αλλά δεν μπορεί να μετρηθεί με τη χρήση του kappa του Fleiss.

Σε αυτόν τον εισαγωγικό οδηγό για την kappa του Fleiss, περιγράφουμε πρώτα τις βασικές απαιτήσεις και υποθέσεις του kappa του Fleiss. Αυτά δεν είναι πράγματα που θα ελέγξετε στατιστικά χρησιμοποιώντας το SPSS Statistics, αλλά πρέπει να ελέγξετε ότι ο σχεδιασμός της μελέτης σας πληροί αυτές τις βασικές απαιτήσεις/υποθέσεις. Εάν ο σχεδιασμός της μελέτης σας δεν πληροί αυτές τις βασικές απαιτήσεις/υποθέσεις, το kappa του Fleiss είναι ο λανθασμένος στατιστικός έλεγχος για την ανάλυση των δεδομένων σας. Ωστόσο, υπάρχουν συχνά άλλες στατιστικές δοκιμές που μπορούν να χρησιμοποιηθούν αντί αυτών. Στη συνέχεια, παραθέτουμε το παράδειγμα που χρησιμοποιούμε για να παρουσιάσουμε τον τρόπο διεξαγωγής του Fleiss’ kappa με τη χρήση του SPSS Statistics. Ακολουθεί η ενότητα Διαδικασία, όπου παρουσιάζουμε την απλή διαδικασία 6 βημάτων Ανάλυση αξιοπιστίας που χρησιμοποιείται για τη διεξαγωγή του kappa του Fleiss στο SPSS. Στη συνέχεια, εξηγούμε πώς να ερμηνεύετε τα κύρια αποτελέσματα του kappa του Fleiss, συμπεριλαμβανομένης της τιμής kappa, της στατιστικής σημαντικότητας και του διαστήματος εμπιστοσύνης 95%, τα οποία μπορούν να χρησιμοποιηθούν για την αξιολόγηση της συμφωνίας μεταξύ των δύο ή περισσότερων μη μοναδικών βαθμολογητών σας. Συζητάμε επίσης πώς μπορείτε να αξιολογήσετε τα επιμέρους kappa, τα οποία υποδεικνύουν το επίπεδο συμφωνίας μεταξύ των δύο ή περισσότερων μη μοναδικών βαθμολογητών σας για κάθε μία από τις κατηγορίες της μεταβλητής απόκρισης (π.χ. υποδεικνύοντας ότι οι γιατροί ήταν σε μεγαλύτερη συμφωνία όταν η απόφαση ήταν η “συνταγογράφηση” ή η “μη συνταγογράφηση”, αλλά σε πολύ μικρότερη συμφωνία όταν η απόφαση ήταν η “παρακολούθηση”, όπως στο παραπάνω παράδειγμά μας). Στην τελευταία ενότητα, Αναφορικά, εξηγούμε τις πληροφορίες που πρέπει να συμπεριλάβετε κατά την αναφορά των αποτελεσμάτων σας. Στο τέλος περιλαμβάνεται μια ενότητα με βιβλιογραφία και παραπομπές για περαιτέρω ανάγνωση.

Βασικές απαιτήσεις και υποθέσεις του kappa του Fleiss

Το kappa του Fleiss είναι μόνο ένα από τα πολλά στατιστικά τεστ που μπορούν να χρησιμοποιηθούν για την αξιολόγηση της συμφωνίας μεταξύ δύο ή περισσότερων βαθμολογητών όταν η μέθοδος αξιολόγησης (δηλαδή η μεταβλητή απόκρισης) μετράται σε μια κατηγορική κλίμακα (π.χ. Scott, 1955- Cohen, 1960- Fleiss, 1971- Landis and Koch, 1977- Gwet, 2014). Κάθε ένα από αυτά τα διαφορετικά στατιστικά τεστ έχει βασικές απαιτήσεις και υποθέσεις που πρέπει να πληρούνται προκειμένου το τεστ να δώσει έγκυρο/σωστό αποτέλεσμα. Η kappa του Fleiss δεν αποτελεί εξαίρεση. Επομένως, πρέπει να βεβαιωθείτε ότι ο σχεδιασμός της μελέτης σας πληροί τις βασικές απαιτήσεις/υποθέσεις του Fleiss’ kappa. Εάν ο σχεδιασμός της μελέτης σας δεν πληροί αυτές τις βασικές απαιτήσεις/υποθέσεις, η κάππα του Fleiss είναι το λανθασμένο στατιστικό τεστ για την ανάλυση των δεδομένων σας. Ωστόσο, υπάρχουν συχνά άλλες στατιστικές δοκιμασίες που μπορούν να χρησιμοποιηθούν αντ’ αυτού. Σε αυτή την ενότητα, παραθέτουμε έξι βασικές απαιτήσεις/υποθέσεις της κάππα του Fleiss.

Απαίτηση/υπόθεση #1: Η μεταβλητή απόκρισης που αξιολογείται από τους δύο ή περισσότερους βαθμολογητές σας είναι μια κατηγορική μεταβλητή (δηλαδή, έχετε μια τακτική ή ονομαστική μεταβλητή). Μια κατηγορική μεταβλητή μπορεί να είναι είτε ονομαστική μεταβλητή είτε τακτική μεταβλητή, αλλά το kappa του Fleiss δεν λαμβάνει υπόψη τη διατεταγμένη φύση μιας τακτικής μεταβλητής. Παραδείγματα ονομαστικών μεταβλητών περιλαμβάνουν το φύλο (με δύο κατηγορίες: “άνδρας” και “γυναίκα”), την εθνικότητα (με τρεις κατηγορίες: “Αφροαμερικανός”, “Καυκάσιος” και “Ισπανόφωνος”), τον τύπο μεταφορικού μέσου (τέσσερις κατηγορίες: “ποδήλατο”, “λεωφορείο”, “αυτοκίνητο” και “τρένο”) και το επάγγελμα (πέντε κατηγορίες: “σύμβουλος”, “γιατρός”, “μηχανικός”, “πιλότος” και “επιστήμονας”). Παραδείγματα τακτικών μεταβλητών περιλαμβάνουν το μορφωτικό επίπεδο (π.χ., με τρεις κατηγορίες: “γυμνάσιο”, “κολέγιο” και “πανεπιστήμιο”), το επίπεδο σωματικής δραστηριότητας (π.χ., με τέσσερις κατηγορίες: “καθιστική”, “χαμηλή”, “μέτρια” και “υψηλή”), το χρόνο αναθεώρησης (π.χ., με πέντε κατηγορίες: “ώρες”, “11-15 ώρες”, “16-20 ώρες” και “21-25 ώρες”), στοιχεία Likert (π.χ., μια 7βάθμια κλίμακα από το “συμφωνώ απόλυτα” έως το “διαφωνώ απόλυτα”), μεταξύ άλλων τρόπων κατάταξης κατηγοριών (π.χ., μια 5βάθμια κλίμακα που εξηγεί πόσο άρεσε στον πελάτη ένα προϊόν, από το “όχι πολύ” έως το “ναι, πολύ”).

Για παράδειγμα, δύο βαθμολογητές θα μπορούσαν να αξιολογήσουν αν η ελιά ενός ασθενούς ήταν “φυσιολογική” ή “ύποπτη” (δηλαδή δύο κατηγορίες)- τέσσερις βαθμολογητές θα μπορούσαν να αξιολογήσουν αν η ποιότητα των υπηρεσιών που παρείχε ένας υπάλληλος εξυπηρέτησης πελατών ήταν “άνω του μέσου όρου”, “μέση” ή “κάτω του μέσου όρου” (δηλαδή τρεις κατηγορίες)- ή τρεις βαθμολογητές θα μπορούσαν να αξιολογήσουν αν το επίπεδο σωματικής δραστηριότητας ενός ατόμου θα έπρεπε να θεωρηθεί “καθιστικό”, “χαμηλό”, “μέτριο” ή “υψηλό” (δηλαδή τέσσερις κατηγορίες).

Απαίτηση/ υπόθεση #2: Οι δύο ή περισσότερες κατηγορίες της μεταβλητής απόκρισης που αξιολογούνται από τους βαθμολογητές πρέπει να είναι αμοιβαία αποκλειόμενες, γεγονός που έχει δύο συνιστώσες. Πρώτον, οι δύο ή περισσότερες κατηγορίες είναι αμοιβαία αποκλειόμενες, επειδή δεν μπορούν να επικαλύπτονται κατηγορίες. Δεύτερον, οι δύο ή περισσότερες κατηγορίες είναι αμοιβαία αποκλειόμενες, επειδή μόνο μία κατηγορία μπορεί να επιλεγεί για κάθε απάντηση. Για παράδειγμα, κατά την αξιολόγηση της ελιάς του ασθενούς, ο δερματολόγος πρέπει να κρίνει ότι η ελιά είναι είτε «φυσιολογική» είτε «ύποπτη». Ο δερματολόγος δεν μπορεί να επιλέξει περισσότερες από μία κατηγορίες για κάθε ασθενή

Σημείωση: Εάν έχετε ένα σχέδιο μελέτης όπου οι κατηγορίες της μεταβλητής απόκρισης δεν είναι αμοιβαία αποκλειόμενες, το κάπα του Fleiss δεν είναι το σωστό στατιστικό τεστ. 

Απαίτηση/υπόθεση #3: Η μεταβλητή απόκρισης που αξιολογείται πρέπει να έχει τον ίδιο αριθμό κατηγοριών για κάθε κριτή. Με άλλα λόγια, όλοι οι αξιολογητές πρέπει να χρησιμοποιούν την ίδια κλίμακα αξιολόγησης. Για παράδειγμα, εάν ένας βαθμολογητής κλήθηκε να αξιολογήσει εάν η ποιότητα των υπηρεσιών που παρείχε ένας υπάλληλος εξυπηρέτησης πελατών ήταν “άνω του μέσου όρου”, “μέτρια” ή “κάτω του μέσου όρου” (δηλαδή τρεις κατηγορίες), ένας δεύτερος βαθμολογητής δεν μπορεί να έχει μόνο δύο επιλογές: “άνω του μέσου όρου” και “κάτω του μέσου όρου” (δηλαδή, δύο κατηγορίες).

Σημείωση: Εάν έχετε ένα σχέδιο μελέτης όπου κάθε μεταβλητή απόκρισης δεν έχει τον ίδιο αριθμό κατηγοριών, το κάπα του Fleiss δεν είναι το σωστό στατιστικό τεστ. 

Απαίτηση/υπόθεση #4: Οι δύο ή περισσότεροι βαθμολογητές δεν είναι μοναδικοί. Όπως αναφέρουν οι Fleiss et al. (2003, σελ. 610-611): “Οι βαθμολογητές που είναι υπεύθυνοι για την αξιολόγηση ενός θέματος δεν θεωρείται ότι είναι οι ίδιοι με εκείνους που είναι υπεύθυνοι για την αξιολόγηση ενός άλλου θέματος”.

Για να κατανοήσετε περαιτέρω αυτό, καθώς και τη διαφορά μεταξύ μη μοναδικών και μοναδικών βαθμολογητών, φανταστείτε μια μελέτη όπου ένας μεγάλος οργανισμός υγείας θέλει να καθορίσει το βαθμό στον οποίο οι ακτινολόγοι συμφωνούν σχετικά με τη σοβαρότητα ενός τύπου τραυματισμού της πλάτης, όπου η σοβαρότητα αξιολογείται σε μία κλίμακα από τον «Βαθμό Ι» (ο πιο σοβαρός), έως τον «Βαθμό ΙΙ», τον «Βαθμό ΙΙΙ» και τον «Βαθμό IV» (ο λιγότερο σοβαρός). Για την αξιολόγηση της σοβαρότητας οι ακτινολόγοι εξετάζουν τις διαφάνειες μαγνητικής τομογραφίας (MRI) που έχουν ληφθεί από την πλάτη του ασθενούς και καλούνται να κρίνουν αν η σοβαρότητα του τραυματισμού της πλάτης του ασθενούς είναι «Βαθμός Ι», «Βαθμός ΙΙ», «Βαθμός ΙΙΙ» ή «Βαθμός IV» (δηλαδή, οι τέσσερις κατηγορίες της μεταβλητής «Σοβαρότητα τραυματισμού της πλάτης»).

Τώρα, φανταστείτε ότι σε αυτή τη μελέτη ο μεγάλος οργανισμός υγείας θέλει να προσδιορίσει το βαθμό στον οποίο πέντε ακτινολόγοι (δηλαδή πέντε βαθμολογητές) συμφωνούν σχετικά με τη σοβαρότητα των τραυματισμών από πόνο στην πλάτη. Επιπλέον, χρησιμοποιούνται συνολικά 20 διαφάνειες μαγνητικής τομογραφίας (δηλ. μία διαφάνεια μαγνητικής τομογραφίας δείχνει τον τραυματισμό της πλάτης για έναν ασθενή). Επίσης, οι ακτινολόγοι που λαμβάνουν μέρος στη μελέτη επιλέγονται τυχαία από το σύνολο των 50 ακτινολόγων του μεγάλου οργανισμού υγείας (δηλ. από το συνολικό πληθυσμό των ακτινολόγων του οργανισμού). Εάν οι ίδιοι πέντε ακτινολόγοι αξιολογούσαν και τις 20 διαφάνειες μαγνητικής τομογραφίας, οι πέντε αυτοί ακτινολόγοι θα χαρακτηρίζονταν ως μοναδικοί βαθμολογητές. Ωστόσο, εάν ένα διαφορετικό σύνολο/ομάδα ακτινολόγων αξιολογούσε καθεμία από τις 20 διαφάνειες μαγνητικής τομογραφίας, οι πέντε αυτοί ακτινολόγοι θα περιγράφονταν ως μη μοναδικοί βαθμολογητές (δηλαδή, πέντε τυχαία επιλεγμένοι ακτινολόγοι από τους 50 ακτινολόγους του μεγάλου οργανισμού βλέπουν και βαθμολογούν την πρώτη διαφάνεια μαγνητικής τομογραφίας, στη συνέχεια, άλλοι πέντε τυχαία επιλεγμένοι ακτινολόγοι βαθμολογούν τη δεύτερη διαφάνεια μαγνητικής τομογραφίας, και ούτω καθεξής, μέχρι να βαθμολογηθούν και οι 20 διαφάνειες μαγνητικής τομογραφίας). Το kappa του Fleiss μετρά το επίπεδο συμφωνίας μεταξύ μη μοναδικών βαθμολογητών.

Σημείωση 1: Όπως αναφέραμε παραπάνω, οι Fleiss et al. (2003, σ. 610-11) δήλωσαν ότι “οι βαθμολογητές που είναι υπεύθυνοι για την αξιολόγηση ενός θέματος δεν θεωρείται ότι είναι οι ίδιοι με εκείνους που είναι υπεύθυνοι για την αξιολόγηση ενός άλλου θέματος”. Υπό αυτή την έννοια, δεν υπάρχει η υπόθεση ότι οι πέντε ακτινολόγοι που βαθμολογούν μια διαφάνεια μαγνητικής τομογραφίας είναι οι ίδιοι ακτινολόγοι που βαθμολογούν μια άλλη διαφάνεια μαγνητικής τομογραφίας. Ωστόσο, παρόλο που οι πέντε ακτινολόγοι επιλέγονται τυχαία από το σύνολο των 50 ακτινολόγων του μεγάλου οργανισμού υγείας, είναι πιθανό ορισμένοι από τους ακτινολόγους να επιλεγούν για να αξιολογήσουν περισσότερες από μία από τις 20 διαφάνειες μαγνητικής τομογραφίας.

Σημείωση 2: Εάν έχετε ένα σχέδιο μελέτης όπου οι δύο ή περισσότεροι βαθμολογητές δεν είναι μη μοναδικοί (δηλαδή είναι μοναδικοί), το kappa του Fleiss δεν είναι το σωστό στατιστικό τεστ.

Απαίτηση/υπόθεση #5: Οι δύο ή περισσότεροι αξιολογητές είναι ανεξάρτητοι, πράγμα που σημαίνει ότι η κρίση του ενός αξιολογητή δεν επηρεάζει την κρίση του άλλου αξιολογητή. Για παράδειγμα, εάν οι ακτινολόγοι στο παραπάνω παράδειγμα συζητούν την αξιολόγησή τους για τις διαφάνειες της μαγνητικής τομογραφίας πριν καταγράψουν την απάντησή τους ή εάν απλώς βρίσκονται στο ίδιο δωμάτιο όταν κάνουν την αξιολόγησή τους, αυτό θα μπορούσε να επηρεάσει την αξιολόγηση που κάνουν. Είναι σημαντικό το ενδεχόμενο τέτοιας μεροληψίας να εξαλειφθεί όσο το δυνατόν περισσότερο από το σχεδιασμό της μελέτης.

Απαίτηση/υπόθεση #6: Οι αξιολογούμενοι στόχοι (π.χ. ασθενείς σε ένα ιατρείο, μαθητές που δίνουν εξετάσεις οδήγησης, πελάτες σε ένα εμπορικό κέντρο, μπιφτέκια σε μια αλυσίδα fast food, κουτιά που παραδίδονται από μια εταιρεία διανομής, πλάκες σοκολάτας από μια γραμμή συναρμολόγησης) επιλέγονται τυχαία από τον πληθυσμό ενδιαφέροντος και όχι ειδικά.

Για παράδειγμα, οι τυχαία επιλεγμένοι, μη μοναδικοί ακτινολόγοι στο παραπάνω παράδειγμα βαθμολόγησαν 20 διαφάνειες μαγνητικής τομογραφίας. Αυτές οι 20 διαφάνειες μαγνητικής τομογραφίας επιλέχθηκαν τυχαία από όλες τις διαφάνειες μαγνητικής τομογραφίας της πλάτης των ασθενών στον μεγάλο οργανισμό υγείας (δηλαδή, πρόκειται για τον συνολικό πληθυσμό των διαφανειών μαγνητικής τομογραφίας από τον οποίο επιλέγονται τυχαία οι 20 διαφάνειες μαγνητικής τομογραφίας). Οι διαφάνειες μαγνητικής τομογραφίας από τις οποίες επιλέχθηκαν οι 20 ήταν όλες του ίδιου τύπου. Αυτό είναι σημαντικό, διότι εάν ορισμένες από τις διαφάνειες μαγνητικής τομογραφίας είχαν ληφθεί με τον πιο σύγχρονο εξοπλισμό, ενώ άλλες διαφάνειες μαγνητικής τομογραφίας είχαν ληφθεί με παλαιό εξοπλισμό όπου η εικόνα ήταν λιγότερο καθαρή, αυτό θα εισάγει μεροληψία. Ως άλλο παράδειγμα, θεωρήστε το πρώτο μας παράδειγμα με τέσσερις τυχαία επιλεγμένους γιατρούς σε ένα μεγάλο ιατρικό ιατρείο, οι οποίοι αξιολόγησαν αν 10 ασθενείς θα έπρεπε να λάβουν αντιβιοτικά. Αυτοί οι 10 ασθενείς έπρεπε να επιλεγούν τυχαία από τον συνολικό πληθυσμό των ασθενών του μεγάλου ιατρείου (δηλαδή, ο “πληθυσμός” των ασθενών του μεγάλου ιατρείου αναφέρεται σε όλους τους ασθενείς του μεγάλου ιατρείου).

Σημείωση: Εάν έχετε ένα σχέδιο μελέτης όπου οι αξιολογούμενοι στόχοι δεν επιλέγονται τυχαία, το kappa του Fleiss δεν είναι το σωστό στατιστικό τεστ.

Επομένως, πριν από τη διεξαγωγή μιας ανάλυσης κάππα του Fleiss, είναι κρίσιμο να ελέγξετε πρώτα αν ο σχεδιασμός της μελέτης σας πληροί αυτές τις έξι βασικές απαιτήσεις/υποθέσεις. Εάν ο σχεδιασμός της μελέτης σας δεν πληροί τις απαιτήσεις/υποθέσεις #1 (δηλ. έχετε μια κατηγορική μεταβλητή απόκρισης), #2 (δηλ. οι δύο ή περισσότερες κατηγορίες αυτής της μεταβλητής απόκρισης είναι αμοιβαία αποκλειόμενες), #3 (δηλ. ο ίδιος αριθμός κατηγοριών αξιολογείται από κάθε κριτή), #4 (δηλ, οι δύο ή περισσότεροι αξιολογητές δεν είναι μοναδικοί), #5 (δηλ. οι δύο ή περισσότεροι αξιολογητές είναι ανεξάρτητοι), και #6 (δηλ. οι στόχοι είναι τυχαίο δείγμα από τον πληθυσμό), το kappa του Fleiss είναι το λανθασμένο στατιστικό τεστ για την ανάλυση των δεδομένων σας.

Όταν είστε βέβαιοι ότι ο σχεδιασμός της μελέτης σας έχει ικανοποιήσει και τις έξι βασικές απαιτήσεις/υποθέσεις που περιγράφονται παραπάνω, μπορείτε να πραγματοποιήσετε μια ανάλυση κάππα του Fleiss. Στις ενότητες που ακολουθούν θα σας δείξουμε πώς να το κάνετε αυτό χρησιμοποιώντας το SPSS Statistics, με βάση το παράδειγμα που παραθέτουμε στην επόμενη ενότητα.