Μπορεί να υπάρχουν τριών ειδών ψέμματα. Η στατιστική όμως δεν είναι ένα από αυτά.

08-01-2015
 
Submit to FacebookSubmit to TwitterSubmit to Google PlusSubmit to StumbleuponSubmit to Delicious

Ξεκινάω με ερώτηση. Εάν έχουμε έναν άνθρωπο που έχει φάει δύο πιάτα κοτόπουλο και έναν ακόμα που δεν έχει φάει κανένα, πόσο τοις εκατό του πληθυσμού έχει φάει ένα πιάτο κοτόπουλο; Καμιά ιδέα κανείς; Βρασίδα, κατέβασε το χέρι σου. Κανείς άλλος; (Πόσο εύχομαι να ήταν διαδραστικό το κείμενο τώρα!). Εντάξει ρε Βρασίδα, για πες μας : «Οι μισοί, το 50% δηλαδή.». Λυπάμαι, έδωσες τη λάθος απάντηση. Η σωστή απάντηση είναι «Δεν έχω καμία γαμημένη ιδέα» και οι παραπλήσιες εκδοχές της. Αλλά θα επιστρέψουμε σε αυτό σε λίγο.

don-draper-has-no-idea

Έχει γίνει λίγο βαρετό πλέον το παιχνιδάκι με τη στατιστική και τα ψέμματα. Καταλήγει ακόμα πιο εκνευριστικό όταν οι Βρασιδόμορφοι θα επικαλεστούν κάποια φράση κάποιας σεβαστής προσωπικότητας θεωρώντας ότι αφού είναι αποδεκτό το πρόσωπο, ε, θα είναι αποδεκτές και όλες του οι απόψεις. Guess what? Δεν είναι έτσι. O Mark Twain μπορεί να είναι ένας πετυχημένος συγγραφέας (Exhibit A : Tom Sawyer, Exhibit B : Huckleberry Finn), αυτό όμως δεν σημαίνει ότι έχει δίκιο σε όλα όσα είπε. Πολύ περισσότερο ότι πρέπει να συμφωνήσω κιόλας. Αλλά κυριότερα, ότι αυτή η εσφαλμένη επίκληση στην αυθεντία είναι όντως winning-point. Και πού να ασχοληθούμε και με το γεγονός ότι δεν εννοούσε καν αυτό που όλοι οι κλουβιοκέφαλοι νομίζουν. Αλλά θα το δούμε και αυτό αργότερα.

"Υπάρχουν τριών ειδών ψέμματα : Τα ψέμματα, τα καταραμένα ψέμματα και οι στατιστικές"

Mark Twain

Ώρα να πούμε 2-3 πράγματα για τη στατιστική. Δεν χρειάζεται να μπλέξουμε με κατανομές Poisson, Pascal, διακριτές και συνεχείς μεταβλητές. Μερικές απλές παρατηρήσεις αρκούν. Αντίθετα με την κοινή παρερμηνεία, η στατιστική δεν είναι «Παίρνω τον αριθμό των ανθρώπων Α, τον αριθμό που έχουν το χαρακτηριστικό που θέλω, Β, διαιρώ Α διά Β, πολλαπλασιάζω με 100 και, ως δια μαγείας STATISTICS!». Όχι, αυτό είναι μία απλή διαίρεση. Για να γίνει στατιστική, θα πρέπει να συμπεριλάβεις κάτι ακόμα που λέγεται δειγματικός χώρος. Αναφέρομαι στο μέγεθος του πλήθους που θα εξετάσεις. Για να επιστρέψουμε στην αρχή, δεν μπορείς να βγάλεις συμπέρασμα από 2 άτομα για 11.000.000 άτομα. Αν δηλαδή έβρισκες δύο ανθρώπους στο δρόμο και κανένας δεν έτρωγε κοτόπουλο, τι θα σήμαινε αυτό; Ότι κανείς στην Ελλάδα δεν τρώει κοτόπουλο;;; Προφανώς όχι. Το πρόβλημα δεν είναι στις απαντήσεις λοιπόν, αλλά στο πόσες περιπτώσεις κοιτάς.

Μπορεί κάποιος να ρωτήσει βέβαια πόσο είναι το ελάχιστο όριο. Εξαρτάται από το πόσους θέλεις να καλύψεις. Αλλά ας το δούμε σταδιακά. Για να βγάλεις ποσοστό επί τοις εκατό, λογική έχει να ρωτήσεις τουλάχιστον 100 ανθρώπους. Οτιδήποτε λιγότερο είναι άστοχο. Ούτε και αυτό όμως είναι αρκετό. Στόχος είναι η ακρίβεια. Από την άλλη, αν θέλεις να εξάγεις κάποιο συμπέρασμα για 1.000.000 ανθρώπους, τη μεγαλύτερη δυνατή ακρίβεια θα την έχεις αν τους ρωτήσεις όλους, κάτι που συνήθως δεν είναι εφικτό. Βασικά, μπορείς να ρωτήσεις 994.027 ανθρώπους και να είσαι 99,9% σίγουρος ότι έχεις εξίσου ακριβή αποτελέσματα. Επειδή μπαίνει και άλλη μία παράμετρος, αυτή του στατιστικού λάθους (το γνωστό συν/πλην ή αλλιώς “margin of error”) θα δώσω ένα παράδειγμα. Για ένα πλήθος 11 εκατομμυρίων ανθρώπων και με αποδεκτό στατιστικό λάθος στο 3%, αρκεί να ρωτήσουμε 1067 άτομα. Δεν έχει σημασία πώς βγήκαν αυτά τα νούμερα. Εγγυώμαι ότι είναι σωστά. Τι σας θυμίζουν όμως;

Γιατί όμως τόσοι και τόσοι χτυπιούνται για τα αισχρά ψέμματα των στατιστικών; Εδώ μπαίνει αυτό που είπε και ο Twain. Μπορείς να καλύψεις το αριθμητικό κομμάτι αλλά να «πειράξεις» το ουσιαστικό. Παράδειγμα : Ρωτάς 1000 παιδιά ηλικίας 5-8 χρονών εάν θα επιλέγανε να φάνε ένα πιάτο αρακά. Τώρα που το σκέφτομαι, γάμησέ το. Ρωτάς 1.000.000 παιδιά ηλικίας 5-8 χρονών το ίδιο πράγμα. Έτσι κι αλλιώς το ίδιο μηδενικό θα πάρεις. Εάν τώρα εσύ διαλέξεις να πεις ότι «το 100% του ελληνικού πληθυσμού θα απαντούσε ΟΧΙ σε ένα πιάτο αρακά», δεν έχει πει η στατιστική ψέμματα. ΕΣΥ είπες. Η Στατιστική έχει κουρνιάσει μέσα στη ντουζιέρα και κλαίει γοερά για ένα ακόμα έγκλημα που έγινε στο όνομά της. Το βράδυ περιμένει επισκέψεις και από τη Θρησκευτική Αγάπη. Φυσικά υπάρχουν και ακόμα πιο τραγικές περιπτώσεις που κάνουν την παραπάνω Επιστήμη να αναρωτιέται «γιατί να μην είμαι ον, να μπορώ να αυτοκτονήσω τουλάχιστον;». Συνοπτικά, η μία περίπτωση είναι με τα λάθος μεγέθη στις μπάρες των γραφημάτων και η άλλη είναι η λάθος αναλογία μεγεθών. Παράδειγμα πρώτο : να παρουσιάζεις μεγαλύτερο κουτάκι για το 4,7% και μικρότερο για το 4,8%. Παράδειγμα δεύτερο : να παρουσιάζεις μία μπάρα όσο είναι ο Πύργος του Eiffel για το 60% και την καλύβα του Μπαρμπα-Θωμά για το 40%.

pie-chart-wrong-total
When you see it!

Το τελευταίο πρόβλημα/λάθος είναι η ψευδαίσθηση της επαλήθευσης. Έστω ότι το 60% του πληθυσμού φοράει ρολόι. Επειδή είναι ωραίο και στρογγυλό νούμερο, θα μπορούσε κάποιος να πει ότι «6 στους 10 φοράνε ρολόι». Δεν θα ήταν λάθος. Λάθος θα ήταν ο Βρασίδας που θα επέστρεφε μετά από μία ώρα και θα μου έλεγε ότι ρώτησε 10 άνθρωπους στο δρόμο και μόνο οι τρεις φοράγανε ρολόι και θα νόμιζε κιόλας ότι αυτό είναι απόδειξη ότι η στατιστική λέει ψέμματα. Στο Στατιστίκινσμπεργκ θα σε αλείφανε με πίσσα και πούπουλα φίλε μου.

Για να καταλάβουμε πόσο γαμάτη είναι λοιπόν η στατιστική, ας αναλογιστούμε το εξής : Σε αυτήν χρωστάς το γεγονός ότι οποιαδήποτε εκλογική Κυριακή γύρω στις 23:30 μπορείς να ξέρεις τα τελικά αποτελέσματα ενώ έχει καταγράφει ΜΟΝΟ το 10% των ψήφων περίπου. Μετά από κάτι τέτοια μου έρχεται στο μυαλό ο Τάκης και το «Άντε γεια» του.

ΥΓ : Για το χθεσινό χτύπημα στα γραφεία του Charlie Hebdo θέλω να πω μόνο ένα πράγμα. Ακόμα και τα χρυσαύγουλα στο Χυτήριο, δεν φέρανε μαζί τους καλάσνικοφ. Φαντάσου.