Τα correlation coefficients (συντελεστές συσχέτισης) εμπίπτουν στην κατηγορία των μετρικών σχέσης μεταξύ μεταβλητών (measures of association).
Πιο συγκεκριμένα:
- Δεν ανήκουν στα βασικά στατιστικά μεγέθη (aggregates) που συνοψίζουν μία μόνο μεταβλητή (όπως mean, median, std).
- Ανήκουν στις στατιστικές μετρήσεις που περιγράφουν τη δύναμη και την κατεύθυνση της σχέσης ανάμεσα σε δύο μεταβλητές.
Σχέσεις δεδομένων / μεταβλητών προς ανάλυση:
Γραμμική σχέση (linear relationship)
Μια σχέση όπου, όταν η μία μεταβλητή αυξάνεται ή μειώνεται, η άλλη αλλάζει με περίπου σταθερό τρόπο.
Στο διάγραμμα μοιάζει με ευθεία γραμμή (αν και μπορεί να μην είναι τέλεια).
Παράδειγμα:
Όσο ανεβαίνει η θερμοκρασία, τόσο αυξάνεται η κατανάλωση παγωτού — περίπου με σταθερό ρυθμό.
Μη γραμμική σχέση (non-linear relationship)
Όταν η σχέση δεν μπορεί να περιγραφεί από ευθεία γραμμή — οι μεταβλητές σχετίζονται, αλλά με καμπύλη.
Παράδειγμα:
Η παραγωγικότητα αυξάνει με τον ύπνο μέχρι ένα σημείο — αλλά μετά πέφτει.
Outliers (ακραίες τιμές)
Τιμές που είναι πολύ μακριά από τις “φυσιολογικές” τιμές των δεδομένων.
Μπορούν να τραβήξουν τον μέσο όρο.
Παράδειγμα:
Μισθοί: 900€, 1000€, 1100€, 1200€, 80,000€ → ο τελευταίος είναι outlier.
Ordinal δεδομένα (ταξινομημένες κατηγορίες)
Κατηγορίες που έχουν σειρά, αλλά η διαφορά μεταξύ τους δεν είναι αριθμητικά ίση.
Παράδειγμα:
“Χαμηλό”, “Μεσαίο”, “Υψηλό”
Αξιολόγηση 1–5 (όπου 5 είναι “καλύτερο”, αλλά δεν ξέρουμε αν η απόσταση 3→4 είναι ίδια με 4→5)
Ισοβαθμίες (ties)
Όταν δύο ή περισσότερες παρατηρήσεις έχουν ακριβώς την ίδια τιμή.
Παράδειγμα:
Βαθμολογία: 80, 90, 90, 95 → δύο τιμές “90” είναι ισοβαθμίες.
Κατηγορικά δεδομένα (categorical)
Δεδομένα που χωρίζονται σε ομάδες ή κατηγορίες, χωρίς αριθμητική σειρά.
Παράδειγμα:
Τμήμα: Marketing, Sales, Finance
Περιοχή: Βορράς, Νότος, Δύση, Ανατολή
Χρώμα προϊόντος: Κόκκινο, Μπλε, Πράσινο
Δυαδικές κατηγορίες (binary)
Κατηγορικά δεδομένα με μόνο δύο πιθανές τιμές.
Παράδειγμα:
Ναι/Όχι
Αγοράστηκε/Δεν αγοράστηκε
Άνδρας/Γυναίκα (σε datasets που έχουν 2 επιλογές)
Βήματα κατανόησης του τύπου των δεδομένων:
1. Κάνουμε ένα scatter plot (διάγραμμα διασποράς)
➤ Αν τα σημεία τείνουν να σχηματίσουν μια ευθεία γραμμή: γραμμική σχέση
➤ Αν σχηματίζουν καμπύλη: μη γραμμική σχέση
➤ Αν φαίνονται τυχαία, χωρίς μοτίβο: καμία προφανής σχέση
Το scatter plot είναι σημαντική ένδειξη για το τι correlation πρέπει να επιλέξουμε (Pearson/Spearman).
2. Παρατηρούμε αν η σχέση είναι “μονοτονική“
Μονοτονική = όταν η σχέση είναι “σταθερά προς τα πάνω” ή “σταθερά προς τα κάτω” αλλά όχι απαραίτητα ευθεία.
Στο scatter plot μοιάζει με:
- πάντα αυξανόμενο pattern (αλλά καμπύλο)
- ή πάντα μειούμενο pattern
Για τέτοιες περιπτώσεις προτιμούμε Spearman.
3. Ελέγχουμε για outliers
Τα outliers μπορούν να “στραβώσουν” μια γραμμική σχέση.
Πώς εντοπίζονται:
- Boxplot
- Histogram
- Z-scores
- Visual inspection στο scatter plot (μεμονωμένα σημεία πολύ μακριά από τα άλλα)
Αν υπάρχουν outliers, η σχέση μπορεί να φαίνεται μη γραμμική ενώ δεν είναι.
Για τέτοιες περιπτώσεις προτιμούμε Spearman..
4. Υπολογίζουμε Pearson και κοιτάμε το scatter plot μαζί
Πολλές φορές η διαδικασία είναι:
- Κοιτάζουμε το scatter plot
- Υπολογίζουμε με Pearson
- Βλέπουμε αν το r “ταιριάζει” με το οπτικό pattern
Αν ο Pearson είναι χαμηλός, αλλά το scatter δείχνει καθαρό μοτίβο → η σχέση πιθανότατα είναι μη γραμμική.
5. Χρησιμοποιούμε μη γραμμικά μοντέλα ως βοήθεια
(Απλό αλλά χρήσιμο)
Π.χ. εφαρμόζουμε γρήγορα:
- polynomial regression (2nd degree)
- LOESS smoothing line
Αν η καμπύλη ταιριάζει πολύ καλύτερα από την ευθεία: Μη γραμμική σχέση
Ουσιαστικά: Πώς το καταλαβαίνουμε στην πράξη;
Φτιάχνουμε ένα scatter plot
Αυτό λύνει το 70% του προβλήματος.
Βάζουμε μια ευθεία γραμμής παλινδρόμησης (trendline)
Αν τα σημεία “κολλάνε” γύρω της → γραμμική.
Βάζουμε μια καμπύλη LOESS
Αν η καμπύλη αποκλίνει από την ευθεία → μη γραμμική.
Κοιτάμε για outliers
Βασικοί συντελεστές
1. Pearson Correlation Coefficient (r)
(ενσωματωμένος στο power BI / Quick Measures)
Μετρά τη γραμμική σχέση μεταξύ δύο συνεχών μεταβλητών.
Απαιτεί περίπου κανονική κατανομή.
2. Spearman Rank Correlation (ρ, rho)
(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)
Μετρά μονοτονική (όχι απαραίτητα γραμμική) σχέση μεταξύ δύο μεταβλητών, χρησιμοποιώντας τις ταξινομημένες τιμές τους.
Ιδανικό όταν υπάρχουν outliers ή μη γραμμικές σχέσεις.
3. Kendall Rank Correlation (τ, tau)
(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)
Μετρά τη συμφωνία στις κατατάξεις δύο μεταβλητών. Πιο “σταθερός” σε μικρά datasets και ισοβαθμίες (ties).
4. Cramer’s V
(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)
Μετρά τη συσχέτιση μεταξύ δύο κατηγορικών μεταβλητών με περισσότερες από δύο κατηγορίες (π.χ. τύπος προϊόντος & περιοχή).