Παρασκευή 21 Νοεμβρίου 2025

Συντελεστές συσχέτισης (correlation coefficient)

 Τα correlation coefficients (συντελεστές συσχέτισης) εμπίπτουν στην κατηγορία των μετρικών σχέσης μεταξύ μεταβλητών (measures of association).

Πιο συγκεκριμένα:

  • Δεν ανήκουν στα βασικά στατιστικά μεγέθη (aggregates) που συνοψίζουν μία μόνο μεταβλητή (όπως mean, median, std).
  • Ανήκουν στις στατιστικές μετρήσεις που περιγράφουν τη δύναμη και την κατεύθυνση της σχέσης ανάμεσα σε δύο μεταβλητές.

Σχέσεις δεδομένων / μεταβλητών προς ανάλυση:

  • 🔹 Γραμμική σχέση (linear relationship)
    Μια σχέση όπου, όταν η μία μεταβλητή αυξάνεται ή μειώνεται, η άλλη αλλάζει με περίπου σταθερό τρόπο.
    Στο διάγραμμα μοιάζει με ευθεία γραμμή (αν και μπορεί να μην είναι τέλεια).
    Παράδειγμα:
    Όσο ανεβαίνει η θερμοκρασία, τόσο αυξάνεται η κατανάλωση παγωτού — περίπου με σταθερό ρυθμό.
  • 🔹 Μη γραμμική σχέση (non-linear relationship)
    Όταν η σχέση δεν μπορεί να περιγραφεί από ευθεία γραμμή — οι μεταβλητές σχετίζονται, αλλά με καμπύλη.
    Παράδειγμα:
    Η παραγωγικότητα αυξάνει με τον ύπνο μέχρι ένα σημείο — αλλά μετά πέφτει.
  • 🔹 Outliers (ακραίες τιμές)
    Τιμές που είναι πολύ μακριά από τις “φυσιολογικές” τιμές των δεδομένων.
    Μπορούν να τραβήξουν τον μέσο όρο.
    Παράδειγμα:
    Μισθοί: 900€, 1000€, 1100€, 1200€, 80,000€ → ο τελευταίος είναι outlier.
  • 🔹 Ordinal δεδομένα (ταξινομημένες κατηγορίες)
    Κατηγορίες που έχουν σειρά, αλλά η διαφορά μεταξύ τους δεν είναι αριθμητικά ίση.
    Παράδειγμα:
    “Χαμηλό”, “Μεσαίο”, “Υψηλό”
    Αξιολόγηση 1–5 (όπου 5 είναι “καλύτερο”, αλλά δεν ξέρουμε αν η απόσταση 3→4 είναι ίδια με 4→5)
  • 🔹 Ισοβαθμίες (ties)
    Όταν δύο ή περισσότερες παρατηρήσεις έχουν ακριβώς την ίδια τιμή.
    Παράδειγμα:
    Βαθμολογία: 80, 90, 90, 95 → δύο τιμές “90” είναι ισοβαθμίες.
  • 🔹 Κατηγορικά δεδομένα (categorical)
    Δεδομένα που χωρίζονται σε ομάδες ή κατηγορίες, χωρίς αριθμητική σειρά.
    Παράδειγμα:
    Τμήμα: Marketing, Sales, Finance
    Περιοχή: Βορράς, Νότος, Δύση, Ανατολή
    Χρώμα προϊόντος: Κόκκινο, Μπλε, Πράσινο
  • 🔹 Δυαδικές κατηγορίες (binary)
    Κατηγορικά δεδομένα με μόνο δύο πιθανές τιμές.
    Παράδειγμα:
    Ναι/Όχι
    Αγοράστηκε/Δεν αγοράστηκε
    Άνδρας/Γυναίκα (σε datasets που έχουν 2 επιλογές)

Βήματα κατανόησης του τύπου των δεδομένων:

1. Κάνουμε ένα scatter plot (διάγραμμα διασποράς)

➤ Αν τα σημεία τείνουν να σχηματίσουν μια ευθεία γραμμήγραμμική σχέση

➤ Αν σχηματίζουν καμπύλημη γραμμική σχέση

➤ Αν φαίνονται τυχαία, χωρίς μοτίβο: καμία προφανής σχέση

Το scatter plot είναι σημαντική ένδειξη για το τι correlation πρέπει να επιλέξουμε (Pearson/Spearman).

2. Παρατηρούμε αν η σχέση είναι “μονοτονική

Μονοτονική = όταν η σχέση είναι “σταθερά προς τα πάνω” ή “σταθερά προς τα κάτω” αλλά όχι απαραίτητα ευθεία.

Στο scatter plot μοιάζει με:

  • πάντα αυξανόμενο pattern (αλλά καμπύλο)
  • ή πάντα μειούμενο pattern

Για τέτοιες περιπτώσεις προτιμούμε Spearman.

3. Ελέγχουμε για outliers

Τα outliers μπορούν να “στραβώσουν” μια γραμμική σχέση.

Πώς εντοπίζονται:

  • Boxplot
  • Histogram
  • Z-scores
  • Visual inspection στο scatter plot (μεμονωμένα σημεία πολύ μακριά από τα άλλα)

Αν υπάρχουν outliers, η σχέση μπορεί να φαίνεται μη γραμμική ενώ δεν είναι.
Για τέτοιες περιπτώσεις προτιμούμε Spearman..

4. Υπολογίζουμε Pearson και κοιτάμε το scatter plot μαζί

Πολλές φορές η διαδικασία είναι:

  1. Κοιτάζουμε το scatter plot
  2. Υπολογίζουμε με Pearson
  3. Βλέπουμε αν το r “ταιριάζει” με το οπτικό pattern

Αν ο Pearson είναι χαμηλός, αλλά το scatter δείχνει καθαρό μοτίβο → η σχέση πιθανότατα είναι μη γραμμική.

5. Χρησιμοποιούμε μη γραμμικά μοντέλα ως βοήθεια

(Απλό αλλά χρήσιμο)

Π.χ. εφαρμόζουμε γρήγορα:

  • polynomial regression (2nd degree)
  • LOESS smoothing line

Αν η καμπύλη ταιριάζει πολύ καλύτερα από την ευθεία: Μη γραμμική σχέση

Ουσιαστικά: Πώς το καταλαβαίνουμε στην πράξη;

✔️ Φτιάχνουμε ένα scatter plot

Αυτό λύνει το 70% του προβλήματος.

✔️ Βάζουμε μια ευθεία γραμμής παλινδρόμησης (trendline)

Αν τα σημεία “κολλάνε” γύρω της → γραμμική.

✔️ Βάζουμε μια καμπύλη LOESS

Αν η καμπύλη αποκλίνει από την ευθεία → μη γραμμική.

✔️ Κοιτάμε για outliers


Βασικοί συντελεστές

1. Pearson Correlation Coefficient (r)

(ενσωματωμένος στο power BI / Quick Measures)

Μετρά τη γραμμική σχέση μεταξύ δύο συνεχών μεταβλητών.
Απαιτεί περίπου κανονική κατανομή.

2. Spearman Rank Correlation (ρ, rho)

(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)

Μετρά μονοτονική (όχι απαραίτητα γραμμική) σχέση μεταξύ δύο μεταβλητών, χρησιμοποιώντας τις ταξινομημένες τιμές τους.
Ιδανικό όταν υπάρχουν outliers ή μη γραμμικές σχέσεις.

3. Kendall Rank Correlation (τ, tau)

(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)

Μετρά τη συμφωνία στις κατατάξεις δύο μεταβλητών. Πιο “σταθερός” σε μικρά datasets και ισοβαθμίες (ties).

4. Cramer’s V

(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)

Μετρά τη συσχέτιση μεταξύ δύο κατηγορικών μεταβλητών με περισσότερες από δύο κατηγορίες (π.χ. τύπος προϊόντος & περιοχή).

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου

Περισσότερα...

  Υπάρχουν πολλά ακόμη πεδία στο   data analytics   που μπορούν να εξερευνηθούν μετά τις βασικές έννοιες που έχουμε ήδη καλύψει. Παρακάτω πα...