Παρασκευή 21 Νοεμβρίου 2025

Περισσότερα...

 Υπάρχουν πολλά ακόμη πεδία στο data analytics που μπορούν να εξερευνηθούν μετά τις βασικές έννοιες που έχουμε ήδη καλύψει. Παρακάτω παρατίθεται μια οργανωμένη λίστα με θεματικές ενότητες

🔹 1. Data Preparation & Cleaning

  • Missing values handling (imputation methods)
  • Data normalization & standardization
  • Feature encoding (one-hot, label encoding)
  • Data transformation (log, box-cox, binning)
  • Dealing with imbalanced data

🔹 2. Exploratory Data Analysis (EDA) – Προχωρημένα

  • Multivariate analysis
  • Dimensionality reduction (PCA, t-SNE)
  • Feature selection techniques
  • Time series exploration (seasonality, trend, decomposition)

🔹 3. Statistical Methods

  • Hypothesis testing (t-test, χ², ANOVA)
  • Probability distributions
  • Confidence intervals
  • Statistical significance & p-values

🔹 4. Machine Learning Basics (εάν θες να πας πιο πέρα)

  • Supervised learning (regression, classification models)
  • Unsupervised learning (clustering, anomaly detection)
  • Model evaluation metrics (accuracy, precision, recall, ROC-AUC)
  • Cross-validation
  • Overfitting / underfitting

🔹 5. Time Series Analysis

  • ARIMA / SARIMA
  • Forecasting principles
  • Smoothing methods (moving averages, exponential smoothing)

🔹 6. Data Visualization & Reporting

  • Principles of effective visualization
  • Dashboards (Power BI / Tableau)
  • Chart selection best practices
  • Storytelling with data

🔹 7. Big Data Concepts (προαιρετικά)

  • Hadoop / Spark basics
  • ETL pipelines
  • Distributed computing
  • Data lakes vs data warehouses

🔹 8. SQL & Databases

  • JOINs (inner, outer, cross)
  • Window functions (ROW_NUMBER, RANK, PARTITION BY)
  • Subqueries & CTEs
  • Indexing & query optimization

🔹 9. Python for Data Analytics

  • Pandas (groupby, merges, pivot tables)
  • NumPy (vectorization, broadcasting)
  • Visualization libraries (Matplotlib, Seaborn, Plotly)

🔹 10. Data Ethics & Governance

  • Data privacy (GDPR basics)
  • Bias in datasets
  • Responsible data use

Κατηγοριοποίηση δεδομένων (data classification)

 Η κατηγοριοποίηση δεδομένων είναι η διαδικασία κατά την οποία οργανώνουμε τα δεδομένα σε ομάδες (κατηγορίες) με βάση κοινά χαρακτηριστικά, κανόνες ή πρότυπα, ώστε να γίνει πιο εύκολη η ανάλυση, η κατανόηση και η λήψη αποφάσεων.

Στόχος της είναι να μετατρέψει “άτακτα” δεδομένα σε δομημένη πληροφορία.


Σύνοψη

  • Κατηγοριοποίηση = οργάνωση δεδομένων σε ομάδες.
  • Γίνεται με κανόνες, όρια τιμών ή με αλγόριθμους μάθησης.
  • Χρησιμοποιεί έννοιες όπως labels, features, binning, segmentation, encoding.
  • Στόχος: πιο καθαρή, εύκολη και χρήσιμη ανάλυση.

Βασικοί Τρόποι / Μέθοδοι Κατηγοριοποίησης

Μηχανική (Rule-based) Κατηγοριοποίηση

Χρησιμοποιούνται κανόνες που ορίζει ο αναλυτής.

  • Παράδειγμα:
    • Αν το Score ≥ 80 → “High”
    • Αν 50–79 → “Medium”
    • Αν < 50 → “Low”

Χρησιμοποιείται σε dashboards, BI συστήματα, segmentation κ.λπ.

Κατηγοριοποίηση βάσει thresholds (διαστήματα τιμών)

Πολύ συχνό στα analytics.

  • π.χ. ηλικία: 18–24, 25–34, 35–44

Κατηγοριοποίηση βάσει clustering (αλγοριθμική)

Οι αλγόριθμοι ομαδοποιούν δεδομένα χωρίς προκαθορισμένες κατηγορίες
(unsupervised learning).
Βασικές μέθοδοι:

  • K-Means
  • Hierarchical Clustering
  • DBSCAN

Supervised classification (αλγοριθμική με labels)

Το μοντέλο μαθαίνει από ήδη κατηγοριοποιημένα δεδομένα.
Βασικές μέθοδοι:

  • Decision Trees
  • Random Forests
  • Logistic Regression
  • SVM
  • Naive Bayes

Text classification / NLP

Κατηγοριοποίηση κειμένων:

  • συναισθήματος (θετικό/αρνητικό)
  • θεμάτων (sports, business, tech)
  • intent detection σε chatbots
    Με μέθοδους NLP (TF-IDF, embeddings, transformers).

Βασικές Έννοιες στην Κατηγοριοποίηση Δεδομένων

  • 🔹 Labels (Ετικέτες)
    Οι κατηγορίες στις οποίες ταξινομούνται τα δεδομένα.
  • 🔹 Features (Χαρακτηριστικά)
    Οι μεταβλητές που χρησιμοποιούμε για την κατηγοριοποίηση.
  • 🔹 Binning
    Μετατροπή συνεχών τιμών σε κατηγορίες (π.χ. Income → Low/Medium/High).
  • 🔹 Discretization
    Παρόμοιο με το binning αλλά πιο συστηματικό — πολλές φορές με ίσα διαστήματα ή ίσο πλήθος παρατηρήσεων.
  • 🔹 Segmentation
    Η διαδικασία κατηγοριοποίησης πελατών/χρηστών σε ομάδες με κοινή συμπεριφορά.
  • 🔹 Class Imbalance
    Όταν μια κατηγορία έχει πολύ περισσότερα δεδομένα από άλλη (π.χ. 97% “Healthy”, 3% “Fraud”).
    Παίζει ρόλο στην ακρίβεια μοντέλων.
  • 🔹 Encoding
    Μετατροπή κατηγοριών σε αριθμούς για ανάλυση:
    One-Hot Encoding
    Label Encoding
  • 🔹 Outliers
    Μπορεί να δημιουργήσουν λάθος κατηγοριοποίηση αν δεν εντοπιστούν.
  • 🔹 Threshold selection
    Επιλογή του ορίου που καθορίζει πότε ένα δεδομένο “πάει” σε μια κατηγορία.
    Ιδιαίτερα κρίσιμο στο BI.

Συντελεστές συσχέτισης (correlation coefficient)

 Τα correlation coefficients (συντελεστές συσχέτισης) εμπίπτουν στην κατηγορία των μετρικών σχέσης μεταξύ μεταβλητών (measures of association).

Πιο συγκεκριμένα:

  • Δεν ανήκουν στα βασικά στατιστικά μεγέθη (aggregates) που συνοψίζουν μία μόνο μεταβλητή (όπως mean, median, std).
  • Ανήκουν στις στατιστικές μετρήσεις που περιγράφουν τη δύναμη και την κατεύθυνση της σχέσης ανάμεσα σε δύο μεταβλητές.

Σχέσεις δεδομένων / μεταβλητών προς ανάλυση:

  • 🔹 Γραμμική σχέση (linear relationship)
    Μια σχέση όπου, όταν η μία μεταβλητή αυξάνεται ή μειώνεται, η άλλη αλλάζει με περίπου σταθερό τρόπο.
    Στο διάγραμμα μοιάζει με ευθεία γραμμή (αν και μπορεί να μην είναι τέλεια).
    Παράδειγμα:
    Όσο ανεβαίνει η θερμοκρασία, τόσο αυξάνεται η κατανάλωση παγωτού — περίπου με σταθερό ρυθμό.
  • 🔹 Μη γραμμική σχέση (non-linear relationship)
    Όταν η σχέση δεν μπορεί να περιγραφεί από ευθεία γραμμή — οι μεταβλητές σχετίζονται, αλλά με καμπύλη.
    Παράδειγμα:
    Η παραγωγικότητα αυξάνει με τον ύπνο μέχρι ένα σημείο — αλλά μετά πέφτει.
  • 🔹 Outliers (ακραίες τιμές)
    Τιμές που είναι πολύ μακριά από τις “φυσιολογικές” τιμές των δεδομένων.
    Μπορούν να τραβήξουν τον μέσο όρο.
    Παράδειγμα:
    Μισθοί: 900€, 1000€, 1100€, 1200€, 80,000€ → ο τελευταίος είναι outlier.
  • 🔹 Ordinal δεδομένα (ταξινομημένες κατηγορίες)
    Κατηγορίες που έχουν σειρά, αλλά η διαφορά μεταξύ τους δεν είναι αριθμητικά ίση.
    Παράδειγμα:
    “Χαμηλό”, “Μεσαίο”, “Υψηλό”
    Αξιολόγηση 1–5 (όπου 5 είναι “καλύτερο”, αλλά δεν ξέρουμε αν η απόσταση 3→4 είναι ίδια με 4→5)
  • 🔹 Ισοβαθμίες (ties)
    Όταν δύο ή περισσότερες παρατηρήσεις έχουν ακριβώς την ίδια τιμή.
    Παράδειγμα:
    Βαθμολογία: 80, 90, 90, 95 → δύο τιμές “90” είναι ισοβαθμίες.
  • 🔹 Κατηγορικά δεδομένα (categorical)
    Δεδομένα που χωρίζονται σε ομάδες ή κατηγορίες, χωρίς αριθμητική σειρά.
    Παράδειγμα:
    Τμήμα: Marketing, Sales, Finance
    Περιοχή: Βορράς, Νότος, Δύση, Ανατολή
    Χρώμα προϊόντος: Κόκκινο, Μπλε, Πράσινο
  • 🔹 Δυαδικές κατηγορίες (binary)
    Κατηγορικά δεδομένα με μόνο δύο πιθανές τιμές.
    Παράδειγμα:
    Ναι/Όχι
    Αγοράστηκε/Δεν αγοράστηκε
    Άνδρας/Γυναίκα (σε datasets που έχουν 2 επιλογές)

Βήματα κατανόησης του τύπου των δεδομένων:

1. Κάνουμε ένα scatter plot (διάγραμμα διασποράς)

➤ Αν τα σημεία τείνουν να σχηματίσουν μια ευθεία γραμμήγραμμική σχέση

➤ Αν σχηματίζουν καμπύλημη γραμμική σχέση

➤ Αν φαίνονται τυχαία, χωρίς μοτίβο: καμία προφανής σχέση

Το scatter plot είναι σημαντική ένδειξη για το τι correlation πρέπει να επιλέξουμε (Pearson/Spearman).

2. Παρατηρούμε αν η σχέση είναι “μονοτονική

Μονοτονική = όταν η σχέση είναι “σταθερά προς τα πάνω” ή “σταθερά προς τα κάτω” αλλά όχι απαραίτητα ευθεία.

Στο scatter plot μοιάζει με:

  • πάντα αυξανόμενο pattern (αλλά καμπύλο)
  • ή πάντα μειούμενο pattern

Για τέτοιες περιπτώσεις προτιμούμε Spearman.

3. Ελέγχουμε για outliers

Τα outliers μπορούν να “στραβώσουν” μια γραμμική σχέση.

Πώς εντοπίζονται:

  • Boxplot
  • Histogram
  • Z-scores
  • Visual inspection στο scatter plot (μεμονωμένα σημεία πολύ μακριά από τα άλλα)

Αν υπάρχουν outliers, η σχέση μπορεί να φαίνεται μη γραμμική ενώ δεν είναι.
Για τέτοιες περιπτώσεις προτιμούμε Spearman..

4. Υπολογίζουμε Pearson και κοιτάμε το scatter plot μαζί

Πολλές φορές η διαδικασία είναι:

  1. Κοιτάζουμε το scatter plot
  2. Υπολογίζουμε με Pearson
  3. Βλέπουμε αν το r “ταιριάζει” με το οπτικό pattern

Αν ο Pearson είναι χαμηλός, αλλά το scatter δείχνει καθαρό μοτίβο → η σχέση πιθανότατα είναι μη γραμμική.

5. Χρησιμοποιούμε μη γραμμικά μοντέλα ως βοήθεια

(Απλό αλλά χρήσιμο)

Π.χ. εφαρμόζουμε γρήγορα:

  • polynomial regression (2nd degree)
  • LOESS smoothing line

Αν η καμπύλη ταιριάζει πολύ καλύτερα από την ευθεία: Μη γραμμική σχέση

Ουσιαστικά: Πώς το καταλαβαίνουμε στην πράξη;

✔️ Φτιάχνουμε ένα scatter plot

Αυτό λύνει το 70% του προβλήματος.

✔️ Βάζουμε μια ευθεία γραμμής παλινδρόμησης (trendline)

Αν τα σημεία “κολλάνε” γύρω της → γραμμική.

✔️ Βάζουμε μια καμπύλη LOESS

Αν η καμπύλη αποκλίνει από την ευθεία → μη γραμμική.

✔️ Κοιτάμε για outliers


Βασικοί συντελεστές

1. Pearson Correlation Coefficient (r)

(ενσωματωμένος στο power BI / Quick Measures)

Μετρά τη γραμμική σχέση μεταξύ δύο συνεχών μεταβλητών.
Απαιτεί περίπου κανονική κατανομή.

2. Spearman Rank Correlation (ρ, rho)

(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)

Μετρά μονοτονική (όχι απαραίτητα γραμμική) σχέση μεταξύ δύο μεταβλητών, χρησιμοποιώντας τις ταξινομημένες τιμές τους.
Ιδανικό όταν υπάρχουν outliers ή μη γραμμικές σχέσεις.

3. Kendall Rank Correlation (τ, tau)

(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)

Μετρά τη συμφωνία στις κατατάξεις δύο μεταβλητών. Πιο “σταθερός” σε μικρά datasets και ισοβαθμίες (ties).

4. Cramer’s V

(μη ενσωματωμένος στο power BI / Απαιτείται python ή R)

Μετρά τη συσχέτιση μεταξύ δύο κατηγορικών μεταβλητών με περισσότερες από δύο κατηγορίες (π.χ. τύπος προϊόντος & περιοχή).

Βασικές αποκλίσεις (outliers)

 Οι βασικές αποκλίσεις (outliers) είναι τιμές στα δεδομένα που διαφέρουν σημαντικά από τις υπόλοιπες. Πρόκειται για παρατηρήσεις που “ξεφεύγουν” από το συνηθισμένο μοτίβο και μπορεί να οφείλονται είτε σε λάθη, είτε σε σπάνιες περιστάσεις, είτε σε πραγματικά ενδιαφέροντα γεγονότα. Οι αποκλίσεις μπορούν να επηρεάσουν τους μέσους όρους, τις αναλύσεις και τα μοντέλα, γι’ αυτό και ο εντοπισμός τους είναι σημαντικό μέρος του data analytics.

Μεμονωμένες αποκλίσεις (Point Outliers)

Μία τιμή που ξεχωρίζει σαφώς από όλες τις υπόλοιπες.

Πλασματικές/Συμφραζόμενες αποκλίσεις (Contextual Outliers)

Τιμές ακραίες μόνο υπό συγκεκριμένο πλαίσιο ή συνθήκες.

Συλλογικές αποκλίσεις (Collective Outliers)

Ομάδα τιμών που μαζί δείχνουν μη φυσιολογική συμπεριφορά.

Τυχαίες αποκλίσεις (Noise Outliers)

Τιμές που προκύπτουν από τυχαίο “θόρυβο” ή μικρά λάθη.

Λάθη/Εσφαλμένες τιμές (Error Outliers)

Τιμές που προέρχονται από λάθη καταγραφής ή εισαγωγής δεδομένων.

Βασικά στατιστικά μεγέθη (aggregates)

 Είναι θεμελιώδεις αριθμητικοί δείκτες που συνοψίζουν, περιγράφουν και απλοποιούν τα δεδομένα, ώστε να γίνει κατανοητή η κεντρική τάση, η διασπορά και η κατανομή τους. Αποτελούν τα «εργαλεία πρώτης ανάγνωσης» ενός dataset και βοηθούν στη γρήγορη εξαγωγή συμπερασμάτων πριν από πιο σύνθετες αναλύσεις.

1. Άθροισμα (Sum)

Το συνολικό αποτέλεσμα της πρόσθεσης όλων των τιμών ενός δείγματος.

2. Μέσος Όρος (Mean / Average)

Το άθροισμα όλων των τιμών διαιρεμένο με το πλήθος τους· μετρά την “κεντρική τάση”.

3. Διάμεσος (Median)

Η τιμή που βρίσκεται στο μέσο της ταξινομημένης λίστας δεδομένων· χωρίζει τα δεδομένα σε δύο ίσα μέρη.

4. Επικρατούσα Τιμή (Mode)

Η τιμή που εμφανίζεται πιο συχνά σε ένα σύνολο δεδομένων.

5. Μέγιστο (Maximum)

Η μεγαλύτερη τιμή στο δείγμα.

6. Ελάχιστο (Minimum)

Η μικρότερη τιμή στο δείγμα.

7. Πλήθος (Count)

Ο αριθμός των στοιχείων στο σύνολο δεδομένων.

8. Διακύμανση (Variance)

Μετρά πόσο αποκλίνουν οι τιμές από τον μέσο όρο.

9. Τυπική Απόκλιση (Standard Deviation)

Η ρίζα της διακύμανσης· δείχνει τη «διασπορά» των τιμών σε σχέση με τον μέσο όρο. Μικρή τυπική απόκλιση υποδηλώνει ότι τα δεδομένα είναι “κοντά” στον μέσο όρο, ενώ μεγάλη υποδηλώνει ότι τα δεδομένα είναι “μακριά” από τον μέσο όρο. Χρησιμοποιείτε για την αξιολόγηση της μεταβλητότητας και των κινδύνων.

10. Εύρος (Range)

Η διαφορά μεταξύ της μεγαλύτερης και της μικρότερης τιμής.

11. Τεταρτημόρια (Quartiles)

Χωρίζουν τα δεδομένα σε τέσσερα ισομερή μέρη· χρήσιμα για περιγραφική στατιστική.

12. Ενδοτεταρτημοριακό Εύρος (IQR)

Το εύρος μεταξύ του 1ου και 3ου τεταρτημορίου· μετρά την “κεντρική”

Βασικές αρχές

🧠 Έννοιες Επικοινωνίας & Ευρημάτων

Data Narratives – Η παρουσίαση δεδομένων ως συνεκτική ιστορία με αρχή, μέση και τέλος.
Analytical Storytelling – Ο συνδυασμός ανάλυσης και αφηγηματικών τεχνικών για αποτελεσματική επικοινωνία.
Insight Communication – Η καθαρή και πειστική επικοινωνία των βασικών ευρημάτων.
Data-Driven Decision Making (DDDM) – Η λήψη αποφάσεων βασισμένη σε δεδομένα και τεκμηριωμένες ιδέες.

 

📊 Οπτικοποίηση & Παρουσίαση

Data Visualization – Η χρήση γραφημάτων και οπτικών μέσων για κατανόηση μοτίβων.
Visual Analytics – Ο συνδυασμός διαδραστικών οπτικών και αναλυτικής σκέψης.
Dashboard Design / BI Reporting – Η δημιουργία dashboards που προβάλλουν κρίσιμες μετρήσεις και συμφραζόμενα.
Information Design – Ο σχεδιασμός πληροφοριών για μέγιστη σαφήνεια και ευκολία κατανόησης.

 

🔍 Ερμηνεία & Ανάλυση

Exploratory Data Analysis (EDA) – Η διερεύνηση δεδομένων για την ανακάλυψη μοτίβων και ανωμαλιών.
Descriptive Analytics – Η περιγραφή του τι συνέβη.
Diagnostic Analytics – Η εξήγηση του γιατί συνέβη κάτι.
Predictive Analytics – Η πρόβλεψη μελλοντικών καταστάσεων.
Prescriptive Analytics – Η πρόταση ενεργειών βασισμένων στα δεδομένα.

 

🧩 Ανθρώπινη Διάσταση & Στρατηγική

Data Literacy – Η ικανότητα κατανόησης, χρήσης και επικοινωνίας δεδομένων.
Human-Centered Analytics – Η προσαρμογή της ανάλυσης στις ανάγκες των ενδιαφερομένων.
Decision Intelligence – Ο συνδυασμός δεδομένων, επιχειρησιακής λογικής και ανθρώπινων παραγόντων για καλύτερες αποφάσεις.
Business Storytelling – Η μετάδοση μηνυμάτων μέσα από ιστορίες με επιχειρησιακό περιεχόμενο.

 

🎯 Αποτελεσματικότητα & Δράση

Actionable Insights – Συμπεράσματα που συνοδεύονται από σαφείς προτεινόμενες ενέργειες.
Insight-to-Action Frameworks – Μεθοδολογίες μετατροπής των ευρημάτων σε πρακτικά αποτελέσματα.
KPI Alignment / Metrics Strategy – Η επιλογή και σύνδεση δεικτών ώστε να αφηγούνται μια ουσιαστική ιστορία επιδόσεων.


Βασικές έννοιες

 

🧠 Έννοιες Επικοινωνίας & Ευρημάτων

Data Narratives – Η παρουσίαση δεδομένων ως συνεκτική ιστορία με αρχή, μέση και τέλος.
Analytical Storytelling – Ο συνδυασμός ανάλυσης και αφηγηματικών τεχνικών για αποτελεσματική επικοινωνία.
Insight Communication – Η καθαρή και πειστική επικοινωνία των βασικών ευρημάτων.
Data-Driven Decision Making (DDDM) – Η λήψη αποφάσεων βασισμένη σε δεδομένα και τεκμηριωμένες ιδέες.


📊 Οπτικοποίηση & Παρουσίαση

Data Visualization – Η χρήση γραφημάτων και οπτικών μέσων για κατανόηση μοτίβων.
Visual Analytics – Ο συνδυασμός διαδραστικών οπτικών και αναλυτικής σκέψης.
Dashboard Design / BI Reporting – Η δημιουργία dashboards που προβάλλουν κρίσιμες μετρήσεις και συμφραζόμενα.
Information Design – Ο σχεδιασμός πληροφοριών για μέγιστη σαφήνεια και ευκολία κατανόησης.


🔍 Ερμηνεία & Ανάλυση

Exploratory Data Analysis (EDA) – Η διερεύνηση δεδομένων για την ανακάλυψη μοτίβων και ανωμαλιών.
Descriptive Analytics – Η περιγραφή του τι συνέβη.
Diagnostic Analytics – Η εξήγηση του γιατί συνέβη κάτι.
Predictive Analytics – Η πρόβλεψη μελλοντικών καταστάσεων.
Prescriptive Analytics – Η πρόταση ενεργειών βασισμένων στα δεδομένα.


🧩 Ανθρώπινη Διάσταση & Στρατηγική

Data Literacy – Η ικανότητα κατανόησης, χρήσης και επικοινωνίας δεδομένων.
Human-Centered Analytics – Η προσαρμογή της ανάλυσης στις ανάγκες των ενδιαφερομένων.
Decision Intelligence – Ο συνδυασμός δεδομένων, επιχειρησιακής λογικής και ανθρώπινων παραγόντων για καλύτερες αποφάσεις.
Business Storytelling – Η μετάδοση μηνυμάτων μέσα από ιστορίες με επιχειρησιακό περιεχόμενο.


🎯 Αποτελεσματικότητα & Δράση

Actionable Insights – Συμπεράσματα που συνοδεύονται από σαφείς προτεινόμενες ενέργειες.
Insight-to-Action Frameworks – Μεθοδολογίες μετατροπής των ευρημάτων σε πρακτικά αποτελέσματα.
KPI Alignment / Metrics Strategy – Η επιλογή και σύνδεση δεικτών ώστε να αφηγούνται μια ουσιαστική ιστορία επιδόσεων.

Περισσότερα...

  Υπάρχουν πολλά ακόμη πεδία στο   data analytics   που μπορούν να εξερευνηθούν μετά τις βασικές έννοιες που έχουμε ήδη καλύψει. Παρακάτω πα...