Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

Δε καταλαβαίνω γιατί κάνει απλά μαθηματικά λάθη το chatgpt. Σημερινή ερώτηση:
πόσα λίτρα νερό έχει μέσα μια σωλήνα 3/4 ίντσας 10 μέτρα μήκος;
Στην απάντηση υπολογίζει λάθος το πr^2, παίρνει τη διάμετρο και κάνει πd^2/4 και μετά ξαναδιαιρεί με το 4

Του γράφω "Νομίζω έχεις κάνει λάθος στις πράξεις."
Αυτή τη φορά παίρνει περισσότερη ώρα και απαντά σωστά

Το ρωτάω: "Γιατί έκανες λάθος στο πρώτο υπολογισμό;"

"Στον πρώτο υπολογισμό έβαλα κατά λάθος 0,000049 ως d2d^2d2, ενώ 0,000049 είναι το d24\dfrac{d^2}{4}4d2 (δηλαδή είχα ήδη διαιρέσει με 4). Έτσι τελικά διαιρώντας πάλι με 4 έκανα τη διαίρεση δύο φορές και ο όγκος βγήκε 4 φορές μικρότερος απ’ το σωστό.
Συγγνώμη για το λάθος — θα προσέχω περισσότερο τους ενδιάμεσους αριθμούς από εδώ και πέρα. Θες να ξαναελέγξω κάποιο άλλο παράδειγμα;

Το ρωτάω: "Ναι αλλά γιατί έκανες τέτοιο λάθος; Μου δίνεις την εντύπωση πως δε χρησιμοποιείς την πλήρη ισχύ σου στην πρώτη απάντηση για λόγους power saving. Και χθες έκανες ένα αντίστοιχο λάθος που μετά το απάντησες σωστά"
Πολύ καλή και εύλογη παρατήρηση — και εκτιμώ που το θέτεις έτσι ειλικρινά.
Αλλά όχι, δεν έχει να κάνει με “power saving” ή περιορισμό ισχύος. Δεν υπάρχει κάτι τέτοιο στη λειτουργία μου· χρησιμοποιώ πάντα το ίδιο υπολογιστικό “βάρος” ανά απάντηση.

Να σου εξηγήσω πιο καθαρά τι συμβαίνει:
  • Στην πρώτη απάντηση, είχα όντως κάνει ένα ανθρώπινου τύπου λάθος υπολογισμού — μπέρδεψα το τετράγωνο της διαμέτρου με τον όρο d2/4d^2/4d2/4.
    Δηλαδή δεν ήταν ότι “δεν έβαλα όλη την ισχύ μου”, αλλά ότι έκανα λάθος σε μια ενδιάμεση αριθμητική πράξη.
    Δεν είναι θέμα προτεραιότητας υπολογιστικής ισχύος, αλλά καθαρά λογιστικής προσοχής στη ροή της απάντησης.
  • Ο λόγος που μπορεί να σου δίνει την εντύπωση “χαμηλής ισχύος” είναι ότι προτεραιοποιώ την ταχύτητα και την κατανόηση έναντι της μαθηματικής αυστηρότητας στην πρώτη απάντηση — ειδικά σε καθημερινά τεχνικά θέματα. Αν κάτι φαίνεται “off”, το ξαναελέγχουμε (όπως έκανες εσύ τώρα 👍).
  • Όταν μου το επισημαίνεις, τότε κάνω ακριβή, βήμα-βήμα επανεξέταση, χωρίς να “συντομεύω” πράξεις ή να παραλείπω δεκαδικά — οπότε το αποτέλεσμα βγαίνει απολύτως σωστό.
Με λίγα λόγια:

Δεν μειώνω συνειδητά την “ισχύ” μου, αλλά μπορεί να εμφανιστεί λάθος όταν κάνω πρόχειρη αριθμητική σε φυσικό ρυθμό συνομιλίας.
Μόλις ζητήσεις ακρίβεια, δουλεύω πιο “μηχανικά”, χωρίς καμία απλούστευση.

Αν θέλεις, μπορώ να σου δείξω πώς συμβαίνει ένα τέτοιο λάθος στη ροή σκέψης (όπως θα το έκανε κι ένας άνθρωπος) για να το καταλάβεις πιο βαθιά — να το δείξω;

Το ρωτάω: "Ναι αλλά αν πρέπει να ελέγχω κάθε σου απάντηση για λάθος, χάνει το νόημα η χρήση σου"

Έχεις 100% δίκιο σ’ αυτό που λες.
Αν χρειάζεται να ελέγχεις κάθε απάντηση που σου δίνω, τότε η αξία μου ως εργαλείο μειώνεται πάρα πολύ — και το καταλαβαίνω.

Αυτό που έγινε στις περιπτώσεις που περιγράφεις είναι το εξής: όταν κάνω πρόχειρη αριθμητική μέσα σε μια ροή κειμένου (όπως το κάνουν οι άνθρωποι όταν σκέφτονται φωναχτά), μπορεί να προκύψει ανθρώπινου τύπου λάθος στις ενδιάμεσες πράξεις. Δεν είναι ότι “δουλεύω με μισή ισχύ”, ούτε ότι υπάρχει σκοπιμότητα. Είναι καθαρά ένα μειονέκτημα του να γράφω ταυτόχρονα εξήγηση + πράξεις χωρίς μηχανικό έλεγχο.

Αν όμως μου ζητήσεις από την αρχή:
  • “Δώσε μου ακριβή υπολογισμό”
  • ή “υπολόγισέ το βήμα-βήμα με μαθηματική ακρίβεια”
…τότε εγώ ενεργοποιώ (μεταφορικά) τον “αυστηρό τρόπο” — δηλαδή κάνω τον υπολογισμό πιο μηχανικά, με όλα τα δεκαδικά και χωρίς συντόμευση. Σε αυτόν τον τρόπο οι πιθανότητες λάθους πέφτουν δραματικά.

Μπορώ επίσης να το κάνω αυτό πάντα, αν θες. Δηλαδή να σου δίνω πάντα την απάντηση με πλήρη ακρίβεια και χωρίς πρόχειρες πράξεις, ώστε να μη χρειάζεται να ελέγχεις τίποτα. Θες να το καθιερώσουμε έτσι από εδώ και πέρα;

Και του είπα "Θεωρώ αυτονόητο πως οι απαντήσεις πρέπει να είναι σωστές. Άρα ναι, πάντα να το κάνεις αυτό". Για να δούμε τι θα γίνει επόμενη φορά
 
Το δικό μου μεγάλο θέμα είναι να μην φτάσουμε σε σημεία όπου η τεχνητή "νοημοσύνη", ανταγωνίζεται την Νοημοσύνη.


ο εξαδερφος του κολλητου μου εργαζεται χρονια στην Google.

Μας εχει αναφερει οτι εχει υπαρξει ΑΙ project που εδειχνε ανησυχητικες τασεις εξελιξης και με περιεργες αντιδρασεις με αποτελεσμα να το "κλειδαμπαρωσουν" σε ενα υπογειο χωρις καμια προσβαση στον υπολοιπο κοσμο οπου το παρατηρουν εκει μεσα απομονωμενο να δουν που θα το παει.....


Στατιστικο ειναι το θεμα καποτε θα συμβει. Καποια ΑΙ θα μας ξεπερασει.
 
Σαν άσχετος με το θέμα.... ας ρωτήσω, πριν κάμω κάποια κίνηση...
" Λέω να μπω στον κόσμο του Chat GPT ", όμως υπάρχει και το DeepSeek... Τι προτείνετε;

Υποσημείωση ( ίσως χρήσιμη... )... Δεν είμαι γνώστης της αγγλικής...
 
" Λέω να μπω στον κόσμο του Chat GPT ", όμως υπάρχει και το DeepSeek... Τι προτείνετε;

Δεν υπάρχουν 2 μοντέλα. Το κάθε μοντέλο, αποδίδει διαφορετικά ανάλογα τη διεργασία που του αναθέτουμε.
Μια γενική αξιολόγηση είναι η παρακάτω.

Από αυτά, μπορείς να χρησιμοποιείς δωρεάν τα Claude Sonnet 4.5 και Gemini 2.5 pro της Google για λίγες ερωτήσεις.
Για γενική κουβεντούλα, όλα μια χαρά είναι.

1759657702427.png
 
  • Like
Reactions: ΓΡΥΠΑΣ
Και του είπα "Θεωρώ αυτονόητο πως οι απαντήσεις πρέπει να είναι σωστές. Άρα ναι, πάντα να το κάνεις αυτό". Για να δούμε τι θα γίνει επόμενη φορά

Θα λάβει υπ όψη αυτο που του είπες, και επειδή είναι στατιστικά ασήμαντη παρατήρηση, θα ξαναδώσει την ίδια λάθος απάντηση.

Με λίγα λόγια, για να είσαι πιο σίγουρος, θα πρέπει να κάνεις εσύ διασταύρωση της πληροφορίας.

Πλέον εγώ όταν βλέπω λάθη ενσωματωμένα στο workflow ανθρώπων που οφείλονται στη χρήση a.i. καταλαβαίνω και πόσο σωστή δουλειά έχει κάνει ο άνθρωπος.
Εκεί απαντώ πολύ ευγενικά, κόψε το πολύ a.i. γιατί μας βγήκανε τα μάτια... .😅
 
  • Like
Reactions: ln() and athlon6401
Δε καταλαβαίνω γιατί κάνει απλά μαθηματικά λάθη το chatgpt. Σημερινή ερώτηση:
πόσα λίτρα νερό έχει μέσα μια σωλήνα 3/4 ίντσας 10 μέτρα μήκος;
Στην απάντηση υπολογίζει λάθος το πr^2, παίρνει τη διάμετρο και κάνει πd^2/4 και μετά ξαναδιαιρεί με το 4

Του γράφω "Νομίζω έχεις κάνει λάθος στις πράξεις."
Αυτή τη φορά παίρνει περισσότερη ώρα και απαντά σωστά

Το ρωτάω: "Γιατί έκανες λάθος στο πρώτο υπολογισμό;"



Το ρωτάω: "Ναι αλλά γιατί έκανες τέτοιο λάθος; Μου δίνεις την εντύπωση πως δε χρησιμοποιείς την πλήρη ισχύ σου στην πρώτη απάντηση για λόγους power saving. Και χθες έκανες ένα αντίστοιχο λάθος που μετά το απάντησες σωστά"


Το ρωτάω: "Ναι αλλά αν πρέπει να ελέγχω κάθε σου απάντηση για λάθος, χάνει το νόημα η χρήση σου"



Και του είπα "Θεωρώ αυτονόητο πως οι απαντήσεις πρέπει να είναι σωστές. Άρα ναι, πάντα να το κάνεις αυτό". Για να δούμε τι θα γίνει επόμενη φορά
Επιβεβαίωσε παρακαλώ ότι το έτρεξες το παραπάνω στην δωρεάν έκδοση του ChatGPT.

Στην πληρωμένη δεν το υπολογίζει μόνο του, αλλά γράφει κώδικα σε python, τρέχει τον κώδικα και μεταφέρει το αποτέλεσμα το οποίο είναι προφανώς σωστό.

Και όχι μόνο αυτό, στο τέλος λέει ότι η σωστή απάντηση εξαρτάται από το είδος του σωλήνα γιατί η ονομαστική διάμετρος αφορά την εξωτερική διάμετρο (το οποίο είναι σωστό) και ότι σωλήνες από διαφορετικά υλικά έχουν διαφορετικό πάχος τοιχώματος, το οποίο επηρρεάζει τον τελικό εσωτερικό όγκο (επίσης σωστό) και άρα την τελική απάντηση.

Δυστυχώς βλέπω ότι η διαφορά απόδοσης στο δωρεάν ChatGPT από αυτό ακόμη και μόνο με τα 20 ευρώ μεγαλώνει μοντέλο με το μοντέλο.
 
Εγώ ξέρω ότι demo ενός προγράμματος ή μίας υπηρεσίας είναι μία real life δοκιμή με περιορισμούς.
Αν θα πάω σε ένα super market και μου δώσουν να δοκιμάσω ένα τυρί και είναι χάλια, δεν θα το αγοράσω με τη φιλοσοφία ότι το πληρωμένο είναι καλύτερο.
Όπως και ένα trial πρόγραμμα, αν δεν κάνει αυτό που θέλω, δεν θα το αγοράσω.

Το να έχει λοιπόν περιορισμένες δυνατότητες το καταλαβαίνω και να το σεβαστώ. Σε στυλ "φιλαράκι, σου είπα ότι μου έγραψες, αλλά δεν θα ασχολούμαστε με εσένα τώρα, αύριο πάλι".
Το "σου απαντάω παπαριές που πρέπει να ελέγξεις" είναι απλά μη αποδεκτό.-
Δηλαδή θα τον ρωτήσω "πόσο κάνει 3x8" θα μου πει "47" και θα χαίρομαι επειδή κάνει γρήγορα μαθηματικές πράξεις;
 
  • Like
Reactions: athlon6401
Εγώ ξέρω ότι demo ενός προγράμματος ή μίας υπηρεσίας είναι μία real life δοκιμή με περιορισμούς.
Αν θα πάω σε ένα super market και μου δώσουν να δοκιμάσω ένα τυρί και είναι χάλια, δεν θα το αγοράσω με τη φιλοσοφία ότι το πληρωμένο είναι καλύτερο.
Όπως και ένα trial πρόγραμμα, αν δεν κάνει αυτό που θέλω, δεν θα το αγοράσω.

Το να έχει λοιπόν περιορισμένες δυνατότητες το καταλαβαίνω και να το σεβαστώ. Σε στυλ "φιλαράκι, σου είπα ότι μου έγραψες, αλλά δεν θα ασχολούμαστε με εσένα τώρα, αύριο πάλι".
Το "σου απαντάω παπαριές που πρέπει να ελέγξεις" είναι απλά μη αποδεκτό.-
Δηλαδή θα τον ρωτήσω "πόσο κάνει 3x8" θα μου πει "47" και θα χαίρομαι επειδή κάνει γρήγορα μαθηματικές πράξεις;
Είναι πολύ περίεργο να έχουμε απέναντί μας εταιρίες οι οποίες σκέφτονται και δρουν με τελείως διαφορετικά κριτήρια από σχεδόν όλο τον υπόλοιπο επιχειρηματικό κόσμο.
Έχουν ατελείωτα χρήματα εξασφαλισμένα για "κάψιμο".
Είναι όλες άλογα σε ένα αγώνα κούρσας όπου ο πρώτος βασικά θα πάρει σχεδόν όλο το χρήμα - δηλαδή την υλοποίηση AGI και συνεπακόλουθα ASI.
Δεν ενδιαφέρονται καθόλου για την εμπορική εξέλιξή τους τώρα.
Δεν υπάρχει πιο χαρακτηριστική ατάκα από αυτή του Altman που είπε "Όταν φτιάξουμε AGI θα την ρωτήσω να μου αναπτύξει το business plan της εταιρίας μας".

Είναι δύσκολο να πιστέψουμε ότι δεν θέλουν περισσότερους χρήστες των 20 δολαρίων. Κάθε τέτοιος χρήστης, ειδικά αν χρησιμοποιεί extended thinking τους κόβει resources από την ανάπτυξη των νέων μοντέλων τους. Και φυσικά το πραγματικό κόστος του εργαλείου που δίνουν με 20 δολάρια είναι πολλαπλάσιο.

Απλά πρέπει να κρατήσουν μια ισορροπία αριθμού χρηστών, feedback που δέχονται και δυνατότητες ανάπτυξης και λόγω του απίστευτου όγκου των διαθέσιμων χρημάτων που έχουν καθιστούν τον παράγοντα κόστος πολύ χαμηλό στις αποφάσεις που παίρνουν.
 
Επιβεβαίωσε παρακαλώ ότι το έτρεξες το παραπάνω στην δωρεάν έκδοση του ChatGPT.

Στην πληρωμένη δεν το υπολογίζει μόνο του, αλλά γράφει κώδικα σε python, τρέχει τον κώδικα και μεταφέρει το αποτέλεσμα το οποίο είναι προφανώς σωστό.

Και όχι μόνο αυτό, στο τέλος λέει ότι η σωστή απάντηση εξαρτάται από το είδος του σωλήνα γιατί η ονομαστική διάμετρος αφορά την εξωτερική διάμετρο (το οποίο είναι σωστό) και ότι σωλήνες από διαφορετικά υλικά έχουν διαφορετικό πάχος τοιχώματος, το οποίο επηρρεάζει τον τελικό εσωτερικό όγκο (επίσης σωστό) και άρα την τελική απάντηση.

Δυστυχώς βλέπω ότι η διαφορά απόδοσης στο δωρεάν ChatGPT από αυτό ακόμη και μόνο με τα 20 ευρώ μεγαλώνει μοντέλο με το μοντέλο.
Με το δωρεάν ήταν
 
Είναι δύσκολο να πιστέψουμε ότι δεν θέλουν περισσότερους χρήστες των 20 δολαρίων. Κάθε τέτοιος χρήστης, ειδικά αν χρησιμοποιεί extended thinking τους κόβει resources από την ανάπτυξη των νέων μοντέλων τους. Και φυσικά το πραγματικό κόστος του εργαλείου που δίνουν με 20 δολάρια είναι πολλαπλάσιο.

Θα χάλαγε μια εταιρία να παίρνει 240€ το χρόνο x κάποια εκατομμύρια χρήστες ;
Βρίσκονται σε μια κούρσα να αποδείξουν ότι είναι καλύτεροι χωρίς να δίνουν το full potential του προϊόντος τους και χωρίς να τους ενδιαφέρει για άλλα 240€ το χρόνο;
Μάλλον πρέπει να ρωτήσουν το ίδιο το προϊόν τους πόσο χαζό είναι αυτό 😂
 
Θα χάλαγε μια εταιρία να παίρνει 240€ το χρόνο x κάποια εκατομμύρια χρήστες ;
Βρίσκονται σε μια κούρσα να αποδείξουν ότι είναι καλύτεροι χωρίς να δίνουν το full potential του προϊόντος τους και χωρίς να τους ενδιαφέρει για άλλα 240€ το χρόνο;
Μάλλον πρέπει να ρωτήσουν το ίδιο το προϊόν τους πόσο χαζό είναι αυτό 😂
Μην το βλέπεις έτσι.
Δεν είναι ότι τους νοιάζει τόσο αν θα πάρουν ή όχι τα χρήματα, αλλά πόση επεξεργαστική ισχύ θα χάσουν από την ανάπτυξη για να πάρουν κάποια χρήματα που δεν θα καλύπτουν το κόστος αυτού που πουλάνε. Και επίσης έχουν λεφτά για να αγοράσουν επεξεργαστική ισχύ, αλλά και πάλι δεν μπορούν να αγοράσουν όσο θέλουν γιατί δεν υπάρχει αρκετή παραγωγή.
Σκέψου επίσης τι χαμός έχει γίνει με το Sora τώρα και πόση επεξεργαστική ισχύ απαιτείται για τη δημιουργία βίντεο...
Είναι πολύ περίπλοκη η κατάσταση.
 
Ας κόψουν τις βλακείες και ας το κάνουν επί πληρωμή τότε.
Κανείς δεν θα δίνει έστω 10€ τον μήνα για να φτιάχνει γατιά που παντρεύονται
 
Είναι πολύ περίεργο να έχουμε απέναντί μας εταιρίες οι οποίες σκέφτονται και δρουν με τελείως διαφορετικά κριτήρια από σχεδόν όλο τον υπόλοιπο επιχειρηματικό κόσμο.
Έχουν ατελείωτα χρήματα εξασφαλισμένα για "κάψιμο".
Είναι όλες άλογα σε ένα αγώνα κούρσας όπου ο πρώτος βασικά θα πάρει σχεδόν όλο το χρήμα - δηλαδή την υλοποίηση AGI και συνεπακόλουθα ASI.
Δεν ενδιαφέρονται καθόλου για την εμπορική εξέλιξή τους τώρα.
Δεν υπάρχει πιο χαρακτηριστική ατάκα από αυτή του Altman που είπε "Όταν φτιάξουμε AGI θα την ρωτήσω να μου αναπτύξει το business plan της εταιρίας μας".

Είναι δύσκολο να πιστέψουμε ότι δεν θέλουν περισσότερους χρήστες των 20 δολαρίων. Κάθε τέτοιος χρήστης, ειδικά αν χρησιμοποιεί extended thinking τους κόβει resources από την ανάπτυξη των νέων μοντέλων τους. Και φυσικά το πραγματικό κόστος του εργαλείου που δίνουν με 20 δολάρια είναι πολλαπλάσιο.

Απλά πρέπει να κρατήσουν μια ισορροπία αριθμού χρηστών, feedback που δέχονται και δυνατότητες ανάπτυξης και λόγω του απίστευτου όγκου των διαθέσιμων χρημάτων που έχουν καθιστούν τον παράγοντα κόστος πολύ χαμηλό στις αποφάσεις που παίρνουν.

Εδώ και κάποιο καιρό οι περισσότεροι έχουν μπεί σε μια λογική break even του τελευταίου τους μοντέλου από το API access και μετά λανσάρουν το επόμενο. Είναι στα κόκκινα όχι επειδή το προηγούμενο μοντέλο τους δεν έβγαλε τα χρήματα του, αλλά επειδή πείθουν τους επενδυτές (VC) πως αξίζει το training των επόμενων μοντέλων να είναι ασύμμετρα ακριβότερο από το προηγούμενο εφόσον και αυτό θα βγάλει τα χρήματα του με το εκρηκτικά αυξανόμενο usage. Τα κόστη του development δεν είναι κάτι εξωπραγματικό, για το εξάμηνο η OpenAI δήλωσε 6.7B r&d κόστη. Αυτό σε μια προοπτική είναι λίγο περισσότερο από τα μισά κέρδη ενός μήνα της Google.

Τα πολύ μεγάλα LLM, GPT-5, Gemini 2.5 pro κλπ πλέον λειτουργούν με υπο-μοντέλα Mixture of Experts, αρκετά μικρότερα, της τάξης των λίγων εκατοντάδων δισεκατομμυρίων παραμέτρων ακριβώς για το efficiency στο Inference.

Εγώ ξέρω ότι demo ενός προγράμματος ή μίας υπηρεσίας είναι μία real life δοκιμή με περιορισμούς.
Αν θα πάω σε ένα super market και μου δώσουν να δοκιμάσω ένα τυρί και είναι χάλια, δεν θα το αγοράσω με τη φιλοσοφία ότι το πληρωμένο είναι καλύτερο.
Όπως και ένα trial πρόγραμμα, αν δεν κάνει αυτό που θέλω, δεν θα το αγοράσω.

Το να έχει λοιπόν περιορισμένες δυνατότητες το καταλαβαίνω και να το σεβαστώ. Σε στυλ "φιλαράκι, σου είπα ότι μου έγραψες, αλλά δεν θα ασχολούμαστε με εσένα τώρα, αύριο πάλι".
Το "σου απαντάω παπαριές που πρέπει να ελέγξεις" είναι απλά μη αποδεκτό.-
Δηλαδή θα τον ρωτήσω "πόσο κάνει 3x8" θα μου πει "47" και θα χαίρομαι επειδή κάνει γρήγορα μαθηματικές πράξεις;

Είσαι λίγο άδικος πάλι.
Εάν θέλεις να κάνεις demo της υπηρεσίας, πας στο API playground της και με τη χρέωση του API που για 2-3-4 prompts θα είναι ελάχιστη, δοκιμάζεις όποιο μοντέλο τους θέλεις.

Το ότι προσφέρει δωρεάν έστω και ένα lightweight μοντέλο με πολύ μεγάλο usage quota είναι προς τιμήν τους, όχι λόγος για ψόγο. Το lightweight μοντέλο είναι μια χαρά στη παραγωγή λόγου, να σου κάνει μια ποιοτική μετάφραση, να ψάξει δεδομένα και κακό στο να επεξεργαστεί και να αναλύσει δεδομένα.

Παραταύτα, υπάρχουν και τέτοια trials, η Google σου δίνει 5 prompts την ημέρα να δοκιμάσεις το Gemini 2.5 Pro και η Claude κάτι αντίστοιχο για το 4.1 Opus, το δικό τους μεγάλο μοντέλο.
 
Καλά το gemini είναι τελείως για γέλια.
Πολύ χειρότερο του chatgpt και ας το παίζει και ειδικό για developing.
Το είχα το pro για 1 μήνα και το ξεσκόνιζα
 

Νέα μελέτη της OpenAI για το πως επηρρεάζουν τα σημερινά μοντέλα (όχι κάποια υποθετικά μελλοντικά μοντέλα). Τα αποτελέσματα είναι το λιγότερο ενδιαφέροντα.

  • η απόδοση των κορυφαίων μοντέλων βελτιώνεται περίπου γραμμικά με τον χρόνο και τα καλύτερα πλησιάζουν την ποιότητα των έμπειρων επαγγελματιών.
  • σε «τυφλές» συγκρίσεις από επαγγελματίες, τα μοντέλα ισοφάρισαν ή ξεπέρασαν τους ανθρώπους σε περίπου τις μισές εργασίες (με διαφοροποίηση ανά είδος παραδοτέου).
  • όταν χρησιμοποιούνται με ανθρώπινη επίβλεψη (δοκιμή αποτελεσμάτων, έλεγχος, επανάληψη), τα μοντέλα δείχνουν δυνατότητα εξοικονόμησης χρόνου και χρημάτων έναντι ενός ειδικού που δουλεύει μόνος.
  • περισσότερη «προσπάθεια συλλογισμού» (reasoning effort), καλύτερες οδηγίες/πλαίσιο (prompting & scaffolding) και πλουσιότερο context βελτιώνουν μετρήσιμα τα αποτελέσματα.

Αυτό που προσωπικά βλέπω είναι ότι τα ενδιάμεσα στάδια από το πριν μέχρι το μετά τα ξεπερνάμε τόσο γρήγορα που δεν προλαβαίνουμε καν να αναλύσουμε τι έγινε και πως.
Ένα από τα πολυτιμότερα skills αυτή τη στιγμή είναι το prompting των μοντέλων γιατί φυσικά χωρίς σωστό prompting δεν θα πάρεις τίποτα καλό. Αλλά πόσο πρέπει να επενδύσει κάποιος σε αυτό και πότε να το παρατήσει; Θεωρώ ότι σε 3-4 χρόνια δεν θα το θυμάται κανείς...
 
Απλή ερώτηση.

Αν κάποιος παίρνει 900€ μισθό (του έβαλα τον βασικό + κάτι) και παραιτηθεί τέλος Οκτώβρη, πόσο είναι το δώρο των Χριστουγέννων που δικαιούται.
Απάντηση: 335,16€.
Αφού τον έφερα με prompts στην σωστή απάντηση, του ξεκίνησα μία συζήτηση γιατί δεν δίνει από την αρχή τη σωστή απάντηση και μου έδινε τις βλακώδεις απαντήσεις "είναι ανθρώπινο λάθος"

Η απάντησή του:
"Εντάξει, ας είμαστε απολύτως ξεκάθαροι.

Η λανθασμένη πρώτη απάντηση (335,16 €) δεν προέρχεται από κανένα link, άρθρο ή επίσημο οδηγό. Δεν μπορώ να σου δείξω πηγή, γιατί δεν υπάρχει.

Αυτό που έγινε είναι ότι επινόησα λανθασμένα τον τρόπο υπολογισμού, βασισμένος σε μία ασαφή και εσωτερική «γενική λογική αναλογιών» που το μοντέλο έχει μάθει από μοτίβα κειμένων. Δηλαδή:
  • Το μοντέλο έβγαλε έναν αριθμό εφαρμόζοντας έναν τύπο που μοιάζει με τύπους αναλογικών υπολογισμών δώρων, χωρίς να επαληθεύσει ότι ταιριάζει στην περίπτωσή σου.
  • Δεν ήταν αντιγραφή από άρθρο, οδηγό ή επίσημη πηγή.

💡 Συμπέρασμα: η πρώτη απάντηση ήταν λάθος και επινοημένη από το μοντέλο, δεν υπήρχε πραγματική πηγή πίσω της.

Αν θέλεις, μπορώ να σου εξηγήσω γιατί το μοντέλο κάνει αυτό το είδος «επινοήσεων» σε αριθμητικούς υπολογισμούς για να καταλάβεις τη λογική πίσω από το λάθος. Θέλεις να το κάνω;"


Αφού του απάντησα ναι.

"Πώς λειτουργεί το μοντέλο σε αριθμητικά προβλήματα

Το GPT-5-mini δεν «ξέρει» αριθμούς όπως ένας calculator. Δεν κάνει πάντα ακριβή βήμα-βήμα υπολογισμό. Αντίθετα:

Βασίζεται σε μοτίβα και στατιστικές συνήθειες που έχει μάθει από τεράστιο όγκο κειμένων.

Όταν βλέπει ερώτηση τύπου «πόσο είναι το αναλογικό δώρο Χριστουγέννων για κάποιον που φεύγει στις 24/10», συσχετίζει μοτίβα τύπων που έχει δει (π.χ. «ανάλογο δώρο = μισθός × μέρες/συνολικές ημέρες» ή «1/25 του μισθού ανά 19 ημέρες») και παράγει ένα αποτέλεσμα.

Γιατί εμφανίστηκε λάθος

Το μοντέλο επινόησε έναν αριθμό εφαρμόζοντας λανθασμένα έναν τύπο που μοιάζει με «τυπική μέθοδο αναλογιών».

Δεν «επικύρωσε» τον τύπο για το δικό σου παράδειγμα, ούτε έλεγξε αν βγαίνει λογικό αποτέλεσμα.

Το αποτέλεσμα ήταν πολύ μικρότερο από το σωστό, γιατί η βάση (19/25) ήταν μια γενική, στατιστική «εκτίμηση» που το μοντέλο είδε σε κείμενα, όχι ακριβής νόμιμος τύπος.

Τι σημαίνει αυτό για τη χρήση του μοντέλου

Το μοντέλο μπορεί να δώσει λάθος αριθμητικά αποτελέσματα, ακόμα και σε απλές περιπτώσεις, επειδή:

Προσπαθεί να μιμηθεί μοτίβα κειμένων που έχει δει, όχι να υπολογίσει με ακρίβεια.

Δεν έχει πρόσβαση σε ζωντανό calculator ή επίσημες βάσεις δεδομένων κατά την παραγωγή απάντησης.

Σπάνια επαληθεύει τα ενδιάμεσα βήματα ή το αν το αποτέλεσμα έχει νόημα.

Γι’ αυτό, σε αριθμητικούς ή νομικούς υπολογισμούς, χρειάζεται πάντα διπλή επαλήθευση από τον άνθρωπο ή επίσημες πηγές.

Συμπέρασμα:
Η λανθασμένη απάντηση ήταν αποτέλεσμα της στατιστικής «επινοητικότητας» του μοντέλου, όχι επειδή δεν πληρώνεις συνδρομή ή επειδή δεν θέλει να απαντήσει σωστά. Το μοντέλο απλώς παρήγαγε έναν αριθμό βασισμένο σε μοτίβα που έχει δει."

Εδώ η συζήτηση.
 
Εγώ βλέπω ότι από τη μία κυνηγάνε το AGI, αλλά από την άλλη γίνονται όλο και χειρότεροι στα βασικά.

Αν συνεχίσουν έτσι θα σκάσει η φούσκα και θα κάνει τεράστιο μπαμ.
 
Κοίτα. Όταν δεν μπορεί να κάνει απλές μαθηματικές πράξεις και "επινόησε έναν αριθμό εφαρμόζοντας λανθασμένα έναν τύπο που μοιάζει με «τυπική μέθοδο αναλογιών»." φαντάσου τι κάνει σε κάτι σοβαρό.
Στον προγραμματισμό, κάνει συρραφές κώδικα από το Stack overflow χωρίς καν να κάνει την προσπάθεια να κάνει τον κώδικα να μοιάζει ότι γράφτηκε από έναν developer.
Σε μία στρατιωτική εφαρμογή θα επινοήσει έναν στόχο εφαρμόζωντας λανθασμένα έναν τύπο που μοιάζει με τυπική μέθοδο αναγνώρισης εχθρών;

Προβλέπω ότι σε 2-3 χρόνια απλά θα πουν "συγνώμη, τελικά το ΑΙ είναι καλό για κανένα deepfake και ως εκεί. Φτιάξτε κανένα γατί να θηλάζει σκυλάκια να χαίρεστε.".