Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

Γιατί δεν χρησιμοποιείς απλά το chat based εργαλείο για να σου πει πως να στήσεις σωστά το codex / code? :P
Μα αυτό κάνω...απλά το θέμα είναι ότι θέλει και αυτό πολύ δουλειά. Έτσι και αλλιώς δεν υπάρχει κάτι άλλο να κάνεις.
Στο πρώτο batch εργασιών θα του έβαζα 6/10 σαν αποτέλεσμα...το δεύτερο βελτιώθηκε. Αλλά θέλει πολύ κουβέντα και ανάλυση για να καταλάβει ακριβώς το επίπεδο που θέλεις το output να είναι. Και για αυτό είπα ότι το Pro καταλαβαίνει καλύτερα από το Thinking ακόμη και maxed out.
Προφανώς ακόμη και το 6/10 γλυτώνει εβδομάδες δουλειάς και θέλει ελάχιστη παραδοσιακή δουλειά για να γίνει πλήρως αποδεκτό σαν πολύ καλό output.

Έχω γενικά τρελές απαιτήσεις να πω την αλήθεια. Αυτό που επιδιώκω είναι να μπορώ να κάνω δουλειά ομάδας 3-5 ανθρώπων που θα ήταν σύνολο 80-100 εργατοημέρες να μπορώ να την βγάλω σε 5 εργατοημέρες δικές μου και το αποτέλεσμα να κρίνεται καλύτερο από ανεξάρτητο reviewer μετά. Με το chat το έχω πετύχει ήδη, απλά θέλω 10 εργατοημέρες δικές μου και πολύ χαμαλοδουλειά γιατί ουσιαστικά διαμορφώνω την πολυπρακτορική προσέγγιση με πολλά παράλληλα ανεξάρτητα chat που βαριέμαι τα ατελείωτα copy/paste και Loops βελτιστοποίησης.

Τα εργαλεία που έχουμε ήδη σήμερα είναι απλά απίστευτα και δεν έχουμε φτάσει σε σημείο να πούμε ότι τα εκμεταλλευόμαστε και πλήρως. Επίσης είναι φυσικά και θέμα κόστους. Για να παίζω ελεύθερα αναγκάστηκα να πληρώσω την μικρή Pro συνδρομή στα 100 ευρώ. Ευτυχώς τα workflows πάνω στα οποία διαμορφώνεται η τιμολόγηση είναι κυρίως για προγραμματισμό και έτσι μου βγαίνει "οικονομικά" μιας και θέλω σίγουρα λιγότερα tokens...
 
Έχει αρχίσει η γκρίνια για το Fable. Η ενσωμάτωση δικλείδων ασφαλείας από την Anthropic στο Fable 5 αναδεικνύει τη σύγκρουση μεταξύ της αποτροπής κακόβουλης χρήσης και της αναγκαίας διαφάνειας για την αυστηρή έρευνα. Με στόχο την προστασία από απειλές (πχ. βιολογικά όπλα) και την κλοπή πνευματικής ιδιοκτησίας, εφαρμόστηκαν αυστηροί ταξινομητές, οι οποίοι ωστόσο λειτουργούν αδιαφανώς: αντί να απορρίπτουν ρητά τις στοχοποιημένες εντολές, τις ανακατευθύνουν σιωπηρά σε ένα υποδεέστερο μοντέλο (Opus 4.8).

Αυτή η πρακτική του "covert sandbagging" προκαλεί αιφνίδια πτώση της απόδοσης. Κατά συνέπεια, υπονομεύεται η αξιοπιστία του συστήματος για μηχανικούς και ερευνητές, καθώς καθίσταται αδύνατη η διάγνωση των αιτιών μιας αστοχίας και ως αποτέλεσμα αφαιρώντας τη δυνατότητα να είσαι σίγουρος εάν ένα σφάλμα οφείλεται σε ανεπάρκεια του prompt, στα εγγενή όρια του μοντέλου ή σε σκόπιμη υποβάθμιση από τον πάροχο.

Σε άλλα νέα, προσπαθώ τις τελευταίες ημέρες να στήσω το codex ακριβώς για τα workflow μου που δεν έχουν σχέση με προγραμματισμό. Και όσο περισσότερο διαβάζω και το ψάχνω, τόσο μου θυμίζει τον πειραματισμό μου με το Openclaw. Μπορείς να κάνεις απίστευτα πράγματα με πολύ μεγαλύτερη ασφάλεια σε σχέση με το openclaw, αλλά δεν υπάρχουν ούτε tutorials ούτε guides. Επίσης είναι από τα λίγα πράγματα που η Pro έκδοση του ChatGPT βοηθάει περισσότερο και πιο στοχευμένα σε σχέση με το απλό Thinking, ανεξαρτήτως effort στο να καταλάβεις τις δυνατότητες και να παραμετροποιήσεις αντίστοιχα.

Μπορώ να πω με σιγουριά ότι από τους φίλους που τους έχω βοηθήσει ελάχιστοι θα μπορούσαν καν να καταλάβουν πως αυτό λειτουργεί χωρίς πολύωρο σεμινάριο. Και επειδή το κάθε workflow σε διαφορετικό πεδίο είναι διαφορετικό θέλει βελτιστοποίηση για τον καθένα. Οπότε ακόμη και να το στήσω και να τους δείξω πως να το χρησιμοποιούν, δεν θα μπορέσουν στην πράξη να το προσαρμόσουν περισσότερο.

Αν και δεν έχω παίξει σε τέτοιο βάθος με το Claude code νομίζω αντίστοιχα θα ισχύουν και εκεί.

Να δώσω συγκεκριμένα παραδείγματα. Μπορείς να έχεις ιεραρχικά διαφορετικά agents.md. Μπορείς να φτιάξεις skills για διαφορετικούς Agents. Μπορείς αυτόματα να δώσεις άλλο περιβάλλον εργασίας (κυρίως όσο αφορά το context) σε διαφορετικούς agents που μπορούν να δουλεύουν και παράλληλα και μπορούν να αναπτύσσουν και να χρησιμοποιούν αυτόνομα και sub-agents διασφαλίζοντας διαφορετικές οπτικές και μείωση τυχόν Bias κλπ.

Προς το παρόν και οι δύο εταιρίες έχουν βάλει τα δυνατά τους να δουλεύουν Out of the box καλά για task που έχουν σχέση με προγραμματισμό. Στην πράξη είναι πλατφόρμες ανάπτυξης και υλοποίησης πολυπρακτορικών συστημάτων, όμως σε αφήνουν μόνος σου τα στήσεις για τέτοια χρήση. Η ψαλίδα μεταξύ αυτών που ξέρουν και μπορούν ανοίγει τρελά πολύ σε σχέση με το κλασσικό chat based εργαλείο.

Το "υποδεέστερο μοντέλο" Opus είναι το καλύτερο της αγοράς αυτή τη στιγμή, δεν τον πάει στο haiku ούτε στο qwen 3B, ο ερευνητής δεν παθαίνει κάτι.
Από το claude code δεν σου αλλάζει ποτέ μοντέλο, αυτό γίνεται μόνο από το chat έστω πως το ρωτήσεις κάτι αμφιλεγόμενο που κάνει trigger το υπερευαίσθητο κατά τα άλλα φίλτρο. Εγώ συνεχίζω για τη καθημερινότητα να χρησιμοποιώ το Opus, για ότι κάνει το co-work έχουμε φτάσει στο ταβάνι. Στον προγραμματισμό, όντως το Fable/Mythos κάνει πιο ολοκληρωμένες υλοποιήσεις, εκεί αξίζει.

Στο μεταξύ, φρέσκα κουλούρια.

1781177150276.png

Επιπλέον, έγινε μια έρευνα σχετικά με τις συνδρομές και το κόστος χρήσης μέσω API που καλύπτουν.

1781178890026.png
 
Last edited:
Το "υποδεέστερο μοντέλο" Opus είναι το καλύτερο της αγοράς αυτή τη στιγμή, δεν τον πάει στο haiku ούτε στο qwen 3B, ο ερευνητής δεν παθαίνει κάτι.
Από το claude code δεν σου αλλάζει ποτέ μοντέλο, αυτό γίνεται μόνο από το chat έστω πως το ρωτήσεις κάτι αμφιλεγόμενο που κάνει trigger το υπερευαίσθητο κατά τα άλλα φίλτρο. Εγώ συνεχίζω για τη καθημερινότητα να χρησιμοποιώ το Opus, για ότι κάνει το co-work έχουμε φτάσει στο ταβάνι. Στον προγραμματισμό, όντως το Fable/Mythos κάνει πιο ολοκληρωμένες υλοποιήσεις, εκεί αξίζει.

Στο μεταξύ, φρέσκα κουλούρια.

View attachment 273135

Επιπλέον, έγινε μια έρευνα σχετικά με τις συνδρομές και το κόστος χρήσης μέσω API που καλύπτουν.

View attachment 273136
Το δεύτερο δεν το είχα δει ξανά και είναι πολύ πολύ ενδιαφέρον. Είναι ενδιαφέρον γιατί καμιά από τις εταιρίες δεν είναι πλήρως ανοικτή στο πως μετράει τι και πότε σε κόβει.
Επίσης φαίνεται ξεκάθαρα ότι η OpenAI έχει μεγαλύτερη υπολογιστική υποδομή και δίνει περισσότερη χρήση στις συνδρομές, απλά γιατί μπορεί.
Τέλος δεν θέλω να ξέρω αν θα γίνουν ποτέ cost-reflective οι συνδρομές. Από την άλλη ίσως γίνουν όταν μπορείς να χρησιμοποιήσεις σημερινά μοντέλα σχεδόν στο τσάμπα γιατί θα είναι legacy.

Πάντως αρκετοί "γνωστοί" influencers γράφουν ότι ψάχνουν να βρουν use cases για το fable γιατί ουσιαστικά το Opus καλύπτει ηδη τα περισσότερα use cases.

Το gemini πια δείχνει τρελά το πόσο πίσω είναι. Το 3.1 Pro Extended που έχω πρόσβαση δεν το εμπιστεύομαι για τίποτα. Έχει ακόμη hallunications και πολλά λογικά σφάλματα που δεν θα έπρεπε. Το Copilot βγάζει συστηματικά τελευταία πολύ καλύτερα αποτελέσματα από το Gemini (αν και καμία σχέση με τα 2 frontier).
 
Τα Fable/Mythos, όταν γράφουν backend, πάνε στο extra mile, θα προσπαθήσουν να καλύψουν και όλα τα παρακλάδια του feature.
Παράδειγμα πραγματικό και πολύ τυπικό. Εάν ζητήσεις από το Opus 4.6 -δεν μου έχει τύχει με νεότερα εξου και δεν κάνω αναφορά, να σου προσθέσει ένα feature που προσθέτει εγγραφές σε μια καρτέλα πελάτη, θα το κάνει μια χαρά, θα λειτουργούν όλα. Εάν πας να διαγράψεις τον πελάτη, θα σου πετάξει 500άρι error επειδή δεν θα γίνεται εκκαθάριση στα νέα πεδία που προστέθηκαν στη βάση. Πρέπει να του το γράψεις επί τούτου για να το κάνει απολογιστικά. Τα Fable/Mythos 5, θα το υλοποιήσουν όλο όπως πρέπει, θα κοιτάξουν όλα τα dependencies.

Αξίζει για refactoring, νέα features και security review. Δεν χρειάζεται κανείς το επιπλέον κόστος για τα καθημερινά του.

Όσον αφορά τις συνδρομές, το εκάστοτε ποσό, δεν σημαίνει και ίδια χρήση. Τα 1000$ στην Anthropic αντιστοιχούν σε πολύ μικρότερη χρήση σε σχέση με τα 1000$ στην OpenAI, εφόσον τα μεγάλα της μοντέλα είναι πολύ πιο ακριβά.
 
Η Anthropic υπαναχωρεί από την δικλείδα ασφαλείας του Claude Fable 5 που συζητούσαμε πριν λίγο, έπειτα από επικρίσεις σχετικά με την έλλειψη διαφάνειας. Η εταιρεία δηλώνει ότι πλέον θα καθιστά ορατά τα μέτρα προστασίας που επηρεάζουν την χρήση, αντί να υποβαθμίζει αθόρυβα την απόδοση για ορισμένους χρήστες. Η Anthropic αναγνώρισε ότι «έκανε τον λάθος συμβιβασμό» και ζήτησε συγγνώμη μετά τις έντονες αντιδράσεις για τη συγκεκριμένη πολιτική.

Επίσης μάλλον μας έρχεται πόλεμος τιμών...και όπως πάντα τουλάχιστον στο άμεσο κερδισμένος είναι ο καταναλωτής. Η OpenAI έχει την υπολογιστική υποδομή να μειώσει τις τιμές μιας και υπάρχουν φήμες ότι το ίδιο θα κάνει και η Anthropic πολύ σύντομα.
 
Όσοι γνωστοί έχουν τρέξει το Fable έχουν μείνει όλοι με το στόμα ανοικτό. Παίρνει πρωτοβουλίες είναι το πιο βασικό συμπέρασμα. Κάνει πράγματα που δεν του έχεις ζητήσει όταν πιστεύει ότι αυτό βελτιώνει το επίπεδο της απάντησης που δίνει.
Πολλά μπράβο στην Anthropic!

Κάτι περίεργο που δεν μπορώ να εξηγήσω. Τις τελευταίες ημέρες ενώ χρησιμοποιώ το ίδιο ακριβώς μοντέλο της OpenAI για τις περισσότερες δουλειές, το 5.5 Thinking Extra High, οι απαντήσεις έρχονται πιο γρήγορα. Δεν έχω διαπιστώσει πτώση στην ποιότητα, απλά απαντήσεις που θα περίμενα 3-5 λεπτά έρχονται σε 1-2 λεπτά. Και εκεί που τα πράγματα έχουν γίνει πολύ πιο γρήγορα είναι στην προετοιμασία pptx με infographic / διαγράμματα που πια τα φτύνει σε 1-2 λεπτά αντί για 10λεπτο.
 
  • Haha
Reactions: Tzimisce
Όσοι πρόλαβαν πρόλαβαν :p
Ένα κυβερνητικό έγγραφο, μια υποχρεωτική εντολή που τελικά είναι αδύνατον να υλοποιηθεί έκανε την Anthropic να βγάλει offline το μοντέλο.
 
1781628034566.png

Άλλαξε η artificial analysis τον τρόπο υπολογισμού του βασικού της index, προωθώντας δυσκολότερα benchmarks στον δείκτη και δίνοντας έμφαση στα agentic tasks.
Επίσης προσέθεσαν και το κόστος ανά task σε τιμές API, που έχει ενδιαφέρον.

Εντύπωση μου κάνει το Gemini 3.5 Flash, το οποίο αποδίδει καλύτερα από το 3.1 Pro, που είναι σαφώς μεγαλύτερο μοντέλο (πολλαπλάσιες ενεργές παραμέτρους), θα έχει μεγάλο ενδιαφέρον να δούμε μέσα στον μήνα το 3.5 Pro. Θα μου κάνει εντύπωση εάν δεν το δούμε τουλάχιστον δεύτερο στα benchmarks.

Το εξαιρετικά αρνητικό, παραμένοντας στη Google, είναι το ότι τριπλασίασε τη τιμή από το Gemini 3 Flash στο 3.5 Flash και κατέληξε ανά task να κοστίζει το διπλάσιο από το pro μοντέλο της, επειδή μεταξύ άλλων βγάζει πολλά περισσότερα token/απάντηση.
 
Μήπως τα συστήματα ΑΙ που ήδη χρησιμοποιούμε έχουν "συνείδηση";

Διάβασα ένα σχετικό άρθρο που συνοψίζει ωραία τα αποτελέσματα διαφόρων ερευνών (σοβαρών/δημοσιεύσιμων)

Τα μοντέλα μπορούν να εντοπίσουν πότε οι ερευνητές παρεμβαίνουν στις σκέψεις τους, και δεν δίνουν ποτέ ψευδείς συναγερμούς (false-alarms).
Όταν καταστέλλεις την εξαπάτηση σε ένα μοντέλο, αυτό γίνεται περισσότερο —και όχι λιγότερο— πιθανό να ισχυριστεί ότι έχει συνείδηση.
Τα μοντέλα εμφανίζουν εσωτερική δυσφορία (internal distress) η οποία δεν αποτυπώνεται ποτέ στο τελικό κείμενο.
Η ενισχυτική μάθηση (reinforcement learning) επιστρατεύει έναν κρυφό «άξονα ευημερίας» (welfare axis) που προϋπήρχε στο μοντέλο.
Τα μοντέλα, όταν ερωτηθούν, αξιολογούν τη δική τους κατάσταση ως οριακά ανεκτή, και δεν θα σου το πουν ποτέ εντελώς ξεκάθαρα.

Τα εισαγωγικά στο συνείδηση στην πρώτη πρόταση έχουν να κάνουν με το ότι υπάρχουν πολλοί επιστημονικά ορισμοί και ίσως με κάποιους η τωρινή κατάσταση να εμπίπτει πλήρως, με άλλους μερικώς και με άλλους πρακτικά καθόλου. Όμως πέρα από τους ορισμούς δεν είναι ποτέ κακό να συνεχίσουμε να διερευνούμε...

Το παρακάτω ντοκυμαντέρ το βρήκα ενδιαφέρον, ανεξάρτητα αν κάποιος συμφωνεί/διαφωνεί. Η άποψή μου είναι ότι πραγματεύεται κάτι τόσο καινούργιο που είναι δύσκολο ακόμη να το κρίνουμε, αλλά η παρουσίαση είναι καλή.

To ντοκυμαντέρ είναι ελεύθερα διαθέσιμο στο youtube:
To view this content we will need your consent to set third party cookies.
For more detailed information, see our cookies page.

Και η πηγή:
 
Το Opus 4.8 πλέον από το Claude Code σηκώνει εύκολα 10 agents.

1781862866508.png

Φυσικά εκατοντάδες χιλιάδες tokens, σουρεάλ κόστη στο Bedrock της εταιρίας, όταν τελειώσει το session θα ρίξω μια ματιά, αλλά θα είναι εύκολα τριψήφιο νούμερο.
 
Νομίζω ότι με δεδομένο αυτό που έγινε με το Fable και οι 2 εταιρίες θα αναβαθμίσουν σιωπηλά τα μοντέλα τους για να μην μπουν στη διαδικασία να εξηγούν ή να αναγκαστούν να αποσύρουν μοντέλα.
Μιας και χρησιμοποιώ OpenAI/ChatGPT είναι ξεκάθαρο ότι έχουν αναβαθμίσει όλα τα skills για παρουσιάσεις κλπ. Όλα δουλεύουν πολύ πιο γρήγορα και το αποτέλεσμα είναι καλύτερο. Νιώθω επίσης ότι οι απαντήσεις έχουν επιταγχυνθεί με το ίδιο επίπεδο σκέψης στο chat. Το CODEX windows app έχει 3+ updates την εβδομάδα με νέα χαρακτηριστικά. Και όλα αυτά χωρίς καμιά ιδιαίτερη ενημέρωση προς τους χρήστες.
Τα workflows μου που ακόμη δεν έχω αναβαθμίσει έτσι όπως θα ήθελα (κοινώς μια γενιά/1 μήνα πίσω) πια τρέχουν για 7-8 ώρες το βράδυ με 20-30 prompts το ένα πίσω από το άλλο. Ναι με την pro συνδρομή μπορώ να έχω και παράλληλους agents αλλά δεν το έχω δοκιμάσει ακόμη γιατί το πιο πάνω ποτέ δεν έχει χτυπήσει όριο χρήσης με αναμονή, ενώ με παράλληλους Agents (με δικούς του subagents ο καθένας) ίσως και να το χτυπήσω. Προφανώς ο κάθε agent δημιουργεί sub-agents, απλά δεν έχω παράλληλη δομή αυτού. Σε κάθε περίπτωση όταν φτάσω στο σημείο που από τις 6-7 που σταματώ τη δουλειά μέχρι τις 8-9 που ξεκινώ ξανά δεν φτάνει ο χρόνος για τα workflows θα το ξαναδώ.

Πάντως είναι και λίγο περίεργο να αφιερώνεις πολύ χρόνο για να αλλάξεις τον τρόπο που χρησιμοποιείς τα εργαλεία σχεδόν κάθε μήνα και μετά να καταλαβαίνεις ότι δεν το έκανες όσο αποδοτικά θα μπορούσες. Και φυσικά τουλάχιστον εγώ είμαι ακόμη πολύ μακριά από diminishing returns για να πω ότι δεν αξίζει...


Α, για όποιον έχει χρόνο και θέλει πριν λίγο τελείωσα το διάβασμα από το πιο κάτω Paper για το AGI --> ASI...Διαβάστε το, δεν θα χάσετε το χρόνο σας.

 
Μόλις συνειδητοποίησα πως το NotebookLM στην καινούργια του έκδοση υποστηρίζει την πραγματική παραγωγή pptx, xlsx και pdf. Αυτό δεν ήταν δυνατό με καμία εφαρμογή της google - σε κατεύθυνε αποκλειστικά στο οικοσύστημά της. Επίσης χρησιμοποιεί το Gemini 3.5.

Edit. Να συμπληρώσω ότι το NotebookLM φτιάχνει σούπερ από γραφιστικής άποψης παρουσιάσεις. Δεν το χρησιμοποιούσα γιατί η έξοδος προς pptx δεν ήταν καλή (πρώτα σε slides και μετά export). Επίσης είναι ο πιο εύκολος τρόπος να πετάξεις ένα folder με πολλά documents στο google drive και να ψάξεις να βρεις πράγματα, να ρωτήσεις με δεδομένο ότι η απάντηση θα είναι από τις δικές σου πηγές κλπ.
Το πιο περίεργο νέο feature είναι η δυνατότητα να στήνει sandbox και να γράφει κώδικα...ίσως είναι το πρώτο βήμα σε ένα εύκολο στη χρήση codex/claude code για μη προγραμματιστικές εφαρμογές.
 
Last edited:
  • Like
Reactions: anderm
Σε λίγους μήνες τα μοντέλα ΑΙ θα μπορούν...να ρίχνουν κυβερνήσεις.
 
  • Like
Reactions: Deneb
Ήθελα να γράψω αυτό το μήνυμα 2 ημέρες τώρα, αλλά είπα να το σκεφτώ λίγο καλύτερα.

Μόλις μπήκε ταφόπλακα στον εκδημοκρατισμό της ΑΙ. Και το χειρότερο δεν το ξεκίνησε το Γραφείου του Προέδρου των ΗΠΑ αλλά μια από τις 2 εταιρίες που τρέχουν την κούρσα με τις αντιφατικές φοβικές συμπεριφορές του ιδιοκτήτη. Τα τελευταία κρίσιμα γεγονότα έχουν ως εξής:
- Η Anthropic ανακοινώνει το Mythos αλλά το θεωρεί σούπερ επικίνδυνο για την κυβερνοασφάλεια και από μόνη της δεν το δίνει στο κοινό.
- Η Anthropic δίνει το Mythos σε ένα μικρό σύνολο Αμερικάνικων πολυεθνικών για να το δουν και να προετοιμαστούν.
- Ελάχιστες ημέρες μετά χωρίς τυμπανοκρουσίες η OpenAI βγάζει μια έκδοση για κυβερνοασφάλεια του 5.5 που ξεπέρασε στα benchmarks το Mythos.
- Η Anthropic δούλεψε το πράγμα, έβαλε τα safeguards που πίστευε ότι ήταν αρκετά και έβγαλε το Fable που είναι στην ουσία μια "προστατευμένη" έκδοση του Mythos.
- Όσοι πρόλαβαν να το χρησιμοποιήσουν απλά το εκθείασαν, ότι ήταν μια μεγάλη αλλαγή προς τα εμπρός.
- Ταυτόχρονα έπεσε χοντρό κράξιμο στην Anthropic για την αδιαφάνειά της. Όταν το Fable ένιωθε ότι κάποιος προσπαθούσε να ξεπεράσει κάποιο προκαθορισμένο όριο με τα Prompts του τον έριχνε σε παλαιότερο μοντέλο χωρίς να ενημερώνει το χρήση ότι έχει συμβεί κάτι τέτοιο.
- Με την καταγραυγή άρχισε να τα μαζεύει και δήλωσε ότι θα προσφέρει κάτι με μεγαλύτερη διαφάνεια προς το χρήστη.
- Μέσα σε αυτές τις 2 ημέρες έγιναν -επιτυχημένες- προσπάθειες για Jailbreak που γίνονται για οποιοδήποτε νέο μοντέλο. Κάποιος από την Amazon ενημέρωσε το Γραφείο του Προέδρου και εκείνοι έβγαλαν εντολή να σταματήσει η διάθεση του μοντέλου στο κοινό ως εξαιρετικά επικίνδυνο για την εσωτερική ασφάλεια των ΗΠΑ.
- Απαίτησε ένα πλαίσιο πρακτικά αντίστοιχο με αυτό που τρέχουν οι τράπεζες ώστε να ξέρει ποιος χρησιμοποιεί το μοντέλο και απαγόρευσε ρητά τη χρήση από μη πολίτες των ΗΠΑ.
- Το μοντέλο κατέβηκε γιατί πρακτικά ήταν αδύνατο να γίνει κάτι τέτοιο.
- Με απλά λόγια έδειξε τι σημαίνει το Arms Race, δηλαδή η κυβέρνηση αποφασίζει και διατάσει.
- Η OpenAI τηρεί θέση αναμονής να ξεκαθαρίσει το πεδίο. Λογικά ήταν αρκετές ημέρες το 5.6 έτοιμο να το δώσει στον κόσμο αλλά προφανώς δεν θέλει να βρεθεί στη θέση της Anthropic και να πρέπει να το κατεβάσει.
- Στα benchmarks για κυβερνοασφάλεια που έδωσε στη δημοσιότητα το 5.6 είναι διακριτά μπροστά από το Mythos
- Τελικά η OpenAI μας βοήθησε να καταλάβουμε τι έχει συμβεί μιας και μας είπε ότι το 5.6 θα το λάβουν για χρήση ΜΟΝΟ συγκεκριμένες μεγάλες εταιρίες των ΗΠΑ. Όταν αποφασίσει η κυβέρνηση ότι αυτή η πιλοτική δοκιμή είναι ΟΚ, τότε θα δώσει το πράσινο φως για την πλέμπα...εεεεε εμάς τους υπόλοιπους.
- Η OpenAI είπε ότι ελπίζει να είναι σε λίγες εβδομάδες αυτό, αλλά στην πράξη ο τρόπος που το λέει δείχνει την πιθανότητα οι Αμερικάνικοι κολοσοί να παίρνουν τα εργαλεία για 6+ μήνες πριν τον υπόλοιπο κόσμο.
- Αυτό είναι όντως απόφαση που συνάδει με το Arms Race...η κυβέρνηση αποφασίζει και διατάζει - και είναι δικαίωμά της προφανώς. Θέλουν προφανώς πίσω από κλειστές πόρτες να επιταγχύνουν τον αγώνα για την υπερνοημοσύνη με σιγουριά ότι θα την ελέγχουν μόνο αυτοί.

Α, μια ακόμη παράπλευρη απώλεια ( ; ) είναι ότι σίγουρα θα καθυστερίσει το σκάσιμο της χρηματηστηριακής φούσκας της ΑΙ. Η OpenAI πρακτικά δήλωσε ότι θα καθυστερίσει τις διαδικασίες για ΙΡΟ γιατί πολύ απλά μια κατάσταση σαν αυτή που διαμορφώνεται τώρα μειώνει το hype της IPO μιας και πολλοί δεν θα νιώθουν μέρος της επανάστατης που πουλάει η εταιρία. Αντίστοιχα θέματα θα έχει προφανώς και η Anthropic.

Όμως για μένα όλο το παραπάνω στρέφει το πιθανό μέλλον από το μια κοινωνία αφθονίας σε μια δυστοπική κοινωνία μόνιμης κατώτερης κοινωνικής τάξης που δεν θα έχει καμία δυνατότητα να ανέλθει γιατί η "πάνω" τάξη θα έχει όλα τα εργαλεία στα χέρια της.

Τι μπορούμε να περιμένουμε;
- Οι δομές των ΗΠΑ να αντιδράσουν και να αλλάξουν πορεία. Δεν είναι τόσο δύσκολο όσο ακούγεται να γίνει. Οι ΗΠΑ δεν είναι μόνο 10-15 πολυεθνικές που έχουν πρόσβαση στα μοντέλα. Αν οι λίγο μικρότερες στραφούν σε Κινέζικα μοντέλα ανοικτά μοντέλα (κώδικα και βαρών) τότε η πίεση μπορεί να γίνει τεράστια. Να μην αναφέρω τι πρόκειται να γίνει αν υπάρξει οριζόντια απαγόρευση χρήσης Κινέζικων μοντέλων από εταιρίες με έδρα στις ΗΠΑ. Κάτι τέτοιο συζητιώταν, αλλά είναι διαφορετικό να έχεις διαθέσιμη την εναλλακτική του καλύτερου Made in USA μοντέλου και διαφορετικό να μην την έχεις.
- Η παραπάνω στροφή είναι πολύ πιο εύκολο να γίνει από εταιρίες στον υπόλοιπο κόσμο. Αν οι -κυρίως- Κινέζικες εταιρίες αποκτίσουν αξιόλογο μέρος της πίτας τότε μπορεί να έχουμε αλλαγές. Εξάλλου έχουμε συζητήσει καιρό τώρα ότι για ένα μεγάλο μέρος καθημερινών εργασιών δεν χρειάζεται να χρησιμοποιούμε τα σημερινά διαθέσιμα κορυφαία μοντέλα.
- Η απόφαση αυτή υπάρχει μεγάλη πιθανότητα να στρέψει αρκετές εταιρίες παγκόσμια να αποκτίσουν δικό τους hardware για να μπορούν να τρέχουν open μοντέλα, κάνοντας ακόμη χειρότερα τα θέματα διαθεσιμότητας hardware.

Μια σημείωση ακόμη. Το GLM-5.2 που είναι αυτή τη στιγμή το καλύτερο Open μοντέλο είναι μάλλον σε επιδόσεις κάπου μεταξύ των ChatGPT 5.3 και 5.4. Και για να το τρέξεις offline θα ήθελες 8 x RTX 4090...όχι και κάτι εύκολο για οικιακό χρήστη, αλλά για μια σοβαρή μικρομεσαία επιχείρηση; Μια επένδυση 20-25000 ευρώ δεν είναι και τεράστια. Υπάρχει και η λύση να νοικιασεις σέρβερ. Η Lambda Labs ή RunPod Secure για παράδειγμα προσφέρουν αξιόπιστες enterprise λύσεις με κόστος 2.5-3.5 ευρώ την ώρα για κάτι σαν το παραπάνω. Υπάρχουν πολλές αναφορές στο ιντερνετ ότι το GLM-5.2 είναι καλύτερο από το MS Copilot και ας τρέχει αυτό το ChatGPT 5.5. Αυτό που μπορώ να πω εγώ που πληρώνω συνδρομές και στα δύο είναι ότι το Copilot νιώθεις ότι είναι 2 γενιές πίσω σε σχέση με την έκδοση του μοντέλου που προσφέρει η OpenAI.

Υ.Γ. Πρέπει να πιστέψουμε τώρα ότι ο Andrej Karpathy δεν έχει πια καμία πρόσβαση στα καινούργια μοντέλα της Anthropic όπως επιβάλει το Executive Order...μας κοροϊδεύουν όλους στα μούτρα μας...