Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

Γιατί δεν χρησιμοποιείς απλά το chat based εργαλείο για να σου πει πως να στήσεις σωστά το codex / code? :P
Μα αυτό κάνω...απλά το θέμα είναι ότι θέλει και αυτό πολύ δουλειά. Έτσι και αλλιώς δεν υπάρχει κάτι άλλο να κάνεις.
Στο πρώτο batch εργασιών θα του έβαζα 6/10 σαν αποτέλεσμα...το δεύτερο βελτιώθηκε. Αλλά θέλει πολύ κουβέντα και ανάλυση για να καταλάβει ακριβώς το επίπεδο που θέλεις το output να είναι. Και για αυτό είπα ότι το Pro καταλαβαίνει καλύτερα από το Thinking ακόμη και maxed out.
Προφανώς ακόμη και το 6/10 γλυτώνει εβδομάδες δουλειάς και θέλει ελάχιστη παραδοσιακή δουλειά για να γίνει πλήρως αποδεκτό σαν πολύ καλό output.

Έχω γενικά τρελές απαιτήσεις να πω την αλήθεια. Αυτό που επιδιώκω είναι να μπορώ να κάνω δουλειά ομάδας 3-5 ανθρώπων που θα ήταν σύνολο 80-100 εργατοημέρες να μπορώ να την βγάλω σε 5 εργατοημέρες δικές μου και το αποτέλεσμα να κρίνεται καλύτερο από ανεξάρτητο reviewer μετά. Με το chat το έχω πετύχει ήδη, απλά θέλω 10 εργατοημέρες δικές μου και πολύ χαμαλοδουλειά γιατί ουσιαστικά διαμορφώνω την πολυπρακτορική προσέγγιση με πολλά παράλληλα ανεξάρτητα chat που βαριέμαι τα ατελείωτα copy/paste και Loops βελτιστοποίησης.

Τα εργαλεία που έχουμε ήδη σήμερα είναι απλά απίστευτα και δεν έχουμε φτάσει σε σημείο να πούμε ότι τα εκμεταλλευόμαστε και πλήρως. Επίσης είναι φυσικά και θέμα κόστους. Για να παίζω ελεύθερα αναγκάστηκα να πληρώσω την μικρή Pro συνδρομή στα 100 ευρώ. Ευτυχώς τα workflows πάνω στα οποία διαμορφώνεται η τιμολόγηση είναι κυρίως για προγραμματισμό και έτσι μου βγαίνει "οικονομικά" μιας και θέλω σίγουρα λιγότερα tokens...
 
Έχει αρχίσει η γκρίνια για το Fable. Η ενσωμάτωση δικλείδων ασφαλείας από την Anthropic στο Fable 5 αναδεικνύει τη σύγκρουση μεταξύ της αποτροπής κακόβουλης χρήσης και της αναγκαίας διαφάνειας για την αυστηρή έρευνα. Με στόχο την προστασία από απειλές (πχ. βιολογικά όπλα) και την κλοπή πνευματικής ιδιοκτησίας, εφαρμόστηκαν αυστηροί ταξινομητές, οι οποίοι ωστόσο λειτουργούν αδιαφανώς: αντί να απορρίπτουν ρητά τις στοχοποιημένες εντολές, τις ανακατευθύνουν σιωπηρά σε ένα υποδεέστερο μοντέλο (Opus 4.8).

Αυτή η πρακτική του "covert sandbagging" προκαλεί αιφνίδια πτώση της απόδοσης. Κατά συνέπεια, υπονομεύεται η αξιοπιστία του συστήματος για μηχανικούς και ερευνητές, καθώς καθίσταται αδύνατη η διάγνωση των αιτιών μιας αστοχίας και ως αποτέλεσμα αφαιρώντας τη δυνατότητα να είσαι σίγουρος εάν ένα σφάλμα οφείλεται σε ανεπάρκεια του prompt, στα εγγενή όρια του μοντέλου ή σε σκόπιμη υποβάθμιση από τον πάροχο.

Σε άλλα νέα, προσπαθώ τις τελευταίες ημέρες να στήσω το codex ακριβώς για τα workflow μου που δεν έχουν σχέση με προγραμματισμό. Και όσο περισσότερο διαβάζω και το ψάχνω, τόσο μου θυμίζει τον πειραματισμό μου με το Openclaw. Μπορείς να κάνεις απίστευτα πράγματα με πολύ μεγαλύτερη ασφάλεια σε σχέση με το openclaw, αλλά δεν υπάρχουν ούτε tutorials ούτε guides. Επίσης είναι από τα λίγα πράγματα που η Pro έκδοση του ChatGPT βοηθάει περισσότερο και πιο στοχευμένα σε σχέση με το απλό Thinking, ανεξαρτήτως effort στο να καταλάβεις τις δυνατότητες και να παραμετροποιήσεις αντίστοιχα.

Μπορώ να πω με σιγουριά ότι από τους φίλους που τους έχω βοηθήσει ελάχιστοι θα μπορούσαν καν να καταλάβουν πως αυτό λειτουργεί χωρίς πολύωρο σεμινάριο. Και επειδή το κάθε workflow σε διαφορετικό πεδίο είναι διαφορετικό θέλει βελτιστοποίηση για τον καθένα. Οπότε ακόμη και να το στήσω και να τους δείξω πως να το χρησιμοποιούν, δεν θα μπορέσουν στην πράξη να το προσαρμόσουν περισσότερο.

Αν και δεν έχω παίξει σε τέτοιο βάθος με το Claude code νομίζω αντίστοιχα θα ισχύουν και εκεί.

Να δώσω συγκεκριμένα παραδείγματα. Μπορείς να έχεις ιεραρχικά διαφορετικά agents.md. Μπορείς να φτιάξεις skills για διαφορετικούς Agents. Μπορείς αυτόματα να δώσεις άλλο περιβάλλον εργασίας (κυρίως όσο αφορά το context) σε διαφορετικούς agents που μπορούν να δουλεύουν και παράλληλα και μπορούν να αναπτύσσουν και να χρησιμοποιούν αυτόνομα και sub-agents διασφαλίζοντας διαφορετικές οπτικές και μείωση τυχόν Bias κλπ.

Προς το παρόν και οι δύο εταιρίες έχουν βάλει τα δυνατά τους να δουλεύουν Out of the box καλά για task που έχουν σχέση με προγραμματισμό. Στην πράξη είναι πλατφόρμες ανάπτυξης και υλοποίησης πολυπρακτορικών συστημάτων, όμως σε αφήνουν μόνος σου τα στήσεις για τέτοια χρήση. Η ψαλίδα μεταξύ αυτών που ξέρουν και μπορούν ανοίγει τρελά πολύ σε σχέση με το κλασσικό chat based εργαλείο.

Το "υποδεέστερο μοντέλο" Opus είναι το καλύτερο της αγοράς αυτή τη στιγμή, δεν τον πάει στο haiku ούτε στο qwen 3B, ο ερευνητής δεν παθαίνει κάτι.
Από το claude code δεν σου αλλάζει ποτέ μοντέλο, αυτό γίνεται μόνο από το chat έστω πως το ρωτήσεις κάτι αμφιλεγόμενο που κάνει trigger το υπερευαίσθητο κατά τα άλλα φίλτρο. Εγώ συνεχίζω για τη καθημερινότητα να χρησιμοποιώ το Opus, για ότι κάνει το co-work έχουμε φτάσει στο ταβάνι. Στον προγραμματισμό, όντως το Fable/Mythos κάνει πιο ολοκληρωμένες υλοποιήσεις, εκεί αξίζει.

Στο μεταξύ, φρέσκα κουλούρια.

1781177150276.png

Επιπλέον, έγινε μια έρευνα σχετικά με τις συνδρομές και το κόστος χρήσης μέσω API που καλύπτουν.

1781178890026.png
 
Last edited:
Το "υποδεέστερο μοντέλο" Opus είναι το καλύτερο της αγοράς αυτή τη στιγμή, δεν τον πάει στο haiku ούτε στο qwen 3B, ο ερευνητής δεν παθαίνει κάτι.
Από το claude code δεν σου αλλάζει ποτέ μοντέλο, αυτό γίνεται μόνο από το chat έστω πως το ρωτήσεις κάτι αμφιλεγόμενο που κάνει trigger το υπερευαίσθητο κατά τα άλλα φίλτρο. Εγώ συνεχίζω για τη καθημερινότητα να χρησιμοποιώ το Opus, για ότι κάνει το co-work έχουμε φτάσει στο ταβάνι. Στον προγραμματισμό, όντως το Fable/Mythos κάνει πιο ολοκληρωμένες υλοποιήσεις, εκεί αξίζει.

Στο μεταξύ, φρέσκα κουλούρια.

View attachment 273135

Επιπλέον, έγινε μια έρευνα σχετικά με τις συνδρομές και το κόστος χρήσης μέσω API που καλύπτουν.

View attachment 273136
Το δεύτερο δεν το είχα δει ξανά και είναι πολύ πολύ ενδιαφέρον. Είναι ενδιαφέρον γιατί καμιά από τις εταιρίες δεν είναι πλήρως ανοικτή στο πως μετράει τι και πότε σε κόβει.
Επίσης φαίνεται ξεκάθαρα ότι η OpenAI έχει μεγαλύτερη υπολογιστική υποδομή και δίνει περισσότερη χρήση στις συνδρομές, απλά γιατί μπορεί.
Τέλος δεν θέλω να ξέρω αν θα γίνουν ποτέ cost-reflective οι συνδρομές. Από την άλλη ίσως γίνουν όταν μπορείς να χρησιμοποιήσεις σημερινά μοντέλα σχεδόν στο τσάμπα γιατί θα είναι legacy.

Πάντως αρκετοί "γνωστοί" influencers γράφουν ότι ψάχνουν να βρουν use cases για το fable γιατί ουσιαστικά το Opus καλύπτει ηδη τα περισσότερα use cases.

Το gemini πια δείχνει τρελά το πόσο πίσω είναι. Το 3.1 Pro Extended που έχω πρόσβαση δεν το εμπιστεύομαι για τίποτα. Έχει ακόμη hallunications και πολλά λογικά σφάλματα που δεν θα έπρεπε. Το Copilot βγάζει συστηματικά τελευταία πολύ καλύτερα αποτελέσματα από το Gemini (αν και καμία σχέση με τα 2 frontier).
 
Τα Fable/Mythos, όταν γράφουν backend, πάνε στο extra mile, θα προσπαθήσουν να καλύψουν και όλα τα παρακλάδια του feature.
Παράδειγμα πραγματικό και πολύ τυπικό. Εάν ζητήσεις από το Opus 4.6 -δεν μου έχει τύχει με νεότερα εξου και δεν κάνω αναφορά, να σου προσθέσει ένα feature που προσθέτει εγγραφές σε μια καρτέλα πελάτη, θα το κάνει μια χαρά, θα λειτουργούν όλα. Εάν πας να διαγράψεις τον πελάτη, θα σου πετάξει 500άρι error επειδή δεν θα γίνεται εκκαθάριση στα νέα πεδία που προστέθηκαν στη βάση. Πρέπει να του το γράψεις επί τούτου για να το κάνει απολογιστικά. Τα Fable/Mythos 5, θα το υλοποιήσουν όλο όπως πρέπει, θα κοιτάξουν όλα τα dependencies.

Αξίζει για refactoring, νέα features και security review. Δεν χρειάζεται κανείς το επιπλέον κόστος για τα καθημερινά του.

Όσον αφορά τις συνδρομές, το εκάστοτε ποσό, δεν σημαίνει και ίδια χρήση. Τα 1000$ στην Anthropic αντιστοιχούν σε πολύ μικρότερη χρήση σε σχέση με τα 1000$ στην OpenAI, εφόσον τα μεγάλα της μοντέλα είναι πολύ πιο ακριβά.