Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

Γιατί δεν χρησιμοποιείς απλά το chat based εργαλείο για να σου πει πως να στήσεις σωστά το codex / code? :P
Μα αυτό κάνω...απλά το θέμα είναι ότι θέλει και αυτό πολύ δουλειά. Έτσι και αλλιώς δεν υπάρχει κάτι άλλο να κάνεις.
Στο πρώτο batch εργασιών θα του έβαζα 6/10 σαν αποτέλεσμα...το δεύτερο βελτιώθηκε. Αλλά θέλει πολύ κουβέντα και ανάλυση για να καταλάβει ακριβώς το επίπεδο που θέλεις το output να είναι. Και για αυτό είπα ότι το Pro καταλαβαίνει καλύτερα από το Thinking ακόμη και maxed out.
Προφανώς ακόμη και το 6/10 γλυτώνει εβδομάδες δουλειάς και θέλει ελάχιστη παραδοσιακή δουλειά για να γίνει πλήρως αποδεκτό σαν πολύ καλό output.

Έχω γενικά τρελές απαιτήσεις να πω την αλήθεια. Αυτό που επιδιώκω είναι να μπορώ να κάνω δουλειά ομάδας 3-5 ανθρώπων που θα ήταν σύνολο 80-100 εργατοημέρες να μπορώ να την βγάλω σε 5 εργατοημέρες δικές μου και το αποτέλεσμα να κρίνεται καλύτερο από ανεξάρτητο reviewer μετά. Με το chat το έχω πετύχει ήδη, απλά θέλω 10 εργατοημέρες δικές μου και πολύ χαμαλοδουλειά γιατί ουσιαστικά διαμορφώνω την πολυπρακτορική προσέγγιση με πολλά παράλληλα ανεξάρτητα chat που βαριέμαι τα ατελείωτα copy/paste και Loops βελτιστοποίησης.

Τα εργαλεία που έχουμε ήδη σήμερα είναι απλά απίστευτα και δεν έχουμε φτάσει σε σημείο να πούμε ότι τα εκμεταλλευόμαστε και πλήρως. Επίσης είναι φυσικά και θέμα κόστους. Για να παίζω ελεύθερα αναγκάστηκα να πληρώσω την μικρή Pro συνδρομή στα 100 ευρώ. Ευτυχώς τα workflows πάνω στα οποία διαμορφώνεται η τιμολόγηση είναι κυρίως για προγραμματισμό και έτσι μου βγαίνει "οικονομικά" μιας και θέλω σίγουρα λιγότερα tokens...
 
Έχει αρχίσει η γκρίνια για το Fable. Η ενσωμάτωση δικλείδων ασφαλείας από την Anthropic στο Fable 5 αναδεικνύει τη σύγκρουση μεταξύ της αποτροπής κακόβουλης χρήσης και της αναγκαίας διαφάνειας για την αυστηρή έρευνα. Με στόχο την προστασία από απειλές (πχ. βιολογικά όπλα) και την κλοπή πνευματικής ιδιοκτησίας, εφαρμόστηκαν αυστηροί ταξινομητές, οι οποίοι ωστόσο λειτουργούν αδιαφανώς: αντί να απορρίπτουν ρητά τις στοχοποιημένες εντολές, τις ανακατευθύνουν σιωπηρά σε ένα υποδεέστερο μοντέλο (Opus 4.8).

Αυτή η πρακτική του "covert sandbagging" προκαλεί αιφνίδια πτώση της απόδοσης. Κατά συνέπεια, υπονομεύεται η αξιοπιστία του συστήματος για μηχανικούς και ερευνητές, καθώς καθίσταται αδύνατη η διάγνωση των αιτιών μιας αστοχίας και ως αποτέλεσμα αφαιρώντας τη δυνατότητα να είσαι σίγουρος εάν ένα σφάλμα οφείλεται σε ανεπάρκεια του prompt, στα εγγενή όρια του μοντέλου ή σε σκόπιμη υποβάθμιση από τον πάροχο.

Σε άλλα νέα, προσπαθώ τις τελευταίες ημέρες να στήσω το codex ακριβώς για τα workflow μου που δεν έχουν σχέση με προγραμματισμό. Και όσο περισσότερο διαβάζω και το ψάχνω, τόσο μου θυμίζει τον πειραματισμό μου με το Openclaw. Μπορείς να κάνεις απίστευτα πράγματα με πολύ μεγαλύτερη ασφάλεια σε σχέση με το openclaw, αλλά δεν υπάρχουν ούτε tutorials ούτε guides. Επίσης είναι από τα λίγα πράγματα που η Pro έκδοση του ChatGPT βοηθάει περισσότερο και πιο στοχευμένα σε σχέση με το απλό Thinking, ανεξαρτήτως effort στο να καταλάβεις τις δυνατότητες και να παραμετροποιήσεις αντίστοιχα.

Μπορώ να πω με σιγουριά ότι από τους φίλους που τους έχω βοηθήσει ελάχιστοι θα μπορούσαν καν να καταλάβουν πως αυτό λειτουργεί χωρίς πολύωρο σεμινάριο. Και επειδή το κάθε workflow σε διαφορετικό πεδίο είναι διαφορετικό θέλει βελτιστοποίηση για τον καθένα. Οπότε ακόμη και να το στήσω και να τους δείξω πως να το χρησιμοποιούν, δεν θα μπορέσουν στην πράξη να το προσαρμόσουν περισσότερο.

Αν και δεν έχω παίξει σε τέτοιο βάθος με το Claude code νομίζω αντίστοιχα θα ισχύουν και εκεί.

Να δώσω συγκεκριμένα παραδείγματα. Μπορείς να έχεις ιεραρχικά διαφορετικά agents.md. Μπορείς να φτιάξεις skills για διαφορετικούς Agents. Μπορείς αυτόματα να δώσεις άλλο περιβάλλον εργασίας (κυρίως όσο αφορά το context) σε διαφορετικούς agents που μπορούν να δουλεύουν και παράλληλα και μπορούν να αναπτύσσουν και να χρησιμοποιούν αυτόνομα και sub-agents διασφαλίζοντας διαφορετικές οπτικές και μείωση τυχόν Bias κλπ.

Προς το παρόν και οι δύο εταιρίες έχουν βάλει τα δυνατά τους να δουλεύουν Out of the box καλά για task που έχουν σχέση με προγραμματισμό. Στην πράξη είναι πλατφόρμες ανάπτυξης και υλοποίησης πολυπρακτορικών συστημάτων, όμως σε αφήνουν μόνος σου τα στήσεις για τέτοια χρήση. Η ψαλίδα μεταξύ αυτών που ξέρουν και μπορούν ανοίγει τρελά πολύ σε σχέση με το κλασσικό chat based εργαλείο.

Το "υποδεέστερο μοντέλο" Opus είναι το καλύτερο της αγοράς αυτή τη στιγμή, δεν τον πάει στο haiku ούτε στο qwen 3B, ο ερευνητής δεν παθαίνει κάτι.
Από το claude code δεν σου αλλάζει ποτέ μοντέλο, αυτό γίνεται μόνο από το chat έστω πως το ρωτήσεις κάτι αμφιλεγόμενο που κάνει trigger το υπερευαίσθητο κατά τα άλλα φίλτρο. Εγώ συνεχίζω για τη καθημερινότητα να χρησιμοποιώ το Opus, για ότι κάνει το co-work έχουμε φτάσει στο ταβάνι. Στον προγραμματισμό, όντως το Fable/Mythos κάνει πιο ολοκληρωμένες υλοποιήσεις, εκεί αξίζει.

Στο μεταξύ, φρέσκα κουλούρια.

1781177150276.png

Επιπλέον, έγινε μια έρευνα σχετικά με τις συνδρομές και το κόστος χρήσης μέσω API που καλύπτουν.

1781178890026.png
 
Last edited: