Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

Γιώργος Κυριακαράκος · 28 May 2026

Νικος Πετειναρακης said:
Παιδιά, μια βοήθεια παρακαλώ. Σε τι μοντέλο να στραφώ για χρήση στην δουλειά μου; Μεσιτικό γραφείο συγκεκριμμένα.. Κυρίως θέλω να μου φτιάχνει κείμενα για καταχώρηση ακινήτων στην ιστοσελίδα μου, σε Αγγλικά, Γερμανικά, Γαλλικά και Εβραϊκά. Ισως να παρεμβαίνει καλλιτεχνικά και σε κάποιες φωτογραφίες με σκοπό την δημιουργία κάποιας μπροσούρας, ας πούμε για μια βίλα. Έχετε άποψη; Ευχαριστώ.

Θα συμφωνήσω με τον Ανδρέα. Μάλλον η καλύτερη λύση τώρα είναι το Claude. Μπορείς να ξεκινήσεις με μια συνδρομή των 20 δολαρίων που από όσο ξέρω δίνει access στο claude design (research preview). Είναι ότι πρέπει για να κάνεις δοκιμές. Μετά μια Business Claude Team συνδρομή για να έχεις και τα τυπικά που απαιτεί εταιρική χρήση.

Αν και το Stitch είναι επίσης σοβαρό εργαλείο δεν ξέρω αν θέλεις να στρέψεις την εταιρία στο οικοσύστημα της google.

Βέβαια να τονίσουμε ότι και τα 2 (Claude design και google stitch) είναι σε πειραματική περίοδο και είναι δωρεάν στη χρήση (στην περίπτωση claude θέλεις μια συνδρομή, στη google τίποτα). Επίσης ενδιαφέρον το Google Stitch έχει MCP Server με έτοιμα connections για Claude Code, Codex κλπ.

Μια τελευταία σημείωση, αν θέλεις φωτορεαλιστικές απεικονήσεις, μάλλον το καλύτερο σήμερα είναι το ChatGPT με δεύτερο το Gemini Nano Banana. Για να δεις τι εννοώ σου βάζω 3 φωτογραφίες από τη βεράντα μου. 1. Όταν άρχισα να συζητώ με το ChatGPT τι φυτά πρέπει να πάρω, 2. Πως το ChatGPT μου πρότεινε να το κάνω 3. Πως έγινε πραγματικά.
1.

2. ChatGPT φωτορεαλιστικό

3. Πως είναι τώρα. Δεν έχω πιάσει τα ρυγχόσπερμα στην πέργκολα και θα χρειαστούν χ΄ρονο για να απλωθούν πάνω της

Το ξέρω ότι μάλλον σε μπλέξαμε...

Γιώργος Κυριακαράκος · 28 May 2026

Νέο Benchmark το οποίο στοχεύει να είναι πιο αντιπροσωπευτικό και να ξεφύγει από τα θεματάκια που έχουν τα περισσότερα benchmarks. Οι ίδιοι λένε ότι τα χαρακτηριστικά που τα κάνουν να διαφέρει είναι τα ακόλουθα:

Χωρίς επιμόλυνση: Οι εργασίες γράφονται από την αρχή, δεν προσαρμόζονται από υπάρχοντα commits ή PRs (Pull Requests), επομένως κανένα μοντέλο δεν έχει δει τη λύση κατά τη διάρκεια της προεκπαίδευσης. (Σχόλιο - πολλά benchmarks ουσιαστικά βάζουν τεστ που βασίζονται σε open source προγράμματα που το πιο πιθανό να έχουν χρησιμοποιηθεί τα δεδομένα στο training).
Υψηλή ποικιλομορφία: Οι εργασίες καλύπτουν μια ευρεία δεξαμενή 91 αποθετηρίων (repositories) σε 5 γλώσσες προγραμματισμού. (Σχόλιο - όσο και αν θέλουν να μας κάνουν να πιστέψουμε πως όλα είναι Python, απλά δεν είναι)
Πολυπλοκότητα πραγματικού κόσμου: Οι προτροπές (prompts) έχουν το μισό μήκος από εκείνες του SWE-bench Pro, ωστόσο οι λύσεις απαιτούν 5,5 φορές περισσότερο κώδικα και ~2 φορές περισσότερα tokens εξόδου. (Σχόλιο - όλοι ξέρουμε ότι όλα τα μοντέλα έχουν καλύτερη απόδοση αν δώσεις τρελό context και τρομερά αναλυτικές οδηγίες / δεν είναι όμως έτσι στην πράξη)
Αξιόπιστη επαλήθευση: Οι μηχανισμοί επαλήθευσης (verifiers) γράφονται στο χέρι για να ελέγχουν τη συμπεριφορά του λογισμικού, παρά τις λεπτομέρειες της υλοποίησης. (Σχόλιο - αυτό έπρεπε να το κάνουν όλα τα benchmarks)

Τα αποτελέσματα:

DeepSWE

DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.

deepswe.datacurve.ai

Να πω την αλήθεια είναι το πρώτο Benchmark που δηλώνει εμφατικά αυτό που ένιωθα, ότι το 5.5 είναι ξεκάθαρα το καλύτερο μοντέλο σήμερα. Το πρώτο σημάδι που είχαμε είναι ότι το 5.5 για cybersecurity σκόραρε ψιλότερα από το Claude Mythos στον τομέα αυτό που το Mythos λανσαρίστηκε ως εξωφρενικά μπροστά από τα υπόλοιπα μοντέλα. Πιστέυω ότι το Mythos είναι το μοντέλο που είναι εφάμιλλο με το 5.5. Και επίσης μετά και από αυτό πιστεύω ότι ήταν και αρκετά communication driven το να ανακοινώσουν το Mythos, αλλά να μην το βγάλουν στον κόσμο γιατί απλά δεν έχει η Anthropic την υπολογιστική υποδομη για να το τρέξει.
Σημειώνω ότι στις μπάρες δεν υπάρχει το 5.5 Pro που είναι κανονικά ο ανταγωνιστής του Opus 4.7 Max.
Απίστευτο, αλλά ταυτόχρονα συμβατό με το πως νιώθω το Gemini 3.1 Pro σε σχέση με το Gemini 3.5 flash...

Καταλήγοντας, οι διαφορές όσες και να είναι, είναι στην πράξη τέτοιες που στις περισσότερες τυπικές δουλειές γραφείου δεν θα μπορεί κάποιος να τις ξεχωρίσει. Ταυτόχρονα είμαι σίγουρος ότι κάποιος που ξέρει, μπορεί να στήσει ένα πολυπρακτορικό εργαλείο που να έχει σε ένα τυπικό τασκ γραφείου το ίδιο αποτέλεσμα, ενώ χρησιμοποιεί ακόμη και το gemini 3.5 flash που είναι και φθηνό και γρήγορο. Όσο για τον προγραμματισμό το πάμθηνο Composer 2.5 μπορεί να καλύψει τα περισσότερα (αν όχι όλα) καθημερινά.

Όπως είπα και πιο πάνω, το επόμενο μεγάλο εμπόδιο είναι πως ο μέσος χρήστης θα μπορεί να στήνει πολυπρακτορικά workflows χωρίς να ξέρει τι είναι αυτά. Και για αυτό μου αρέσει αυτό το Benchmark μιας και στοχεύει σε όχι τέλεια Prompt με όχι τεράστιο context και άρα είναι πιο αντιπροσωπευτικό για το μέσο χρήστη.

Tzimisce · 28 May 2026

Γιώργος Κυριακαράκος said:
Μόνο όταν ο κόσμος δει αυτά, θα καταλάβει γιατί έχει νόημα και δεν είναι απλά για εντυπωσιασμό τα data center στο διάστημα...

Ε ναι, γιατί ο κόσμος που πληρώνει τη νύφη θα αποφασίσει τι θα γίνει.
Πιο φτηνό είναι να συντηρείς 1000 υπερπλούσιους στο διάστημα και να καταστρέψεις τον πλανήτη παρά να συντηρείς τα data center στο διάστημα για να μη καταστραφεί ο πλανήτης.

Γιώργος Κυριακαράκος · 28 May 2026

Tzimisce said:
Ε ναι, γιατί ο κόσμος που πληρώνει τη νύφη θα αποφασίσει τι θα γίνει.
Πιο φτηνό είναι να συντηρείς 1000 υπερπλούσιους στο διάστημα και να καταστρέψεις τον πλανήτη παρά να συντηρείς τα data center στο διάστημα για να μη καταστραφεί ο πλανήτης.

Ποτέ μην ξεχνάς ότι τα δισσεκατομύρια που έχουν σηκώσει όλες αυτές οι εταιρίες ΑΙ έχουν και ψιλά γράμματα. Έχουν πάρει ένα σκασμό λεφτά από funds και επενδυτές με mandates για net zero, οπότε είναι αναγκασμένοι να δουν τι θα κάνουν γιατί άλλο να πεις για ένα χρονικό παράθυρο 1-2 ετών θα πάμε με ορυκτά καύσιμα για αυτό και εκείνο το λόγο μέχρι να μπορέσουμε να βρούμε πράσινη ενέργεια και άλλο να πεις δεν με νοιάζει, θα κάνω ότι γουστάρω για πάντα.

Δημήτρης Δημητρακούδης · 28 May 2026

Εδώ και μέρες ήθελα να γράψω πόσο εντυπωσιασμένος είμαι από το GPT 5.5 που τρέχω μέσω του Copilot Business.

Κάνει πράγματα που οι άλλοι απλά δεν τα κάνουν, π.χ. διαβάζει σχηματικά από ηλεκτρονικά κυκλώματα και τα καταλαβαίνει.

Και αν δεν βλέπει / καταλαβαίνει κάτι, στο λέει, και σου λέει κάνε zoom και στείλε μου ξανά φωτογραφία!

Οι άλλοι συνήθως απλά κάνουν hallucinations / μαντεύουν..

songless_bird · 28 May 2026

Δημήτρης Δημητρακούδης said:
Εδώ και μέρες ήθελα να γράψω πόσο εντυπωσιασμένος είμαι από το GPT 5.5 που τρέχω μέσω του Copilot Business.

Κάνει πράγματα που οι άλλοι απλά δεν τα κάνουν, π.χ. διαβάζει σχηματικά από ηλεκτρονικά κυκλώματα και τα καταλαβαίνει.

Και αν δεν βλέπει / καταλαβαίνει κάτι, στο λέει, και σου λέει κάνε zoom και στείλε μου ξανά φωτογραφία!

Οι άλλοι συνήθως απλά κάνουν hallucinations / μαντεύουν..

Μιας και ασχολείσαι με ηλεκτρονικά. Υπάρχει κάτι που να του βάζεις τα components και να σου σχεδιάζει pcb με τις διαστάσεις και την διάταξη που το θες ;

anderm · 28 May 2026

Γιώργος Κυριακαράκος said:
Νέο Benchmark το οποίο στοχεύει να είναι πιο αντιπροσωπευτικό και να ξεφύγει από τα θεματάκια που έχουν τα περισσότερα benchmarks. Οι ίδιοι λένε ότι τα χαρακτηριστικά που τα κάνουν να διαφέρει είναι τα ακόλουθα:

Χωρίς επιμόλυνση: Οι εργασίες γράφονται από την αρχή, δεν προσαρμόζονται από υπάρχοντα commits ή PRs (Pull Requests), επομένως κανένα μοντέλο δεν έχει δει τη λύση κατά τη διάρκεια της προεκπαίδευσης. (Σχόλιο - πολλά benchmarks ουσιαστικά βάζουν τεστ που βασίζονται σε open source προγράμματα που το πιο πιθανό να έχουν χρησιμοποιηθεί τα δεδομένα στο training).

Υψηλή ποικιλομορφία: Οι εργασίες καλύπτουν μια ευρεία δεξαμενή 91 αποθετηρίων (repositories) σε 5 γλώσσες προγραμματισμού. (Σχόλιο - όσο και αν θέλουν να μας κάνουν να πιστέψουμε πως όλα είναι Python, απλά δεν είναι)

Πολυπλοκότητα πραγματικού κόσμου: Οι προτροπές (prompts) έχουν το μισό μήκος από εκείνες του SWE-bench Pro, ωστόσο οι λύσεις απαιτούν 5,5 φορές περισσότερο κώδικα και ~2 φορές περισσότερα tokens εξόδου. (Σχόλιο - όλοι ξέρουμε ότι όλα τα μοντέλα έχουν καλύτερη απόδοση αν δώσεις τρελό context και τρομερά αναλυτικές οδηγίες / δεν είναι όμως έτσι στην πράξη)

Αξιόπιστη επαλήθευση: Οι μηχανισμοί επαλήθευσης (verifiers) γράφονται στο χέρι για να ελέγχουν τη συμπεριφορά του λογισμικού, παρά τις λεπτομέρειες της υλοποίησης. (Σχόλιο - αυτό έπρεπε να το κάνουν όλα τα benchmarks)

Τα αποτελέσματα:
View attachment 272372

DeepSWE

DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks.

deepswe.datacurve.ai

Να πω την αλήθεια είναι το πρώτο Benchmark που δηλώνει εμφατικά αυτό που ένιωθα, ότι το 5.5 είναι ξεκάθαρα το καλύτερο μοντέλο σήμερα. Το πρώτο σημάδι που είχαμε είναι ότι το 5.5 για cybersecurity σκόραρε ψιλότερα από το Claude Mythos στον τομέα αυτό που το Mythos λανσαρίστηκε ως εξωφρενικά μπροστά από τα υπόλοιπα μοντέλα. Πιστέυω ότι το Mythos είναι το μοντέλο που είναι εφάμιλλο με το 5.5. Και επίσης μετά και από αυτό πιστεύω ότι ήταν και αρκετά communication driven το να ανακοινώσουν το Mythos, αλλά να μην το βγάλουν στον κόσμο γιατί απλά δεν έχει η Anthropic την υπολογιστική υποδομη για να το τρέξει.
Σημειώνω ότι στις μπάρες δεν υπάρχει το 5.5 Pro που είναι κανονικά ο ανταγωνιστής του Opus 4.7 Max.
Απίστευτο, αλλά ταυτόχρονα συμβατό με το πως νιώθω το Gemini 3.1 Pro σε σχέση με το Gemini 3.5 flash...

Καταλήγοντας, οι διαφορές όσες και να είναι, είναι στην πράξη τέτοιες που στις περισσότερες τυπικές δουλειές γραφείου δεν θα μπορεί κάποιος να τις ξεχωρίσει. Ταυτόχρονα είμαι σίγουρος ότι κάποιος που ξέρει, μπορεί να στήσει ένα πολυπρακτορικό εργαλείο που να έχει σε ένα τυπικό τασκ γραφείου το ίδιο αποτέλεσμα, ενώ χρησιμοποιεί ακόμη και το gemini 3.5 flash που είναι και φθηνό και γρήγορο. Όσο για τον προγραμματισμό το πάμθηνο Composer 2.5 μπορεί να καλύψει τα περισσότερα (αν όχι όλα) καθημερινά.

Όπως είπα και πιο πάνω, το επόμενο μεγάλο εμπόδιο είναι πως ο μέσος χρήστης θα μπορεί να στήνει πολυπρακτορικά workflows χωρίς να ξέρει τι είναι αυτά. Και για αυτό μου αρέσει αυτό το Benchmark μιας και στοχεύει σε όχι τέλεια Prompt με όχι τεράστιο context και άρα είναι πιο αντιπροσωπευτικό για το μέσο χρήστη.

Γιώργο δεν νομίζω πως είναι ιδιαίτερα της περιοπής.
Το GPT 5.4 mini για παράδειγμα δεν είναι 2,5 φορές καλύτερο στο software engineering από το Gemini 3.1 pro που να χτυπιέται κάτω.

Καλά, το ότι βγάζει το Opus 4.6 κάτω από το Sonnet φτάνει, όποιος τα έχει χρησιμοποιήσει καταλαβαίνει.

Δημήτρης Δημητρακούδης · 28 May 2026

songless_bird said:
Μιας και ασχολείσαι με ηλεκτρονικά. Υπάρχει κάτι που να του βάζεις τα components και να σου σχεδιάζει pcb με τις διαστάσεις και την διάταξη που το θες ;

Όχι, σε καμία περίπτωση. Αλλά η πρόοδος που γίνεται είναι ραγδαία. Πριν λίγο καιρό δεν καταλάβαιναν απολύτως τίποτα από ηλεκτρονικά.

Νικος Πετειναρακης · 28 May 2026

Ευχαριστώ Ανδρέα!

Γιώργος Κυριακαράκος said:
Θα συμφωνήσω με τον Ανδρέα. Μάλλον η καλύτερη λύση τώρα είναι το Claude. Μπορείς να ξεκινήσεις με μια συνδρομή των 20 δολαρίων που από όσο ξέρω δίνει access στο claude design (research preview). Είναι ότι πρέπει για να κάνεις δοκιμές. Μετά μια Business Claude Team συνδρομή για να έχεις και τα τυπικά που απαιτεί εταιρική χρήση.

Αν και το Stitch είναι επίσης σοβαρό εργαλείο δεν ξέρω αν θέλεις να στρέψεις την εταιρία στο οικοσύστημα της google.

Βέβαια να τονίσουμε ότι και τα 2 (Claude design και google stitch) είναι σε πειραματική περίοδο και είναι δωρεάν στη χρήση (στην περίπτωση claude θέλεις μια συνδρομή, στη google τίποτα). Επίσης ενδιαφέρον το Google Stitch έχει MCP Server με έτοιμα connections για Claude Code, Codex κλπ.

Μια τελευταία σημείωση, αν θέλεις φωτορεαλιστικές απεικονήσεις, μάλλον το καλύτερο σήμερα είναι το ChatGPT με δεύτερο το Gemini Nano Banana. Για να δεις τι εννοώ σου βάζω 3 φωτογραφίες από τη βεράντα μου. 1. Όταν άρχισα να συζητώ με το ChatGPT τι φυτά πρέπει να πάρω, 2. Πως το ChatGPT μου πρότεινε να το κάνω 3. Πως έγινε πραγματικά.
1.
View attachment 272369

2. ChatGPT φωτορεαλιστικό
View attachment 272370
3. Πως είναι τώρα. Δεν έχω πιάσει τα ρυγχόσπερμα στην πέργκολα και θα χρειαστούν χ΄ρονο για να απλωθούν πάνω της
View attachment 272371

Το ξέρω ότι μάλλον σε μπλέξαμε...

χαχαχα, πιθανότατα ναι, με μπλέξατε! Και σας υπερ ευχαριστώ για αυτό, καλώς η κακώς οι εξελίξεις τρέχουν, πρέπει και εμείς! Να είσαι καλά Γιώργη!

songless_bird · 28 May 2026

Δημήτρης Δημητρακούδης said:
Όχι, σε καμία περίπτωση. Αλλά η πρόοδος που γίνεται είναι ραγδαία. Πριν λίγο καιρό δεν καταλάβαιναν απολύτως τίποτα από ηλεκτρονικά.

Εμένα πάντως εδώ και 1 χρόνο με βοήθησαν στον σχεδιασμό ενός ψηφιακού παχυμετρου . Αν και το chatgpt ήταν λίγο "για κάνε αυτό να δούμε αν δουλεύει" και "α συγνώμη νομιζα οτι ηταν η καλύτερη επιλογή", μπορούσαν να προβλέψουν συμπεριφορές των components και να προτείνουν λύσεις. Βέβαια πολλές φορές εκ του αποτελέσματος. Πχ δεν γνώριζα για λάθος στον σχεδιασμό του rp2040 και ότι ήθελε έναν πυκνωτή στο GND και το PIN του αισθητήρα. Και απλά έβλεπα το λάθος χωρίς να ξέρω που οφείλεται μέχρι που έβαλα τα δεδομένα στο chatgpt και βρήκε την αιτία και την λύση. Βέβαια έπαιζα διπλό ταμπλό με το Gemini και πολλες φορές ότι δεν έκανε το ένα το έκανε το άλλο. Σε σημείο που να λες ότι το κάνουν επίτηδες για να ανέβεις σε πακέτο συνδρομής.

Γιώργος Κυριακαράκος · 28 May 2026

Δημήτρης Δημητρακούδης said:
Όχι, σε καμία περίπτωση. Αλλά η πρόοδος που γίνεται είναι ραγδαία. Πριν λίγο καιρό δεν καταλάβαιναν απολύτως τίποτα από ηλεκτρονικά.

To KiCad έχει σίγουρα MCP server, ενώ πιστεύω ότι και άλλα αναπτύσουν. Ε, η σύνδεση με Codex / Claude Code είναι πολύ εύκολη μετά.

Δημήτρης Δημητρακούδης · 28 May 2026

songless_bird said:
Εμένα πάντως εδώ και 1 χρόνο με βοήθησαν στον σχεδιασμό ενός ψηφιακού παχυμετρου . Αν και το chatgpt ήταν λίγο "για κάνε αυτό να δούμε αν δουλεύει" και "α συγνώμη νομιζα οτι ηταν η καλύτερη επιλογή", μπορούσαν να προβλέψουν συμπεριφορές των components και να προτείνουν λύσεις. Βέβαια πολλές φορές εκ του αποτελέσματος. Πχ δεν γνώριζα για λάθος στον σχεδιασμό του rp2040 και ότι ήθελε έναν πυκνωτή στο GND και το PIN του αισθητήρα. Και απλά έβλεπα το λάθος χωρίς να ξέρω που οφείλεται μέχρι που έβαλα τα δεδομένα στο chatgpt και βρήκε την αιτία και την λύση. Βέβαια έπαιζα διπλό ταμπλό με το Gemini και πολλες φορές ότι δεν έκανε το ένα το έκανε το άλλο. Σε σημείο που να λες ότι το κάνουν επίτηδες για να ανέβεις σε πακέτο συνδρομής.

Στο "φιλολογικό" πηγαίνουν ήδη πάρα πολύ καλά, εντυπωσιακά καλά, καμία σχέση με πριν 1 ή 2 χρόνια.

Στο actual design θέλουν ακόμα δρόμο, αλλά κινείται πάρα πολύ γρήγορα όλο αυτό.

Larry · 28 May 2026

Σε εσας το GEMINI βριζει και καυλαντιζει ή μονον σε εμενα συμβαινει αυτο ;

ζητώ στην ροή μια συζητήσεως από το GEMINI να κάνει μια ερεύνα για μια δικαστική υπόθεση και να συντάξει ένα γραμμα
και το δινω και στον CLAUDE AI και εκανε καποιες παρατηρησεις
και ενημερωνω το GEMINI οτι ο CLAUDE εχει καποιες παρατηρησεις
και εδω εγινε του κουτρουλη.....Διοτι δεν καταλαβε ποιος ειναι ο CLAUDE

εδω μολις ενημερωνω οτι ο CLAUDE ειναι AI

songless_bird · 28 May 2026

Αυτόν το λογαριασμό τον χρησιμοποιείς μόνο εσυ; Τέτοια απάντηση θα έπαιρνα είχα αναπτύξει μαζί του "χαλαρη" συζητηση στο παρελθόν...

Larry · 28 May 2026

χαλαρη ειναι η συζητηση αλλα ποτε δεν εχω χρησιμοποιησει τετοιες εκφρασεις..

Larry · 28 May 2026

αφηστε που μετα απο 2 μερες δεν θυμαται τιποτα...
Υπαρχει ΑΙ να θυμαται οτι εχει ειπωθει? Εστω και με κοστος

songless_bird · 28 May 2026

Larry said:
αφηστε που μετα απο 2 μερες δεν θυμαται τιποτα...
Υπαρχει ΑΙ να θυμαται οτι εχει ειπωθει? Εστω και με κοστος

Εμένα θυμάται τα πάντα σε νεα συζήτηση αφού έχει πρόσβαση στο ιστορικό των συζητήσεων...

ln() · 28 May 2026

Και το τζάμπα Gemini το κάνει. Και του σβήνω τα παλιά που δεν με ενδιαφέρουν για να κρατάει μόνο αυτά που μπορεί να συνεχίσω να δουλεύω.

Γιώργος Κυριακαράκος · 29 May 2026

Νέο Claude Opus 4.8. Από ότι φαίνεται από τα benchmark που δίνει η εταιρία είναι μικρή η βελτίωση σε σχέση με το προηγούμενο αλλα σε όλους τους τομείς.
Αναμενόμενα θα είναι το κορυφαίο...μέχρι το επόμενο!

Loading…

www.anthropic.com

Γιώργος Κυριακαράκος · 30 May 2026

Έχει γεμίσει το internet από αναφορές για κάποια μεγάλη εταιρία που έδωσε απεριόριστη χρήση tokens σε όλους τους υπαλλήλους και αυτοί έκαψαν μισό δισεκατομμύριο δολάρια σε ένα μήνα σε tokens της Anthropic !!!
Δεν είναι λίγες οι εταιρίες που έχουν εισάγει δείκτες παραγωγικότητας για τους υπαλλήλους που τους κάνουν να ρωτάνε για τον καιρό τα πιο ακριβά και σύνθετα μοντέλα για να έχουν καλή εικόνα.
Μετά την εποχή του χωρίς σκέψης καψίματος των token μπαίνουμε σίγουρα σε μια πιο εκλογικευμένη εποχή και με δεδομένο ότι οι τιμές του compute δεν θα πέσουν στο βραχυπρόθεσμο.

Αναμενόμενα όλα αυτά αν με ρωτάτε. Η αποδοτικότητα έχει εφαρμογή στα πάντα. Δεν χρειάζεσαι Pro μοντέλα για να ρωτάς πόσες ώρες αντέχει το ρύζι εκτός ψυγείου. Επίσης όλες οι εταιρίες ΑΙ προσφέρουν πακέτα με χαμηλό κόστος (κάπου 20-25 δολάρια ανά θέση εργασίας) που προσφέρουν πολλά περισσότερα από αυτά που πραγματικά χρειάζεται ο μέσος υπάλληλος.
Δώσε τέτοια πακέτα σε όλους, δώσε πιο ακριβά πακέτα σε πιο υψηλόβαθμους και άσε τη χρήση μέσω ΑΡΙ σε λίγους που εμπιστεύεσαι ότι καταλαβαίνουν τι κάνουν.

Όπως το θέτει ο Derek Thomson μπορούμε να διακρίνουμε 3 μεγάλες χοντρικά εποχές του ΑΙ:

Η εποχή της κλιμάκωσης και της προσευχής (4ο τρίμηνο 2022 - 2025): Αφού το ChatGPT σάρωσε το διαδίκτυο, οι εταιρείες υπερκλίμακας (hyperscalers) επένδυσαν εκατοντάδες δισεκατομμύρια δολάρια σε υποδομές τεχνητής νοημοσύνης. Παρά τις τεράστιες προσδοκίες για την τεχνολογία, τα πραγματικά έσοδα από την τεχνητή νοημοσύνη υπολείπονταν των δαπανών. Υπήρχαν ισχυρές ενδείξεις ότι η προσφορά ξεπερνούσε τη ζήτηση, ακριβώς όπως συμβαίνει σε κάθε βιομηχανική φούσκα.
Η εποχή των πρακτόρων (Τέλη 2025 - ???): Με την άφιξη του Claude Code της Anthropic, του Codex της OpenAI και άλλων αυτόνομων πρακτόρων (autonomous agents), οι εταιρικές δαπάνες για την τεχνητή νοημοσύνη εκτοξεύτηκαν σε τόσο φρενήρεις ρυθμούς που οι διακομιστές της Anthropic άρχισαν να λυγίζουν υπό το βάρος του φορτίου. Ξαφνικά, το σκηνικό ανατράπηκε: Η ζήτηση για τεχνητή νοημοσύνη ξεπέρασε αποδεδειγμένα την προσφορά υπολογιστικής ισχύος, περιπλέκοντας το παραδοσιακό αφήγημα της φούσκας.
Η επιστροφή στην πραγματικότητα (περίπου το 2ο τρίμηνο του 2026): Μετά από μήνες συσσώρευσης λογαριασμών εκατομμυρίων δολαρίων για τη χρήση tokens, ορισμένες εταιρείες άρχισαν να αναρωτιούνται εάν τα κέρδη παραγωγικότητας από τους αυτόνομους πράκτορες δικαιολογούσαν πραγματικά το κόστος. Το ερώτημα μετατοπίστηκε από το «Μπορεί η τεχνητή νοημοσύνη να δημιουργήσει ζήτηση;» στο «Μπορεί η τεχνητή νοημοσύνη να αναπληρώσει την προσφορά;» και, τελικά, στο «Μισό λεπτό, πού ξοδεύουμε όλα αυτά τα χρήματα;».

Η δική μου οπτική είναι ότι είμαστε στη φάση που κάνουμε ένα βήμα πίσω. Θέλει σωστό σχεδιασμό και οργάνωση η χρήση των διαθέσιμων εργαλείων. Και προσωπικά στη δεδομένη στιγμή πρέπει να πάμε σε λελογισμένη χρήση σε εταιρικά περιβάλλοντα, αφού οι επιλογές είναι πρακτικά μεταξύ "κόβουμε το ΑΙ" ή "απολύουμε μαζικά κόσμο". Το δέυτερο δεν έχει έρθει μαζικά γιατί οι περισσότερες εταιρίες δεν είναι ώριμες στο πως να περάσουν σε "cyber" καταστάσεις μιας και θέλει καινούργιες τελείως διαφορετικές εταιρικές οργανωτικές δομές, ενώ στο πρώτο πρέπει να μπουν όρια μιας και το κόστος "εργαζόμενος + ΑΙ" είναι τεράστιο αν το αφήσεις ανεξέλεγκτο.

Ο Thomson πήρε συνέντευξη από τον Doug O’Laughlin της SemiAnalysis’s και του είπε ότι κάθε νέα τεχνολογία απαιτεί μια εκτεταμένη περίοδο trial and error, καθώς οι οργανισμοί εναλλάσσονται μεταξύ
(α) ανεπαρκούς πειραματισμού ή δαπανών, που ακολουθείται από
(β) υπερβολικό πειραματισμό και δαπάνες, που ακολουθείται από
(γ) μια πολύ δραματική περικοπή, που ακολουθείται από
(δ) την επανάληψη των βημάτων (α) έως (γ), μέχρι οι εταιρείες να καταλήξουν σε μια μακροπρόθεσμη ισορροπία μεταξύ των δαπανών για εργατικό δυναμικό και των δαπανών για τεχνολογία. Το κατά πόσον οι σκεπτικιστές της τεχνητής νοημοσύνης έχουν δίκιο ότι η φούσκα είναι έτοιμη να σκάσει, εξαρτάται εξ ολοκλήρου από ένα ερώτημα στο οποίο, μέχρι σήμερα, κανείς δεν μπορεί να απαντήσει με βεβαιότητα: Αξίζει τελικά τον κόπο αυτός ο λογαριασμός;

Να πω πάλι τη γνώμη μου ότι αν ο λογαριασμός είναι λογικός ή με πιο απλά λόγια αν έχει γίνει σωστή μελέτη που να εφαρμόσεις και με ποιο τρόπο το ΑΙ τότε όχι απλά αξίζει, αλλά μπορεί να αυξήσει την κερδοφορία. Αν πας όπως είχε κάνει η Meta να συνδέει εσωτερικά την αξιολόγηση των υπαλλήλων άμεσα με τη χρήση tokens τότε προφανώς είσαι σε κατάσταση σπατάλης.

Ειδικά για τα δεδομένα της Ελλάδας και τις μικρομεσαίες επιχειρήσεις της, θεωρώ ότι καμία εταιρία που δεν είναι στο φάσμα της χρεοκοπίας δεν θα δυσκολευτεί να δώσει ένα 50ευρω το μήνα, να πάρει 2 θέσεις εργασίας, να τις δώσει στα στελέχη που λογικά θα καταλάβουν περισσότερα και σιγά σιγά να κάνουν ανάλυση κόστους-ωφέλειας. Θεωρώ ελάχιστες τις περιπτώσεις που αυτό δεν θα δουλέψει και θα έχει να κάνει με τόσο το είδος της δραστηριότητας όσο και με τους ανθρώπους που δουλεύουν εκεί και πόσο έτοιμοι/διατεθιμένοι είναι να ασχοληθούν. Η απεριόριστη χρήση είναι για λίγους υπαλλήλους σε ελάχιστες εταιρίες, εκεί που αποδεδειγμένα δεν θα γίνει μια νέα πρόσληψη και με 500 ευρώ σε token θα γίνει καλύτερα η δουλειά σε σχέση με ένα junior που κοστίζει πολλαπλάσια.

Δεν είμαστε όλοι Peter Steinberger που με μια ομάδα 3 ατόμων μπορούμε να καίμε $1.3 εκατομύρια δολάρια σε OpenAI API tokens το μήνα, γιατί δεν αναπτύσουμε την επόμενη γενιά εργαλείων που θα μας δώσει η OpenAI. Ακόμη όμως και αυτό το τεράστιο κόστος θα έπεφτε σε μόλις 300.000 δολάρια αν απλά χρησιμοποιούσαν το normal mode αντί για το fast mode στους agents που έτρεχαν μέσω codex. Μιας και ο Steinberger δουλεύει για την OpenAI το κόστος είναι εσωτερικό και πρακτικά δεν έχει αντίκτυπο για την εταιρία. Για μια εταιρία-πελάτη όμως η διαφορά είναι τεράστια σε κόστος, ενώ δύσκολα μπορεί το 1.5x να δικαιολογήσει 4x σε κόστος.

Το νέο μοντέλο του Cursor για παράδειγμα είναι πολύ φθηνό για παράδειγμα και καλύπτει τις ανάγκες πολλών που ασχολούνται με ανάπτυξη/συντήριση λογισμικού. Όπως και πολλά open source με μια υποδομή 10-15000 ευρώ μπορούν να δώσουν απίστευτα καλά αποτελέσματα σε πολλά επαναλαμβανόμενα workflows (ακόμα ψαχνόμαστε πως λειτουργεί πχ το DGX Spark που αν το χρησιμοποιεί ένας χρήσης ακόμη και με παράλληλους πράκτορες ουσιαστικά υπολειτουργεί σε σχέση με τις δυνατότητές του αν χρησιμοποιούσαν την ίδια υποδομή αρκετοί χρήστες κοινώς Concurrency vs Parallelism). Πρέπει όπως μια εταιρία αποφασίζει τι μεταφορικό μέσο θα πάρει για τα Logistics της έτσι να αποφασίσει πολυκριτιριακά τι ΑΙ εργαλεία και με ποιο μοντέλο (συνδρομή, local ή hosted) θα δώσει στην κάθε κατηγορία υπαλλήλων της. Ακόμη και εγώ που είμαι άσχετος με τα Logistics ξέρω ότι χοντρικά υπάρχουν:
1. Μικρά και Αστικά Βαν
2. Μεσαία Βαν
3. Μεγάλα Βαν
4. Βαν με Κουβούκλιο
5. Ελαφρά και Μεσαία Φορτηγά
6. Βαρέα Φορτηγά / Επικαθήμενα

Αναμένουμε τη στιγμή που κάποιος που είναι άσχετος με το ΑΙ θα μπορεί εύκολα να σκεφτεί μια απλή λίστα κατηγοριοποίησης των εργαλείων όπως την παραπάνω. Θέλουμε όμως χρόνο...

Και το πρόβλημα είναι ότι δεν υπάρχουν αρκετοί άνθρωποι να μπορούν να πουν σε μια εταιρία τι να κάνει γιατί έχουμε ελάχιστους domain experts με ΑΙ γνώση σε σχέση με τους generalist AI experts. Τα είδαμε και στην εποχή της ψηφιοποίησης. Μια μεγάλη εταιρία μπορεί να προσλάβει μια μεγάλη consulting που θα προσφέρει μια ομάδα συμβούλων με διαφορετικό υπόβαθρο που θα δώσει λύσεις φυσικά με το αντίστοιχο κόστος. Όμως μια μικρομεσαία επιχείρηση ποιον έχει την οικονομική δυνατότητα να προσλάβει και κατά πόσο αυτός μπορεί όντως να καταλάβει τα σημεία πόνου της εκάστοτε επιχείρησης για να ξεκινήσει από αυτά; Έχω μάθει από φίλους ότι αρκετές σοβαρές εταιρίες το προσπαθούν. Αλλά ακόμη και τα σεμινάρια που κάνουν στους υπαλλήλους στην καλύτερη σταματούν στο τι είναι Prompting...

Πηγές: