Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

Παιδιά, μια βοήθεια παρακαλώ. Σε τι μοντέλο να στραφώ για χρήση στην δουλειά μου; Μεσιτικό γραφείο συγκεκριμμένα.. Κυρίως θέλω να μου φτιάχνει κείμενα για καταχώρηση ακινήτων στην ιστοσελίδα μου, σε Αγγλικά, Γερμανικά, Γαλλικά και Εβραϊκά. Ισως να παρεμβαίνει καλλιτεχνικά και σε κάποιες φωτογραφίες με σκοπό την δημιουργία κάποιας μπροσούρας, ας πούμε για μια βίλα. Έχετε άποψη; Ευχαριστώ.
Θα συμφωνήσω με τον Ανδρέα. Μάλλον η καλύτερη λύση τώρα είναι το Claude. Μπορείς να ξεκινήσεις με μια συνδρομή των 20 δολαρίων που από όσο ξέρω δίνει access στο claude design (research preview). Είναι ότι πρέπει για να κάνεις δοκιμές. Μετά μια Business Claude Team συνδρομή για να έχεις και τα τυπικά που απαιτεί εταιρική χρήση.

Αν και το Stitch είναι επίσης σοβαρό εργαλείο δεν ξέρω αν θέλεις να στρέψεις την εταιρία στο οικοσύστημα της google.

Βέβαια να τονίσουμε ότι και τα 2 (Claude design και google stitch) είναι σε πειραματική περίοδο και είναι δωρεάν στη χρήση (στην περίπτωση claude θέλεις μια συνδρομή, στη google τίποτα). Επίσης ενδιαφέρον το Google Stitch έχει MCP Server με έτοιμα connections για Claude Code, Codex κλπ.

Μια τελευταία σημείωση, αν θέλεις φωτορεαλιστικές απεικονήσεις, μάλλον το καλύτερο σήμερα είναι το ChatGPT με δεύτερο το Gemini Nano Banana. Για να δεις τι εννοώ σου βάζω 3 φωτογραφίες από τη βεράντα μου. 1. Όταν άρχισα να συζητώ με το ChatGPT τι φυτά πρέπει να πάρω, 2. Πως το ChatGPT μου πρότεινε να το κάνω 3. Πως έγινε πραγματικά.
1.
1779954284921.png

2. ChatGPT φωτορεαλιστικό
1779954357202.png
3. Πως είναι τώρα. Δεν έχω πιάσει τα ρυγχόσπερμα στην πέργκολα και θα χρειαστούν χ΄ρονο για να απλωθούν πάνω της
1779954432449.png

Το ξέρω ότι μάλλον σε μπλέξαμε...
 
Νέο Benchmark το οποίο στοχεύει να είναι πιο αντιπροσωπευτικό και να ξεφύγει από τα θεματάκια που έχουν τα περισσότερα benchmarks. Οι ίδιοι λένε ότι τα χαρακτηριστικά που τα κάνουν να διαφέρει είναι τα ακόλουθα:
  • Χωρίς επιμόλυνση: Οι εργασίες γράφονται από την αρχή, δεν προσαρμόζονται από υπάρχοντα commits ή PRs (Pull Requests), επομένως κανένα μοντέλο δεν έχει δει τη λύση κατά τη διάρκεια της προεκπαίδευσης. (Σχόλιο - πολλά benchmarks ουσιαστικά βάζουν τεστ που βασίζονται σε open source προγράμματα που το πιο πιθανό να έχουν χρησιμοποιηθεί τα δεδομένα στο training).
  • Υψηλή ποικιλομορφία: Οι εργασίες καλύπτουν μια ευρεία δεξαμενή 91 αποθετηρίων (repositories) σε 5 γλώσσες προγραμματισμού. (Σχόλιο - όσο και αν θέλουν να μας κάνουν να πιστέψουμε πως όλα είναι Python, απλά δεν είναι)
  • Πολυπλοκότητα πραγματικού κόσμου: Οι προτροπές (prompts) έχουν το μισό μήκος από εκείνες του SWE-bench Pro, ωστόσο οι λύσεις απαιτούν 5,5 φορές περισσότερο κώδικα και ~2 φορές περισσότερα tokens εξόδου. (Σχόλιο - όλοι ξέρουμε ότι όλα τα μοντέλα έχουν καλύτερη απόδοση αν δώσεις τρελό context και τρομερά αναλυτικές οδηγίες / δεν είναι όμως έτσι στην πράξη)
  • Αξιόπιστη επαλήθευση: Οι μηχανισμοί επαλήθευσης (verifiers) γράφονται στο χέρι για να ελέγχουν τη συμπεριφορά του λογισμικού, παρά τις λεπτομέρειες της υλοποίησης. (Σχόλιο - αυτό έπρεπε να το κάνουν όλα τα benchmarks)

Τα αποτελέσματα:
1779955152064.png

Να πω την αλήθεια είναι το πρώτο Benchmark που δηλώνει εμφατικά αυτό που ένιωθα, ότι το 5.5 είναι ξεκάθαρα το καλύτερο μοντέλο σήμερα. Το πρώτο σημάδι που είχαμε είναι ότι το 5.5 για cybersecurity σκόραρε ψιλότερα από το Claude Mythos στον τομέα αυτό που το Mythos λανσαρίστηκε ως εξωφρενικά μπροστά από τα υπόλοιπα μοντέλα. Πιστέυω ότι το Mythos είναι το μοντέλο που είναι εφάμιλλο με το 5.5. Και επίσης μετά και από αυτό πιστεύω ότι ήταν και αρκετά communication driven το να ανακοινώσουν το Mythos, αλλά να μην το βγάλουν στον κόσμο γιατί απλά δεν έχει η Anthropic την υπολογιστική υποδομη για να το τρέξει.
Σημειώνω ότι στις μπάρες δεν υπάρχει το 5.5 Pro που είναι κανονικά ο ανταγωνιστής του Opus 4.7 Max.
Απίστευτο, αλλά ταυτόχρονα συμβατό με το πως νιώθω το Gemini 3.1 Pro σε σχέση με το Gemini 3.5 flash...

Καταλήγοντας, οι διαφορές όσες και να είναι, είναι στην πράξη τέτοιες που στις περισσότερες τυπικές δουλειές γραφείου δεν θα μπορεί κάποιος να τις ξεχωρίσει. Ταυτόχρονα είμαι σίγουρος ότι κάποιος που ξέρει, μπορεί να στήσει ένα πολυπρακτορικό εργαλείο που να έχει σε ένα τυπικό τασκ γραφείου το ίδιο αποτέλεσμα, ενώ χρησιμοποιεί ακόμη και το gemini 3.5 flash που είναι και φθηνό και γρήγορο. Όσο για τον προγραμματισμό το πάμθηνο Composer 2.5 μπορεί να καλύψει τα περισσότερα (αν όχι όλα) καθημερινά.

Όπως είπα και πιο πάνω, το επόμενο μεγάλο εμπόδιο είναι πως ο μέσος χρήστης θα μπορεί να στήνει πολυπρακτορικά workflows χωρίς να ξέρει τι είναι αυτά. Και για αυτό μου αρέσει αυτό το Benchmark μιας και στοχεύει σε όχι τέλεια Prompt με όχι τεράστιο context και άρα είναι πιο αντιπροσωπευτικό για το μέσο χρήστη.
 
Last edited:
Μόνο όταν ο κόσμος δει αυτά, θα καταλάβει γιατί έχει νόημα και δεν είναι απλά για εντυπωσιασμό τα data center στο διάστημα...

Ε ναι, γιατί ο κόσμος που πληρώνει τη νύφη θα αποφασίσει τι θα γίνει.
Πιο φτηνό είναι να συντηρείς 1000 υπερπλούσιους στο διάστημα και να καταστρέψεις τον πλανήτη παρά να συντηρείς τα data center στο διάστημα για να μη καταστραφεί ο πλανήτης.
 
Ε ναι, γιατί ο κόσμος που πληρώνει τη νύφη θα αποφασίσει τι θα γίνει.
Πιο φτηνό είναι να συντηρείς 1000 υπερπλούσιους στο διάστημα και να καταστρέψεις τον πλανήτη παρά να συντηρείς τα data center στο διάστημα για να μη καταστραφεί ο πλανήτης.
Ποτέ μην ξεχνάς ότι τα δισσεκατομύρια που έχουν σηκώσει όλες αυτές οι εταιρίες ΑΙ έχουν και ψιλά γράμματα. Έχουν πάρει ένα σκασμό λεφτά από funds και επενδυτές με mandates για net zero, οπότε είναι αναγκασμένοι να δουν τι θα κάνουν γιατί άλλο να πεις για ένα χρονικό παράθυρο 1-2 ετών θα πάμε με ορυκτά καύσιμα για αυτό και εκείνο το λόγο μέχρι να μπορέσουμε να βρούμε πράσινη ενέργεια και άλλο να πεις δεν με νοιάζει, θα κάνω ότι γουστάρω για πάντα.
 
Εδώ και μέρες ήθελα να γράψω πόσο εντυπωσιασμένος είμαι από το GPT 5.5 που τρέχω μέσω του Copilot Business.

Κάνει πράγματα που οι άλλοι απλά δεν τα κάνουν, π.χ. διαβάζει σχηματικά από ηλεκτρονικά κυκλώματα και τα καταλαβαίνει.

Και αν δεν βλέπει / καταλαβαίνει κάτι, στο λέει, και σου λέει κάνε zoom και στείλε μου ξανά φωτογραφία!

Οι άλλοι συνήθως απλά κάνουν hallucinations / μαντεύουν..
 
Εδώ και μέρες ήθελα να γράψω πόσο εντυπωσιασμένος είμαι από το GPT 5.5 που τρέχω μέσω του Copilot Business.

Κάνει πράγματα που οι άλλοι απλά δεν τα κάνουν, π.χ. διαβάζει σχηματικά από ηλεκτρονικά κυκλώματα και τα καταλαβαίνει.

Και αν δεν βλέπει / καταλαβαίνει κάτι, στο λέει, και σου λέει κάνε zoom και στείλε μου ξανά φωτογραφία!

Οι άλλοι συνήθως απλά κάνουν hallucinations / μαντεύουν..
Μιας και ασχολείσαι με ηλεκτρονικά. Υπάρχει κάτι που να του βάζεις τα components και να σου σχεδιάζει pcb με τις διαστάσεις και την διάταξη που το θες ;
 
Νέο Benchmark το οποίο στοχεύει να είναι πιο αντιπροσωπευτικό και να ξεφύγει από τα θεματάκια που έχουν τα περισσότερα benchmarks. Οι ίδιοι λένε ότι τα χαρακτηριστικά που τα κάνουν να διαφέρει είναι τα ακόλουθα:
  • Χωρίς επιμόλυνση: Οι εργασίες γράφονται από την αρχή, δεν προσαρμόζονται από υπάρχοντα commits ή PRs (Pull Requests), επομένως κανένα μοντέλο δεν έχει δει τη λύση κατά τη διάρκεια της προεκπαίδευσης. (Σχόλιο - πολλά benchmarks ουσιαστικά βάζουν τεστ που βασίζονται σε open source προγράμματα που το πιο πιθανό να έχουν χρησιμοποιηθεί τα δεδομένα στο training).
  • Υψηλή ποικιλομορφία: Οι εργασίες καλύπτουν μια ευρεία δεξαμενή 91 αποθετηρίων (repositories) σε 5 γλώσσες προγραμματισμού. (Σχόλιο - όσο και αν θέλουν να μας κάνουν να πιστέψουμε πως όλα είναι Python, απλά δεν είναι)
  • Πολυπλοκότητα πραγματικού κόσμου: Οι προτροπές (prompts) έχουν το μισό μήκος από εκείνες του SWE-bench Pro, ωστόσο οι λύσεις απαιτούν 5,5 φορές περισσότερο κώδικα και ~2 φορές περισσότερα tokens εξόδου. (Σχόλιο - όλοι ξέρουμε ότι όλα τα μοντέλα έχουν καλύτερη απόδοση αν δώσεις τρελό context και τρομερά αναλυτικές οδηγίες / δεν είναι όμως έτσι στην πράξη)
  • Αξιόπιστη επαλήθευση: Οι μηχανισμοί επαλήθευσης (verifiers) γράφονται στο χέρι για να ελέγχουν τη συμπεριφορά του λογισμικού, παρά τις λεπτομέρειες της υλοποίησης. (Σχόλιο - αυτό έπρεπε να το κάνουν όλα τα benchmarks)

Τα αποτελέσματα:
View attachment 272372

Να πω την αλήθεια είναι το πρώτο Benchmark που δηλώνει εμφατικά αυτό που ένιωθα, ότι το 5.5 είναι ξεκάθαρα το καλύτερο μοντέλο σήμερα. Το πρώτο σημάδι που είχαμε είναι ότι το 5.5 για cybersecurity σκόραρε ψιλότερα από το Claude Mythos στον τομέα αυτό που το Mythos λανσαρίστηκε ως εξωφρενικά μπροστά από τα υπόλοιπα μοντέλα. Πιστέυω ότι το Mythos είναι το μοντέλο που είναι εφάμιλλο με το 5.5. Και επίσης μετά και από αυτό πιστεύω ότι ήταν και αρκετά communication driven το να ανακοινώσουν το Mythos, αλλά να μην το βγάλουν στον κόσμο γιατί απλά δεν έχει η Anthropic την υπολογιστική υποδομη για να το τρέξει.
Σημειώνω ότι στις μπάρες δεν υπάρχει το 5.5 Pro που είναι κανονικά ο ανταγωνιστής του Opus 4.7 Max.
Απίστευτο, αλλά ταυτόχρονα συμβατό με το πως νιώθω το Gemini 3.1 Pro σε σχέση με το Gemini 3.5 flash...

Καταλήγοντας, οι διαφορές όσες και να είναι, είναι στην πράξη τέτοιες που στις περισσότερες τυπικές δουλειές γραφείου δεν θα μπορεί κάποιος να τις ξεχωρίσει. Ταυτόχρονα είμαι σίγουρος ότι κάποιος που ξέρει, μπορεί να στήσει ένα πολυπρακτορικό εργαλείο που να έχει σε ένα τυπικό τασκ γραφείου το ίδιο αποτέλεσμα, ενώ χρησιμοποιεί ακόμη και το gemini 3.5 flash που είναι και φθηνό και γρήγορο. Όσο για τον προγραμματισμό το πάμθηνο Composer 2.5 μπορεί να καλύψει τα περισσότερα (αν όχι όλα) καθημερινά.

Όπως είπα και πιο πάνω, το επόμενο μεγάλο εμπόδιο είναι πως ο μέσος χρήστης θα μπορεί να στήνει πολυπρακτορικά workflows χωρίς να ξέρει τι είναι αυτά. Και για αυτό μου αρέσει αυτό το Benchmark μιας και στοχεύει σε όχι τέλεια Prompt με όχι τεράστιο context και άρα είναι πιο αντιπροσωπευτικό για το μέσο χρήστη.

Γιώργο δεν νομίζω πως είναι ιδιαίτερα της περιοπής.
Το GPT 5.4 mini για παράδειγμα δεν είναι 2,5 φορές καλύτερο στο software engineering από το Gemini 3.1 pro που να χτυπιέται κάτω.

Καλά, το ότι βγάζει το Opus 4.6 κάτω από το Sonnet φτάνει, όποιος τα έχει χρησιμοποιήσει καταλαβαίνει.
 
Μιας και ασχολείσαι με ηλεκτρονικά. Υπάρχει κάτι που να του βάζεις τα components και να σου σχεδιάζει pcb με τις διαστάσεις και την διάταξη που το θες ;

Όχι, σε καμία περίπτωση. Αλλά η πρόοδος που γίνεται είναι ραγδαία. Πριν λίγο καιρό δεν καταλάβαιναν απολύτως τίποτα από ηλεκτρονικά.
 
  • Like
Reactions: songless_bird
Ευχαριστώ Ανδρέα!
Θα συμφωνήσω με τον Ανδρέα. Μάλλον η καλύτερη λύση τώρα είναι το Claude. Μπορείς να ξεκινήσεις με μια συνδρομή των 20 δολαρίων που από όσο ξέρω δίνει access στο claude design (research preview). Είναι ότι πρέπει για να κάνεις δοκιμές. Μετά μια Business Claude Team συνδρομή για να έχεις και τα τυπικά που απαιτεί εταιρική χρήση.

Αν και το Stitch είναι επίσης σοβαρό εργαλείο δεν ξέρω αν θέλεις να στρέψεις την εταιρία στο οικοσύστημα της google.

Βέβαια να τονίσουμε ότι και τα 2 (Claude design και google stitch) είναι σε πειραματική περίοδο και είναι δωρεάν στη χρήση (στην περίπτωση claude θέλεις μια συνδρομή, στη google τίποτα). Επίσης ενδιαφέρον το Google Stitch έχει MCP Server με έτοιμα connections για Claude Code, Codex κλπ.

Μια τελευταία σημείωση, αν θέλεις φωτορεαλιστικές απεικονήσεις, μάλλον το καλύτερο σήμερα είναι το ChatGPT με δεύτερο το Gemini Nano Banana. Για να δεις τι εννοώ σου βάζω 3 φωτογραφίες από τη βεράντα μου. 1. Όταν άρχισα να συζητώ με το ChatGPT τι φυτά πρέπει να πάρω, 2. Πως το ChatGPT μου πρότεινε να το κάνω 3. Πως έγινε πραγματικά.
1.
View attachment 272369

2. ChatGPT φωτορεαλιστικό
View attachment 272370
3. Πως είναι τώρα. Δεν έχω πιάσει τα ρυγχόσπερμα στην πέργκολα και θα χρειαστούν χ΄ρονο για να απλωθούν πάνω της
View attachment 272371

Το ξέρω ότι μάλλον σε μπλέξαμε...
χαχαχα, πιθανότατα ναι, με μπλέξατε! Και σας υπερ ευχαριστώ για αυτό, καλώς η κακώς οι εξελίξεις τρέχουν, πρέπει και εμείς! Να είσαι καλά Γιώργη!
 
Όχι, σε καμία περίπτωση. Αλλά η πρόοδος που γίνεται είναι ραγδαία. Πριν λίγο καιρό δεν καταλάβαιναν απολύτως τίποτα από ηλεκτρονικά.
Εμένα πάντως εδώ και 1 χρόνο με βοήθησαν στον σχεδιασμό ενός ψηφιακού παχυμετρου . Αν και το chatgpt ήταν λίγο "για κάνε αυτό να δούμε αν δουλεύει" και "α συγνώμη νομιζα οτι ηταν η καλύτερη επιλογή", μπορούσαν να προβλέψουν συμπεριφορές των components και να προτείνουν λύσεις. Βέβαια πολλές φορές εκ του αποτελέσματος. Πχ δεν γνώριζα για λάθος στον σχεδιασμό του rp2040 και ότι ήθελε έναν πυκνωτή στο GND και το PIN του αισθητήρα. Και απλά έβλεπα το λάθος χωρίς να ξέρω που οφείλεται μέχρι που έβαλα τα δεδομένα στο chatgpt και βρήκε την αιτία και την λύση. Βέβαια έπαιζα διπλό ταμπλό με το Gemini και πολλες φορές ότι δεν έκανε το ένα το έκανε το άλλο. Σε σημείο που να λες ότι το κάνουν επίτηδες για να ανέβεις σε πακέτο συνδρομής.
 
Όχι, σε καμία περίπτωση. Αλλά η πρόοδος που γίνεται είναι ραγδαία. Πριν λίγο καιρό δεν καταλάβαιναν απολύτως τίποτα από ηλεκτρονικά.
To KiCad έχει σίγουρα MCP server, ενώ πιστεύω ότι και άλλα αναπτύσουν. Ε, η σύνδεση με Codex / Claude Code είναι πολύ εύκολη μετά.
 
Εμένα πάντως εδώ και 1 χρόνο με βοήθησαν στον σχεδιασμό ενός ψηφιακού παχυμετρου . Αν και το chatgpt ήταν λίγο "για κάνε αυτό να δούμε αν δουλεύει" και "α συγνώμη νομιζα οτι ηταν η καλύτερη επιλογή", μπορούσαν να προβλέψουν συμπεριφορές των components και να προτείνουν λύσεις. Βέβαια πολλές φορές εκ του αποτελέσματος. Πχ δεν γνώριζα για λάθος στον σχεδιασμό του rp2040 και ότι ήθελε έναν πυκνωτή στο GND και το PIN του αισθητήρα. Και απλά έβλεπα το λάθος χωρίς να ξέρω που οφείλεται μέχρι που έβαλα τα δεδομένα στο chatgpt και βρήκε την αιτία και την λύση. Βέβαια έπαιζα διπλό ταμπλό με το Gemini και πολλες φορές ότι δεν έκανε το ένα το έκανε το άλλο. Σε σημείο που να λες ότι το κάνουν επίτηδες για να ανέβεις σε πακέτο συνδρομής.

Στο "φιλολογικό" πηγαίνουν ήδη πάρα πολύ καλά, εντυπωσιακά καλά, καμία σχέση με πριν 1 ή 2 χρόνια.

Στο actual design θέλουν ακόμα δρόμο, αλλά κινείται πάρα πολύ γρήγορα όλο αυτό.
 
Σε εσας το GEMINI βριζει και καυλαντιζει ή μονον σε εμενα συμβαινει αυτο ;


ζητώ στην ροή μια συζητήσεως από το GEMINI να κάνει μια ερεύνα για μια δικαστική υπόθεση και να συντάξει ένα γραμμα
και το δινω και στον CLAUDE AI και εκανε καποιες παρατηρησεις
και ενημερωνω το GEMINI οτι ο CLAUDE εχει καποιες παρατηρησεις
και εδω εγινε του κουτρουλη.....Διοτι δεν καταλαβε ποιος ειναι ο CLAUDE

1779981980626.png
εδω μολις ενημερωνω οτι ο CLAUDE ειναι AI

1779981936978.png
 
χαλαρη ειναι η συζητηση αλλα ποτε δεν εχω χρησιμοποιησει τετοιες εκφρασεις..
 
αφηστε που μετα απο 2 μερες δεν θυμαται τιποτα...
Υπαρχει ΑΙ να θυμαται οτι εχει ειπωθει? Εστω και με κοστος