Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

View attachment 270091


Πέρυσι τέτοιο καιρό η πίτα είχε ως εξής:

ChatGPT: 77.43%
Grok: 7.03%
Gemini: 6.00%
DeepSeek: 3.73%
Perplexity: 1.66%
Claude: 1.40%
Copilot: 1.38%

Σήμερα:

ChatGPT: 56.72%
Gemini: 25.46%
Claude: 6.02%
DeepSeek: 3.74%
Grok: 3.44%
Copilot: 1.99%
Perplexity: 1.64%

Το hot take μου είναι πως μέχρι τέλος του χρόνου με αυτό τον ρυθμό η Google θα είναι μπροστά.
Ο πολύς κόσμος δεν έχει καταλάβει πως στο google search/chrome έχει απευθείας πρόσβαση στο ai mode, που είναι ένα εξαιρετικά γρηγορότερο perplexity πρακτικά. Όταν αρχίσει να το χρησιμοποιεί, δεν θα έχει κανέναν λόγο να πάει στα δωρεάν μοντέλα του chatgpt.
To perplexity έχει ένα core asset που του ανήκει πλήρως και αυτό είναι το μοντέλο του για deep research μέσω στοχευμένων αναζητήσεων στον ιστό. Αν δεν το καταλάβει να προσπαθήσει να κάνει capitalize πάνω σε αυτό, θα είναι άλλη μια εταιρία που θα εξαφανιστεί. Ας είναι το Perplexity Computer η πιο ολοκληρωμένη και προηγμένη εφαρμογή ΑΙ αυτή τη στιγμή, γιατί απλά θέλει claude και chatgpt για να δουλέψει σωστά.
Επίσης το Grok έγινε open source πιστεύω γιατί κατάλαβαν ότι δεν θα έφταναν τα άλλα μπροστά τους - ίσως βέβαια να ήταν και απλό καπρίτσιο του Musk λόγω της κόντρας του με την OpenAI και τον Sam Altman.
Όσο για το Gemini έχουμε πει ότι η Google έχει τη δυνατότητα τρελού diversification και να τα κάνει όλα μόνη της. Θα είναι στους νικητές της κούρσας και χωρίς να ξέρουμε σε ποιο κομμάτι της. Όσο για τη μεγάλη αύξηση στους χρήστες έκανε το πολύ απλό. Ενσωμάτωσε χωρίς αύξηση του κόστους συνδρομής το Gemini στα προϊόντα αποθηκευτικού χώρου που είχε. Ενώ πλήρωσα με χαρά τα 100 δολάρια το χρόνο για τα 4 ΤΒ δεν θα πλήρωνα για το Gemini. Όμως αφού το πέταξε στο πακέτο και αυτό το χρησιμοποιώ.
Κάτι αντίστοιχο έχει κάνει και η MS απλά είναι μεγάλος δεινόσαυρος. Έχει και αυτή τη δυνατότητα να αυξήσει σε λίγο χρόνο πολύ τη χρήση του copilot μέσω της ενσωμάτωσης στο Office.
Επίσης το διάγραμμα κάνει ξεκάθαρη τη βελτίωση της εμπορικής εικόνας του Claude. Από τη μια σχεδόν διπλασίασε τους χρήστες, από την άλλη είναι ακόμη πολύ πίσω από τους πρώτους.

Αυτά που έχουν μέλλον είναι τα local μοντέλα. Με το Turboquant ή άλλα αντίστοιχα θα μπορούμε να τρέξουμε σπίτι σε ένα DGX (που χτυπάω το κεφάλι μου που δεν το αγόρασα στα 3500 ευρώ, ενώ τώρα έχει ξεπεράσει τα 5500 ευρώ) ακόμη και τα κορυφαία σήμερα (Gemma 4 31B, Mistral Small 4, gpt-oss-120b, Llama 4 Scout, Qwen3.5-122B-A10B, Nemotron 3 Super) μπορείς να τα τρέξεις τσάμπα. Και χρησιμοποιείς μέσω API τα frontier για εκεί που όντως έχει νόημα...
 
Πάντως διαβάζοντας περισσότερα review του Opus 4.7 νιώθω πως οι εικασίες/φήμες έχουν κάποια βάση.
- Η Anthropic ακόμη και να λύσει το θέμα του Mythos με το cybersecurity, δεν έχει το απαραίτητο hardware να δώσει ελεύθερα στο κοινό το μοντέλο, ειδικά λαμβάνοντας υπόψη τις καθυστερήσεις που θα έχουμε στην παραγωγή ολοκληρωμένων κυκλωμάτων λόγω έλλειψης ηλίου.
- Στο press release γράφει "Opus 4.7 does not cross the threshold for automated AI R&D". Αυτό για ποιο λόγο να το πουν; Αυτό που καταλαβαίνω εγώ είναι ότι το Mythos το ξεπερνάει και το λένε έμμεσα, άρα υπάρχει έμμεση παραδοχή ότι είμαστε ήδη στο singularity λόγω Mythos.
- Τέλος μου αρέσει πάρα πολύ που η Anthropic έχει ήδη ξεκάθαρη κατηγορία στα releases με τίτλο "Model welfare" σαν να ήταν κάτι με χαρακτηριστικά ύπαρξης σε αντίθεση με κάτι υλικό.

Πάντως ο πόλεμος με το Ιράν φαίνεται όντως να λειτουργεί ως φρένο στην ανάπτυξη της ΑΙ...το σε ποιο βαθμό και αν αυτός θα είναι σημαντικός ή απλά ένας λόξιγκας (που θα λέγαμε και στα Αγγλικά) θα το δούμε.
 
Το θέμα με το Mythos είναι καθαρά θέμα compute. Είναι εξαιρετικά μεγαλύτερο μοντέλο από το Opus -που είναι ήδη το μεγαλύτερο ευρέως διαθέσιμο και για να λανσαριστεί ελεύθερα χρειάζεται υπολογιστική υποδομή που δεν υπάρχει. Είναι μοντέλο της τάξης των ~10Τρις παραμέτρων. Εν τω μεταξύ, από τη στιγμή που το κυκλοφορήσουν, όλες οι επιχειρήσεις, ανεξαρτήτως κόστους θα θέλουν το "latest and greatest". Υπάρχει απίστευτη εγρήγορση στο να μην μείνουν πίσω, η οποία καμμία σχέση δεν έχει με το mindset πολλών δικών μας εταιριών που καλά καλά δεν αγοράζουν τα βασικά εργαλεία παραγωγικότητας για το προσωπικό τους.

Εφόσον το ξεπεράσουμε αυτό, μετά μπαίνουν και όλα τα ethics μέσα.

Τα οποία ethics υπάρχουν και στα Opus. Τα ελεύθερα προσβάσιμα μοντέλα έχουν κουτσουρεμένες δυνατότητες στο security και ορισμένα prompts τα κόβουν. Στην εταιρία επειδή είμαστε στη διαδικασία να πάρουμε και το Mythos για το security, μας αποδέχθηκαν στο εσωτερικό πρόγραμμα κυβερνοσασφάλειας που δίνει τις πλήρεις δυνατότητες στο μοντέλο, για εσωτερική χρήση βέβαια.

1776422464939.png


Σήμερα το έβαλα να κάνει τη σχετική δουλειά και μπορώ να πω πως είμαστε σε σουρεάλ επίπεδο.
Με μεγάλη σιγουριά, υπάρχει βελτίωση στη χρήση browser και είναι και πολύ πιο γρήγορο ως μοντέλο το 4.7

1776422483251.png
 
Η OpenAI για να μην μείνει πίσω δεν έβγαλε νέο μοντέλο (και κανείς δεν ξέρει γιατί καθυστερεί) αλλά έβαλε νέες δυνατότητες στο Codex:


  • Έλεγχος Υπολογιστή στο Παρασκήνιο (Background Computer Control): Το Codex μπορεί πλέον να λειτουργεί αυτόνομα στον υπολογιστή (αρχικά μόνο σε macOS). Έχει τη δυνατότητα να "βλέπει" την οθόνη, να κάνει κλικ, να πληκτρολογεί και να πλοηγείται σε διάφορες εφαρμογές λειτουργώντας ως ψηφιακός συνεργάτης, χωρίς να διακόπτει τη δική σας εργασία.
  • Λειτουργία Μνήμης και Αυτοματισμοί (Memory & Automation): Η εφαρμογή αποκτά μνήμη, επιτρέποντάς της να θυμάται τις προτιμήσεις σας και το ιστορικό του κώδικα ή των εργασιών σας για μελλοντική χρήση. Επιπλέον, μπορεί να προγραμματίζει εργασίες (scheduling) και να "ξυπνά" αυτόματα για να συνεχίσει χρονοβόρα tasks.
  • Ενσωματωμένος Περιηγητής Ιστού (In-app Browser): Διαθέτει πλέον δικό του browser, εξαλείφοντας την ανάγκη συνεχούς εναλλαγής μεταξύ εφαρμογών. Οι χρήστες μπορούν να κάνουν σχόλια απευθείας σε ιστοσελίδες για να καθοδηγήσουν το AI σε εργασίες όπως ο σχεδιασμός frontend.
  • Δημιουργία Εικόνων (Image Generation): Μέσω της ενσωμάτωσης του νέου μοντέλου gpt-image-1.5, το Codex επεκτείνεται πέρα από τον κώδικα, έχοντας τη δυνατότητα να δημιουργεί οπτικό υλικό, προσχέδια (mockups) και στοιχεία (assets) απευθείας μέσα στην εφαρμογή.
  • Μεγάλο Οικοσύστημα Πρόσθετων (Plugins): Η OpenAI πρόσθεσε υποστήριξη για πάνω από 90 νέα plugins (συμπεριλαμβανομένων εργαλείων όπως τα GitLab, Atlassian και Microsoft Suite). Αυτό επιτρέπει στο Codex να συγκεντρώνει πληροφορίες και να εκτελεί ενέργειες σε δεκάδες πλατφόρμες της επιχείρησης, αναλαμβάνοντας συντονιστικές εργασίες ρουτίνας.
 

Πεστα να ξαλαφρωσεις my maker
 
To view this content we will need your consent to set third party cookies.
For more detailed information, see our cookies page.


Φρέσκα κουλούρια.
Η ταχύτητα με την οποία βγαίνουν νέα προϊόντα σε αυτό το επίπεδο είναι πλέον άνευ προηγουμένου.
 
Άμα είναι να δουλεύει το Opus 4.7, με την απλή συνδρομή δεν θα βγάζεις ούτε icon 😂
Όπως το βλέπω, κάποια στιγμή θα πάνε οι συνδρομές στο Θεό και οι εταιρίες θα μείνουν με κώδικα που κανένας "dev" δεν θα ξέρει πως δουλεύει.
Όσοι τουλάχιστον (νομίζουν ότι) γράφουν κώδικα μέσω prompts.
 
Τα API δεν τα λες και τελείως φθηνά...αλλά είναι φθηνά σε σχέση με το τι αντικαθιστούν.
Πάντως παίζω λίγο περισσότερο με offline μοντέλα και κάποια ακόμη και μόνο με 4Β τρέχουν μια χαρά κάποια workflows, ενώ τα καινούργια με 8Β και παραπάνω πάλι μπορούν να δουλέψουν. Απλά όλοι πάν(μ)ε στα κορυφαία ενώ σίγουρα δεν χρειάζονται για όλα όσα κάνουμε.
 
  • Like
Reactions: anderm
Άμα είναι να δουλεύει το Opus 4.7, με την απλή συνδρομή δεν θα βγάζεις ούτε icon 😂
Όπως το βλέπω, κάποια στιγμή θα πάνε οι συνδρομές στο Θεό και οι εταιρίες θα μείνουν με κώδικα που κανένας "dev" δεν θα ξέρει πως δουλεύει.
Όσοι τουλάχιστον (νομίζουν ότι) γράφουν κώδικα μέσω prompts.

Το κόστος του intelligence των μοντέλων μειώνεται αρκετά πάντως.
9 μήνες πίσω, το state-of-the-art μοντέλο της Anthropic ήταν το Opus 4.1
Πολύ καλό για τις μέρες του, ενθουσιασμός οι developers, 75€/1εκ token output το κόστος του

Fast forward στο σήμερα και το Sonnet 4.6 είναι πολύ καλύτερο μοντέλο, στα 15€/1M token output

1776461375714.png

Το claude design, με το opus 4.7 σου φτιάχνει το πλήρες frontend ενός σχετικά μικρού SaaS με 10-15€.
Με 15€ δεν περνάς ούτε τη πόρτα design studio. Ποιό design studio δηλαδή, για 15€ ούτε scam Ινδός δεν δέχεται να σε κοροϊδέψει.

Επίσης hot take, ας μην έκανε 15€ και ας έκανε 150€. Σε μια ημέρα, μια ομάδα frontend μπορεί να παρουσιάσει παρόμοιας ποιότητας 5-6 διαφορετικές προτάσεις; Ούτε μια και για να κάνεις αλλαγές έχεις το κλασσικό "requirements meeting" με το όλο μπρος-πίσω να παίρνει 3 μέρες.
 
Ούτως ή άλλως όταν αλλάζουν τα requirements έχεις μπρος πίσω.
Το θέμα είναι ότι γράφεται κώδικας ανεξέλεγκτα γιατί καταλήγουν οι εταιρίες να μην πληρώνουν seniors και απλά θα γεμίσουμε juniors που δεν έχουν γράψει γραμμή κώδικα.
 
Βρε μπρος πίσω θα έχεις, απλά γίνεται πιο γρήγορα.
Mid-Senior δεν γίνεται να μην έχεις από την άλλη. Όχι επειδή δεν θα στα γράψει καλά per se, αλλά επειδή κάποιος σε μια εταιρική δομή θα έχει το "ownership" και την ευθύνη που έρχεται με αυτό. Επίσης πρέπει να γνωρίζεις τι θέλεις να σου γράψει, τι να σου κάνει maintain. κλπ

Εάν κανείς έχει την εντύπωση πως στο prompt του να κουνήσει το κουμπί θα απαντήσει "α, παρεμπιπτόντως, έχετε και τα 3/4 των dependencies σας με ενεργά CVE", θα απογοητευτεί.