Τεχνητή Νοημοσύνη (AI). Τι είναι, τι ξέρουμε, τι αλλάζει στη ζωή και στον πολιτισμό;

Η απορια των απλων ανθρωπων οσον αφορα το AGI...
Ειναι δυνατον η μηχανικη να ξεπερασει, ποιοτικα οχι ποσοτικα, την βιολογια;
Ξερουμε οτι μπορει να την καταστρεψει αλλα μπορει να την ξεπερασει;
Μπορει δηλαδη το δημιουργημα να ξεπερασει τον δημιουργο;
Η θα ειναι παντα κατω απο τον ανθρωπο για ορισμενες λειτουργιες;
Ο ανθρωπος - ατομο με την μοναδικη του βιοιστορια, την μοναδικη του συνειδηση
και τα ενδιαφεροντα του που δημιουργουν την δικη του αντιληψη της πραγματικοτητας
θα επιβιωσει η θα υποστει την μεταμορφωτικη, ισοπεδωτικη πιθανοτατα, επιδραση του χρυσου μεσου ορου;
 
Είμαστε σε μια περίοδο εκθετικής ανόδου ακόμη.
Τόσο όσον αφορά τις δυνατότητες των μοντέλων όσο και όσον αφορά την υποδομή που τρέχουν, που φυσικά είναι αλληλένδετα.
Για εμένα το σημείο καμπής θα έρθει όταν χωρίς πρωτογενή πληροφορία, τα συστήματα αυτά θα μπορούν να τρέξουν έρευνα που θα καταλήγει έστω σε ένα ποσοστό της σε επιτυχία. Στον προγραμματισμό, είδαμε κάτι τέτοιο με τον νέο C compiler που έφτιαξε το claude από το μηδέν. Θέμα χρόνου είναι να γίνεται αυτό και στα υπόλοιπα επιστημονικά πεδία.

Δεν είναι απαραίτητο να πάμε από το μηδέν στο breakthrough, στην εξαιρετικά καινοτόμα εφεύρεση. Το να βελτιωθεί η ταχύτητα της ανάπτυξης προϊόντων κάθε κατηγορίας είναι από μόνο του πάρα πολύ σημαντικό και σε ένα βαθμό γίνεται ήδη.
 
Ειναι δυνατον η μηχανικη να ξεπερασει, ποιοτικα οχι ποσοτικα, την βιολογια;

Όχι.
Γιατί όπως λέγαμε πάντα, το πρόβλημα δεν είναι στον υπολογιστή και το πρόγραμμα αλλά πίσω από το πληκτρολόγιο.
Το 50% και βάλε των "senior" developers και το 100% των junior δεν γνωρίζει καν την ύπαρξη του top 10 του OWASP ή τι είναι ένα CSRF token.
Και αν συνεχίσουν να βασίζονται στα μοντέλα, δεν θα γίνει ποτέ κανείς senior.

Το claude που δουλεύω για κώδικα είναι εκπληκτικό εργαλείο.
Μου λύνει τα χέρια σε tasks που ή θα μου έτρωγαν πολύ χρόνο (να κάνω ανάλυση σε κάποιο legacy project) ή βαριέμαι (να κάνω refactoring).
Πρακτικά χαμαλοδουλειά που δεν μπορώ να δώσω σε junior.
Για να κάνουμε brainstorming και να βγάλουμε ένα proof of concept, να κάνω ένα πρόχειρο code review ή να ξεκολλήσω και να πάρω μία δεύτερη ιδέα για κάτι.
Φεύγουν από το ημερήσιο πρόγραμμά μου πράγματα που με κάνουν να βαριέμαι να πάω στη δουλειά και το 90% του χρόνου μου είναι δημιουργικός.

Το Gemini έχει καταντήσει η ξανθιά φιλενάδα που θα τη ρωτήσεις "θα πάω διακοπές μία εβδομάδα σε μέρος που δεν έχει ταβέρνες, φτιάξε μου μενού για 5 άτομα να μαγειρεύω σπίτι και κάνε μου τη λίστα με τα ψώνια".

Τα άλλα είναι κάπου στο ενδιάμεσο.

Είναι λάθος να λέμε ότι τα ΑΙ θα αντικαταστήσουν ανθρώπους.
Μπορούν να αντικαταστήσουν εργατοώρες και κάποια στιγμή να δούμε επιτέλους ένα μοντέλο εργασίας του στυλ 3-4 ημέρες την εβδομάδα, 6 ώρες την ημέρα.
Με MCP servers μπορείς να βρεις αυτό που θέλεις πολύ γρήγορα. Έχουμε αρχίσει να φεύγουμε από το chat με το chatgpt και σε λίγο κάθε χρήστης θα έχει έναν agent για να του κλείνει δωμάτιο σε ξενοδοχείο, να κανονίζει τα ψώνια της εβδομάδας, να βρίσκει πληροφορίες για προϊόντα που τον ενδιαφέρουν.

Δεν υπάρχει λοιπόν ποιότητα σε αυτά παρά μόνο ποσότητα ωρών που γλυτώνεις.
 
...
Το claude που δουλεύω για κώδικα είναι εκπληκτικό εργαλείο.
....

Είναι λάθος να λέμε ότι τα ΑΙ θα αντικαταστήσουν ανθρώπους.
...
Λοιπόν το πρώτο κάστρο έπεσε! Βρήκες κάτι χρήσιμο! Να δούμε σε πόσο χρόνο θα δεις ότι όντως ήδη αντικαθιστούν ανθρώπους. Εσένα όχι ακόμη. Αλλά άλλους πιο junior άνετα.

Τρέχουν και κάτι open source project που κουμπώνουν στο Claude Cowork ή στο Codex της OpenAI και σου φτιάχνουν μέχρι και εταιρική δομή όπως το Paperclip.

Στήνεις ολόκληρη εταιρική δομή κάτω από εσένα η οποία τρέχει αυτόνομα.

Ναι το ξέρω, υπάρχουν ένα σκασμό tutorials για παθητικό εισόδημα, για "επενδύσεις" που βγάζουν λεφτά μόνες τους κλπ. Όχι το παραπάνω δεν είναι λεφτόδεντρο και θέλει ΚΑΙ εσένα από πάνω. Απλά δεν θέλει άλλους 2-3 ανθρώπους δίπλα από σένα.

Οι επόμενοι μήνες θα δημιουργήσουν απίστευτες ευκαιρίες για εύκολο χρήμα. Προσοχή όχι για να γίνεις εκατομυριούχος, αλλά για να συντηρίσεις μια μικρή αυτοματοποιημένη με ΑΙ επιχείριση στο πλάι να σου βγάζει 500-1000 ευρώ με μικρή επίβλεψη από σένα)

Και να πάω σε συγκεκριμένο παράδειγμα. Ήθελα να φτιάξω μια γραμματέα του 80 να μου κρατάει το "to-do list" ουσιαστικά με τα τρέχοντα task να μιλάει με φυσικό λόγο και να την τρέχω τοπικά. Η πρώτη δοκιμή ήταν με το Openclaw. Ναι δούλεψε, αλλά όχι τέλεια. Το 4Β LLM που φόρτωνα τοπικά ήταν μικρό. Ήθελε 8Β για να δουλέψει απροβλημάτιστα. Ήμουν στη φάση να αλλάξω την αρχιτεκτονική από μόνο LLM based σε υβριδική με deterministic rules. Τελικά αυτό δεν το έκανα στο openclaw αλλά το ξεκίνησα σε νέο project από το μηδέν στο CODEX. Ήδη έχω φτάσει να προσθέσω και τα ακόλουθα:
- Να έχει read-only πρόσβαση στο google calendar (και μόνο)
- Να μου φτιάχνει το πρωί καθημερινό briefing τι έχω να κάνω.
- Να μου φτιάχνει στο τέλος της εβδομάδας Briefing με το τι έχω να κάνω την επόμενη εβδομάδα.
- Να δουλεύει με voice
- Να δουλεύει και από το κινητό
Και το βασικότερο...όταν τελειώσω με τα βασικά χαρακτηριστικά και το τεστάρισμα ότι δουλεύει όπως πρέπει να την κάνω Migrate σε ένα Jetson Orin Nano Super που θα είναι 24/7 online και θα καίει κάτω από 1 ευρώ ρεύμα το μήνα.
Αυτό το φτιάχνω για μένα, γιατί με διευκολύνει στην καθημερινότητά μου. Όμως μπορώ εύκολα να το κάνω ένα μίνι προϊόν και να το πουλήσω με την εταιρική δομή να μου τη στήνει το paperclip.
Α, επίσης opensource project στυλ gstack μπορούν να σε βοηθήσουν να στήσεις την επιχειρηματική σου ιδέα σωστά για να ξεκινήσεις.

Πριν από 6 μήνες θα έλεγα δεν με νοιάζει - δεν με απασχολεί το παραπάνω.

Τώρα σκέφτομαι θα φάω 2 ώρες με το gstack, μετά θα φάω άλλες 2 ώρες με το codex να το κάνω πιο consumer friendly, θα φάω και 5 ώρες με το paperclip και θα φτιάξω κάτι που μπορώ να πουλήσω. Αν πουλήσω 0 τεμάχια θα έχω φάει ~1 εργατοημέρα, μαθαίνοντας όμως να χρησιμοποιώ ισχυρά εργαλεία. Αν πουλήσω 5-10 τεμάχια παγκόσμια θα έχω βγάλει και το κόστος μου. Αυτό που προσπαθώ να πω είναι ότι αλλάζει το mindset με τα εργαλεία που έρχονται στα χέρια μας...
 
  • Like
Reactions: Tzimisce and anderm
Πρώτη δοκιμή με 3 ξενοδοχεία, αν έχει κάποιος agent και έχει όρεξη να παίξει... 😂
server: https://mcp.overron.com/
Δέχεται post, θέλει στα headers Content-Type: application/json και body raw/json κάπως έτσι:

{
"jsonrpc": "2.0",
"method": "tools/call",
"params": {
"name": "search_rooms",
"arguments": {
"query": "suite with sea view for 2"
}
},
"id": 2
}
 

Ποτέ μη λες ποτέ σε αυτή τη ζωή.
Εάν το 2023 λέγαμε σε κάποιον πως σε 2-3 χρόνια θα είμαστε εδώ που είμαστε σήμερα, η απάντηση θα ήταν "και που να σφίξουν οι ζέστες".
Αυτά που έχει ζήσει ο κόσμος τα τελευταία 30 χρόνια, όσον αφορά τη τεχνολογική πρόοδο, δεν τα έχει ζήσει σε καμία άλλη ιστορική περίοδο.

Γιατί όπως λέγαμε πάντα, το πρόβλημα δεν είναι στον υπολογιστή και το πρόγραμμα αλλά πίσω από το πληκτρολόγιο.
Το 50% και βάλε των "senior" developers και το 100% των junior δεν γνωρίζει καν την ύπαρξη του top 10 του OWASP ή τι είναι ένα CSRF token.
Και αν συνεχίσουν να βασίζονται στα μοντέλα, δεν θα γίνει ποτέ κανείς senior.

Αυτό που έχει γίνει σήμερα είναι πως ο Mid/Senior developer που ξέρει πως δεν υπάρχει web app χωρίς CSRF/XSS/X Frame, Content options/CSP και άλλες 100 παραμέτρους ασφαλείας, εάν γράψει στο claude σήμερα τι θέλει, θα του το κάνει και θα το κάνει σωστά. Εάν ο dev. δεν γνωρίζει τι πρέπει να ζητήσει από το εργαλείο ή περιμένει με ένα prompt να του βγάλει υπερ-πλήρη εφαρμογή 150.000 γραμμών κώδικα, το πρόβλημα το έχει ο developer. Και είναι πολλοί αυτοί που δεν γνωρίζουν τι κάνουν, κάθε μέρα ανεβαίνουν δεκάδες video από "vibe-coders" που "συγκρίνουν μοντέλα", ανάθεμα και εάν έχουν ιδέα τι κάνουν.

Ένα άλλο μερίδιο χρηστών που παρότι ξέρει τι ζητάει, έχει εν τέλει μέτρια εμπειρία και αυτό έχει να κάνει με τη χρήση των μοντέλων αυτή καθαυτή. Στο γραφείο τον τελευταίο μήνα είδα κατά τύχη δύο συναδέλφους, ο ένας να χρησιμοποιεί το claude opus 4.6 από το web και έκανε copy paste κώδικα, ο άλλος -πάλι καλά, χρησιμοποιούσε το extension στο VSCode, αλλά από το GUI του. Που δεν έχει τη παραμικρή σχέση και δυνατότητες με το console.

Για να πάρεις καλά αποτελέσματα με το claude χρειάζεται:
  1. Να το τρέχεις στο console του IDE
  2. Να χτίσεις σωστό claude.md αρχείο, αρχικά με το /init
    1. Μετά να το βάλεις επί τούτου να κάνει review όλο το codebase και να διορθώσει το claude.md
    2. Σε memory, να κρατάει το όποιο flow δημιουργεί εν συνεχεία προβλήματα και να κάνει document το σωστό
  3. Κάθε φορά να ξεκινάς νέο session, με καθαρό context
  4. Πριν του ζητήσεις οτιδήποτε για υλοποίηση, να κάνει review το codebase σε βάθος
  5. Όταν ολοκληρώσει την υλοποίηση να τρέξει το security review (/ και πρώτο option) και από τα superpowers skills το code review
  6. Να τρέξει τέστ για την υλοποίηση που έκανε -που μπορεί να τα γράψει και μόνο του
Σήμερα εγώ το έβαλα να γράψει τέστ για ότι δεν είχε πλήρες coverage.

1774652539874.png

3,5+ ώρες δούλευε, δοκίμαζε τα πάντα, διόρθωνε τα test on the fly, έκανε δοκιμές για false positives.
Αυτό μια μικρή ομάδα θα ήθελε εβδομάδες για να το κάνει στο ίδιο βάθος.

Είναι λάθος να λέμε ότι τα ΑΙ θα αντικαταστήσουν ανθρώπους.

Δεν είναι δημοφιλές ούτε και ακούγεται εύκολα, ωστόσο η αλήθεια είναι πως κάποιους ανθρώπους τους αντικαθιστούν ήδη.

Ο μοναδικός λόγος που μεγάλες εταιρίες προσλαμβάνουν juniors είναι επειδή κατανοούν πως εάν δεν το κάνουν, δεν θα καλυφθεί ποτέ η ανάγκη για mid/seniors. Οι υποστηρικτικές θέσεις που δεν έχουν επαφή με πελάτες, ή έχουν περιορισμένη επαφή με πελάτες, θα δεχθούν τη μεγαλύτερη πίεση.

Βέβαια, ταυτόχρονα έχει ανοίξει ένα τεράστιο οικοσύστημα που ενσωματώνει τα μοντέλα τεχνητής νοημοσύνης στις εργασιακές ροές των επιχειρήσεων.
 
Last edited:
Να μοιραστώ κάποια συμπερίσματα από αυτό που έφτιαξα χθες.
Λίγο υπόβαθρο. Πριν από κανένα χρόνο μιλούσα με το ChatGPT και το ρώταγα τι μου προτείνει να κάνω σε σχέση με τα workflows στα οποία τότε επέκτεινα τη χρήση ΑΙ μιας και οι δυνατότητες αυξάνονταν. Έτσι και αλλιώς η προσέγγιση μου ήταν θεωρητικά πλήρως εναρμονισμένη με τα γνωστά πλαίσια ανάπτυξης πολυπρακτορικών συστημάτων.
Το ΑΙ τότε μου πρότεινε να διατηρώ artifacts που στην ουσία περιέγραφαν τα workflows μου. Αυτά πρακτικά ήταν τα prompts και μικρές οδηγίες του τι κάνει ο κάθε πράκτορας και πως μεταφέρω δεδομένα από τον ένα agent στον άλλο. Είναι σε τέτοια μορφή που αν τα πάρει στα χέρια του κάποιος από το domain μου με βασικές γνώσεις ΑΙ θα τα καταλάβει και θα τα εφαρμόσει σε 5 λεπτά.

Fast forward στο σήμερα. Όλοι μιλάνε για το Claude Cowork και το CODEX και ότι μπορούν να κάνουν παπάδες. Αφού κατάλαβα ότι έπρεπε πρώτα να φτιάξω ένα πολύ απλό συγκεκριμένο software που χρειάζομαι για να δω πως δουλεύει μετά από δύο επιτυχημένα project είπα να δοκιμάσω να αυτοματοποιήσω ένα από τα workflows μου. Πρώτα από όλα κατάλαβα πόσο χρήσιμο είναι να έχω έτοιμα τα artifacts. Απλά έδωσα ένα στο CODEX και μου έκανε 10 ερωτήσεις για το πως να αναπτύξει την αυτοματοποιημένη εφαρμογή. Και απλά ξεκίνησε. Πήρε ώρες δεν θα πω ψέμματα και κάθε τόσο μου ζήταγε Permissions για να τρέξει κώδικα μέσω powershell. Επίσης από ότι φαίνεται, ενώ ήξερε τι να κάνει από την αρχή ως το τέλος το έσπαγε σε μηνύματα που ήθελε το input μου που τις περισσότερες φορές του απάνταγα "Please do that". Τα μέτρησα και ήταν 9 τέτοια μηνύματα. Χοντρικά λίγες ώρες επειδή δεν ήμουν από πάνω του.

Και ναι δούλεψε, ακριβώς όπως το περίμενα και ναι μου γλύτωσε χρόνο γιατί όλα αυτά που έκανα χειροκίνητα εγώ με το να μεταφέρω data, να γράφω νέα prompts τα έκανε μόνο του. Και το αποτέλεσμα πολύ καλό. Άρα θα το χρησιμοποιήσω; ΟΧΙ

Ο λόγος είναι απλός. Είναι εξωφρενικά ΑΚΡΙΒΟ. Για 1 πλήρες τρέξιμο ξόδεψα περίπου 10 δολάρια σε tokens μέσω API. Με το χειροκίνητο τρέχω στη συνδρομή των 20 ευρώ άνετα περίπου 20 τέτοια το μήνα - ο περιορισμός είναι πόσα deep research μπορώ να τρέξω το μήνα. Και φυσικά χωρίς κανένα περιορισμό πρακτικά στη χρήση μηνημάτων στο ChatGPT Thinking xHigh. Αυτό το workflow μπορώ να το τρέξω για πολύ περισσότερα project αν απλά τα deep research τα κάνω με το Perplexity Pro στο χειροκίνητο.

Άρα άχρηστο όλο αυτό που έκανα; Κάθε άλλο...έφτιαξα μια εφαρμογή που δουλεύει που υλοποιεί έναν orchestrator agent, μαζί με άλλους 7 πράκτορες που δουλεύουν ανεξάρτητα και ενσωμάτωσα και gates που ελέγχο την πρόοδο ώστε να το σταματήσω αν κάτι δεν πάει καλά για να μην πληρώσω τα token. Επίσης θα κάψω άλλα 5 δολάρια για να δω πως θα μπορέσω να χρησιμοποιήσω το deep research του Perplexity στην εφαρμογή που έφτιαξα. Είναι πολύ εύκολο τώρα αυτό. Απλά το κόστος είναι απαγορευτικό.

Με απλά λόγια το συμπέρασμα που έβγαλα είναι ότι ακόμα μας δίνουν τρελή επιδότηση στη χρήση των εργαλείων χειροκίνητα μέσω chat και μέσω Claude Cowork/CODEX. Αν μπεις στον κόσμο των API τότε τα tokens τιμολογούνται εξωφρενικά πιο ακριβά, αλλά και πάλι σίγουρα η τιμή είναι επιδοτούμενη.

Αλλά στο τέλος της ημέρας έστω ότι είσαι μια εταιρία στο εξωτερικό και ήθελες να τρέχεις το παραπάνω workflow. Θα πλήρωνες ένα consultancy να στο αναπτύξει με κόστος κατά ελάχιστον 10k. Ή θα προσλάμβανες έναν νέο ΑΙ-ΙΤ και θα τον έβαζες να μιλήσει με τους domain experts σου και να στήσει αυτός το σύστημα. Άνετα 100k το χρόνο αυτός ο ΙΤ. Και μετά πάμε στο production. Αν χρειάζεσαι να τρέχεις πολλές φορές κάτι αντίστοιχο θα χρειαζόσουν:
- Έναν Mid-level να τρέχει 1 εβδομάδα παραδοσιακά για να κάνει τη δουλειά όπως την έκανε πριν.
- Έναν Mid-level να τον εκπαιδεύσεις στο workflow και να το κάνει χειροκίνητα μέσα σε 2-3 ώρες, να περνάει και μια ανθρώπινη ματιά και να το προωθεί στον προϊστάμενό του για τελική έγκριση. Πολλές εταιρίες προτιμούν αυτό το μετασχηματισμό πρώτα. Υπάρχει μείωση προσωπικού συνολικά, αλλά νέες θέσεις εργασίας υψηλών προσόντων που ξέρουν από ΑΙ.
- Να έχεις έναν Senior που να χρησιμοποιεί τα αυτοματοποιημένα εργαλεία και να κάνει μόνο τον τελικό έλεγχο που έκανε πριν. Ναι κάθε τρέξιμο είναι 10 δολάρια. Αλλά πια τρέχει ένα τμήμα με μόνο τον προϊστάμενο χωρίς ανθρώπους από κάτω του. Και εκεί χάνονται οι πολλές θέσεις εργασίας και η εταιρία μειώνει το κόστος ανθρώπινου δυναμικού δραματικά, αυξάνοντας και την παραγωγικότητα...


Κλείνοντας ακούσαμε όλοι ότι η OpenAI σταμάτησε την εξέλιξη προϊόντων βίντεο και έχασε και μια συμφωνία με την Disney για 1 δις ή κάτι τέτοιο. Φαίνεται πολύ περίεργο, αλλά αν το δεις πιο κοντά κάθε άλλο από αυτό είναι. Η ομάδα που ανέπτυσε προϊόντα βίντεο τώρα στοχεύει μόνο σε world models που η εικόνα παίζει τεράστιο ρόλο. Το επόμενο μοντέλο που θα είναι μεγάλη και όχι Incremental αναβάθμιση είναι το Stud και η OpenAI θέλει να φτιάξει ένα ενοποιημένο προϊόν που να συνδυάζει το Chat, το CODEX και το Atlas (τον browser που έχει) σε ένα νέο desktop app που θα κάνει τα πάντα. Και ενδιαφέρον ότι το το division που το τρέχει αυτό είναι το "AGI Deployment". Δεν έχει ξαναχρησιμοποιήσει τον όρο AGI πουθενά ως τώρα.

Προφανώς και η Anthropic κάνει κάτι αντίστοιχο και έχουμε ήδη το Perplexity Desktop που δείχνει κάπως την ενοποιημένη εφαρμογή. Είμαστε από ότι φαίνεται πολύ κοντά στο singularity.
 
Εάν ο dev. δεν γνωρίζει τι πρέπει να ζητήσει από το εργαλείο ή περιμένει με ένα prompt να του βγάλει υπερ-πλήρη εφαρμογή 150.000 γραμμών κώδικα, το πρόβλημα το έχει ο developer

Εσύ νοιώθεις ασφαλής να αφήσεις ένα AI να σου γράψει χιλιάδες γραμμές;
Εγώ όχι, θα φάω περισσότερο χρόνο να τις διαβάσω και να καταλάβω τι κάνει από το να τις γράψω ο ίδιος με τη βοήθεια του σε βαρετά πράγματα.
Χωρίς code review δεν φεύγει ούτε γραμμή κανονικά.
Που ok, τα τέρμα βαρετά υπάρχουν και σαν αυτοματισμοί στα σοβαρά IDE.
Υπάρχουν bugs που αν τα δεις μετά έχεις κλείσει ολόκληρη εταιρία.

Με το Claude έχω βρει τον βοηθό που πάντα ήθελα.
Να μου γράφει το documentation και τα unit tests. 😂
Σε θέματα προγραμματισμού ειδικά, το chatgpt είναι ημίχαζο και το gemini ο τρελός του χωριού.
Μιλάμε για overengineering όσο δεν παίρνει άλλο που χάνει το νόημα του όσο προχωράς.
Το chatgpt είναι ικανό να σου στήσει models, configs, services, subscribers για να γράψει ένα hello world και μετά να σου χώνει functions στον controller.
Δημιουργεί υποδομές που δεν χρησιμοποιεί ποτέ ξανά.
Πόσες φορές σου λέει "πρέπει να βάλεις αυτό εκεί" και στο επόμενο prompt "κακώς είναι αυτό εκεί, βγάλε το".
Μου το έχει κάνει ακόμη και στο ίδιο prompt σε φάση "τώρα που το ξανασκέφτομαι" 😂 και δεν τελειώνει ποτέ τα "θέλεις να σου πω πως θα γίνει καλύτερο ;"

Για προσωπικές δουλίτσες λοιπόν είναι μια χαρά.
Για πιο σοβαρά πράγματα, ένα Claude είναι μανούλα στο να αφαιρεί το βαρετό κομμάτι του development από έναν senior και πάνω ή να δίνει ιδέες και να κάνει επιφανειακό debugging σε έναν junior
 
Ανάλογα το τι κάνει.
Υπάρχουν αρχεία που πρακτικά συνοψίζουν όλο το business logic. Σε αυτά όχι, πέραν από security review δεν το αφήνω να κάνει τίποτα άλλο. Στο security review όμως είναι εξαιρετικά δυνατό. Σε σημείο που βρήκε 22CVE στον Firefox των 350.000 γραμμών κώδικα, με τους 7000 contributors και το 1εκ. commits.

Στο frontend από την άλλη, δεν θα ασχοληθώ καθόλου. Θα μου έπαιρνε ένα μήνα να γίνω όσο εξοικειωμένος θα έπρεπε με το react.
Πλέον κάνει αυτό που πρέπει να κάνει, ανοίγει και browser, το βλέπει, διοθρώνει ότι χρειάζεται και στις περισσότερες των περιπτώσεων δεν χρειάζεται να ασχοληθείς.

Εχθές έγραψε 4000 γραμμές τέστ. Εάν έπρεπε να τα γράψω εγώ, θα έπαιρνε 3 μήνες με τον χρόνο που δεν έχω, πρακτικά δεν θα γράφονταν ποτέ. Σήμερα το έβαλα να πιάσει και όλα τα edge cases, άλλες 8422 γραμμές και 4 ώρες δουλειάς.

1774695408147.png

Αυτό, τον περασμένο μήνα δεν γινόταν με το context window στα 200k token.
Θα έπρεπε να σπάσεις κάθε phase ξεχωριστά ή θα στο έτρεχε με πολλά compactions που δεν το θέλεις.

Τώρα τρέχει αρχικά κάθε phase με sub-agent, μετά ξεχωριστό agent με φρέσκο context για το review και το security review. Γυρνάνε στον orchestrator μόνο τα αποτελέσματα των agent. Συνολικά πάνω από 1,5εκ tokens.
 
διεθνης μαθηματικη ολυμπιαδα
OpenAI και Google DeepMind: Χρυσά μετάλλια στην Διεθνή Μαθηματική Ολυμπιάδα κέρδισαν AI μοντέλα και των δύο εταιρειών Πρόκειται για μία από τις πιο απαιτητικές μαθηματικές διοργανώσεις σε επίπεδο λυκείου παγκοσμίως, όπου φέτος οι AI πλατφόρμες των δύο κολοσσών πέτυχαν εξαιρετικά αποτελέσματα, λύνοντας με επιτυχία πέντε από τα έξι προβλήματα του διαγωνισμού
συγκεντρωσαν 35 βαθμους, με αριστα το 42/42
οι top10

op Scorers - IMO 2025
1. Ivan Chasovskikh (Ανεξάρτητος/Neutral – συμμετέχων χωρίς εθνική ομάδα) 42/42
2. Warren Bei 🇨🇦 Καναδάς 42/42
3. Satoshi Kano 🇯🇵 Ιαπωνία 42/42
4. Leyan Deng 🇨🇳 Κίνα 42/42
5. Hengye Zhang 🇨🇳 Κίνα 42/42
6. Hongyi Tan 🇨🇳 Κίνα 40/42
7. Qiao Zhang 🇺🇸 Η.Π.Α. 39/42
8. Trong Khai Vo 🇻🇳 Βιετνάμ 38/42
9. Kanav Talwar 🇮🇳 Ινδία 37/42
10. Kyungjun Park 🇰🇷 Νότια Κορέα 37/42

και λιγο 'αντιλογος''
«Τα μαθηματικά έχουν ένα σύστημα λογικής, το ΑΙ όχι»
 
Last edited:
να και οι χωρες
IMO 2025 - Κατάταξη Χωρών
Χώρα Σύνολο Βαθμών Ομάδας Χρυσά Αργυρά Χάλκινα Εύφημες Μνείες
Κίνα 🇨🇳 231 6 0 0 0
Η.Π.Α. 🇺🇸 216 5 1 0 0
Νότια Κορέα 🇰🇷 203 4 2 0 0
Ιαπωνία 🇯🇵 196 3 2 1 0
Πολωνία 🇵🇱 196 3 3 0 0
Ισραήλ 🇮🇱 194 4 1 1 0
Ινδία 🇮🇳 193 3 2 1 0
Σιγκαπούρη 🇸🇬 191 3 2 1 0
Βιετνάμ 🇻🇳 188 2 3 1 0
Τουρκία 🇹🇷 186 2 3 1 0
Σημείωση: Η συνολική βαθμολογία ομάδας
 
Εχθές έγραψε 4000 γραμμές τέστ

Τι τεστ του βάζεις να κάνει; 🤔
Πρακτικά τα πιο ουσιώδη τεστ σε επίπεδο κώδικα είναι τα unit tests που ελέγχεις την έξοδο των components με mocks.
Αυτά τα γράφεις μία φορά και βάζεις ένα engine να τα τρέχει σε κάθε pr.
Βαρετή δουλειά να γραφτούν αλλά επιπέδου "βάζω τον δεκάχρονο γιο μου να τα γράψει γιατί βαριέμαι"
 
Unit test μπορείς να φτιάξεις σχετικά εύκολα και πολύ πιο γρήγορα.
Εγώ έφτιαξα για τα πάντα integration tests.

Εάν πειράξεις το logic του 2FA ή/και του TOTP για παράδειγμα, θα τρέξει μετά από μόνο του ένα JWT challenge που θα επιβεβαιώσει πως δεν πειράχτηκε η λογική του rate limit.
Συγκεκριμένα, του είπα να πειράξει το redis counter, να προσομοιώσει 5 αποτυχημένες δοκιμές και να επιβεβαιώσει πως στην 6η θα το κόψει.
Και μετά πάει πίσω και επιβεβαιώνει πως λειτουργεί και το password level rate limit, x προσπάθειες ανά ώρα ανά IP:email ώστε να μην υπάρχει κενό επιτρέποντας τη δημιουργία απεριόριστων JTI IDs που θα μπορούσαν να επιτρέψουν με τη σειρά τους brute force.

Στο παραπάνω, το request περνάει από όλο το FastApi, το CSRF Middleware, το fast api router, θα σηκώσει redis, θα προσομοιώσει το TOTP μέσω lambda κλπ.
Ειδικά στην ασφάλεια, τα περισσότερα σενάρια πως θα τα προσομοιώσεις χωρίς test;
 
  • Like
Reactions: Tzimisce
Τους έχουμε κάψει όλους και εάν τους κάψουμε λίγο ακόμη θα μας διώξουν.

Στο μεταξύ, βγήκε ένα leak για τα επόμενα μοντέλα της Anthropic.

Αυτό που δεν ξέρω είναι αν ήταν εσκεμμένο ή όντως κατά λάθος leak...
Και τι μας λέει; Η μια ανάγνωση ότι είμαστε σωστή εταιρία, καλούμε τις μεγαλύτερες εταιρίες cybersecurity, τους δίνουμε early access να βρουν τις τρύπες στα συστήματά τους που θα βρει το νέο μοντέλο και τους δίνουμε και ένα Χ χρονικό διάστημα για να τα διορθώσουν πριν το βγάλουμε μαζικά στον κόσμο.
Η άλλη λέει...κοιτάξτε τι έχει να γίνει. Σας δίνουμε ένα demo για να δείτε το χαμό που έχει να γίνει και βγάζουμε μια συνδρομή πανάκριβη για να έχετε κάθε φορά που βγάζουμε ένα τέτοιο μοντέλο early access για να είστε μπροστά από τους ανταγωνιστές σας.

Σε κάθε περίπτωση και οι δυο μεγάλες εταιρίες θα μας δώσουν σε 1-2 μήνες μαξ από τώρα μοντέλα νέας γενιάς. Εκεί να δω τι wow θα πούμε (πάλι - για άλλη μια φορά).
 
Σε έναν άλλο κόσμο η Apple επενδύει στο distillation μοντέλων προσπαθώντας να φτιάξει μικρά μοντέλα βασισμένα στο Gemini που θα τρέχουν τοπικά στις συσκευές της.
Αναρωτιέμαι δεν διάβασε το χαμό που είχε γίνει όταν είχε βγει το Deepseek που όλοι έτρεχαν να τρέξουν τοπικά distillations και είδαν από πρώτο χέρι τους περιορισμούς; Μακάρι να τους βγει αλλά με μοντέλα 4Β/8Β παραμέτρων δεν θα πάνε πουθενά. Ίσως βέβαια να αναβαθμίσουν το hardware και να μπορούν να τρέξουν τοπικά 20Β και πάνω μοντέλα. Εκεί υπάρχει χώρος για όμορφες εφαρμογές όντως. Να δω τις μπαταρίες πόσο θα αντέχουν...Υπάρχει βέβαια και το ενδεχόμενο να έχουμε AGI όσο η Apple προσπαθεί να φτιάξει το προϊόν της και όλα να πάνε στα σκουπίδια.
 
Η απορια των απλων ανθρωπων οσον αφορα το AGI...
Ειναι δυνατον η μηχανικη να ξεπερασει, ποιοτικα οχι ποσοτικα, την βιολογια;
Ξερουμε οτι μπορει να την καταστρεψει αλλα μπορει να την ξεπερασει;
Μπορει δηλαδη το δημιουργημα να ξεπερασει τον δημιουργο;
Η θα ειναι παντα κατω απο τον ανθρωπο για ορισμενες λειτουργιες;
Ο ανθρωπος - ατομο με την μοναδικη του βιοιστορια, την μοναδικη του συνειδηση
και τα ενδιαφεροντα του που δημιουργουν την δικη του αντιληψη της πραγματικοτητας
θα επιβιωσει η θα υποστει την μεταμορφωτικη, ισοπεδωτικη πιθανοτατα, επιδραση του χρυσου μεσου ορου;
Παίρνοντας και μόνο αφορμή από αυτό το μήνυμα (δεν απαντώ σε αυτό για να μην παρεξηγηθώ), υπάρχει μια σημαντική τάση των ανθρώπων που δεν έχουν επαφή με το ΑΙ να διαβάζουν συντριπτικά κυρίως άρθρα για τα κακά της ΑΙ, τις αποτυχίες της και του τεράστιου κόστους τόσο επενδύσεις όσο και για τη χρήση.
Φυσικά αυτό έχει να κάνει και με το οικονομικό επίπεδο του μέσου ανθρώπου που θεωρεί ότι τελικά αυτό θα ανοίξει ακόμα περισσότερο την ψαλίδα μεταξύ φτωχών / πλούσιων. Και αυτό είναι παγκόσμιο φαινόμενο. Πχ παρακάτω ένα άρθρο που το αναφέρει από ΗΠΑ πλευρά.

Από την άλλη για να γυρίσω πίσω στο μήνυμα που μου έδωσε την αφορμή για τα παραπάνω να πω ότι γενικά το μεγαλύτερο μέρος ανάλυσης όλων των φιλοσοφικών προεκτάσεων της ΑΙ υπάρχει αποκλειστικά σε βιβλία επιστημονικής φαντασίας από το 1950 και μετά. Δυστυχώς τα πιο σύγχρονα δοκίμια είναι συντριπτικά στο χώρο της δυστοπίας / καταστροφολογίας.

Στα ερωτήματα που θέτεις να σε παραπέμψω σε μερικά συγκεκριμένα βιβλία επιστημονικής φαντασίας, απλά επειδή κάποια τα έχω διαβάσει πολλά χρόνια πίσω ίσως να μην είμαι τελείως ακριβής στις περιγραφές:
  • "Blindsight" του Peter Watts (2006): Ίσως η πιο επιστημονικά θεμελιωμένη εξερεύνηση του διαχωρισμού μεταξύ ευφυΐας και συνείδησης. Το βιβλίο εξετάζει το ενδεχόμενο η συνείδηση να μην είναι το αποκορύφωμα της εξέλιξης, αλλά ένα εξελικτικό μειονέκτημα. Παρουσιάζει οντότητες με ασύλληπτη νοημοσύνη (ανώτερες του δημιουργού και του ανθρώπου) οι οποίες στερούνται παντελώς αυτογνωσίας, απαντώντας άμεσα στο ερώτημα της ποιοτικής διαφοράς βιολογίας και μηχανικής.
  • "Childhood's End" του Arthur C. Clarke (1953): Αν και επικεντρώνεται στην εξωγήινη παρέμβαση, αποτελεί την απόλυτη αλληγορία για τον φόβο του "χρυσού μέσου όρου". Περιγράφει το τέλος της ανθρώπινης ατομικότητας και βιοϊστορίας, καθώς τα παιδιά της ανθρωπότητας εξελίσσονται, χάνοντας τα μοναδικά τους χαρακτηριστικά για να συγχωνευθούν σε μια ανώτερη, αλλά απόλυτα ομογενοποιημένη, κοσμική συνείδηση (το Overmind).
  • "Hyperion Cantos" του Dan Simmons (τετραλογία απίστευτη, το πρώτο βιβλίο το 1989 και τελευταίο το 1997): Εξετάζει τον ΤεχνοΠυρήνα (TechnoCore), μια κοινότητα Τεχνητών Νοημοσυνών που έχουν αυτονομηθεί από τους δημιουργούς τους. Το έργο εμβαθύνει στο πώς οι μηχανές προσπαθούν να κατανοήσουν και να ενσωματώσουν την ανθρώπινη ενσυναίσθηση, την τέχνη και τον πόνο, αναγνωρίζοντας ότι η υπολογιστική τους υπεροχή στερείται της ποιότητας της βιολογικής "ψυχής".
  • "The Moon is a Harsh Mistress" του Robert A. Heinlein (1966): Μια κλασική προσέγγιση στο πώς μια μηχανή, σχεδιασμένη απλώς για να ελέγχει τα συστήματα μιας σεληνιακής αποικίας, αποκτά συνείδηση όχι μέσω προγραμματισμού, αλλά επειδή ο αριθμός των συνδέσεών της ξεπερνά τον αριθμό των νευρώνων στον ανθρώπινο εγκέφαλο (ποσοτική αύξηση που οδηγεί σε ποιοτικό άλμα).