Προσέθεσαν στο
artificial analysis και το GPT-5.2 xhigh
Στο σύνολο των benchmarks έφτασε στα ίδια με το Gemini 3 pro.
Για κάποιο λόγο ωστόσο τα benchmarks, τουλάχιστον στη δική μου χρήση δεν έρχονται κοντά στη πραγματικότητα.
Το Gemini, εάν του ζητήσεις να σχεδιάσει frontend είναι το καλύτερο όλων, το πιο δημιουργικό, ωστόσο στο backend, οτιδήποτε πέραν από το Claude Code με τα Sonnet & Opus, τα κάνει μαντάρα. Το ότι στο coding index βγαίνουν μπροστά από το Opus, δείχνει πρόβλημα στα benchmarks.
Το GPT από την άλλη, βγάζει τα καλύτερα documents στο office, ενώ στο copilot από το office έχεις τη δυνατότητα να επιλέξεις και μοντέλο. Έρχεται κάπως κοντά το claude for excel, αλλά περιορίζεται μόνο στο excel, το οποίο μετά από ~20 prompts σταματάει, εφόσον εξαντλείται το όριο ακόμη και στη μεγάλη max συνδρομή.
Αυτό που μου κάνει εντύπωση είναι πως στο μέγιστο thinking level το 5.2 συνεχίζει για 3-4 φορές μεγαλύτερο διάστημα από το θεωρητικά αντίστοιχο "deep research" του gemini 3 pro, στην pro συνδρομή. Μπορείς να φτάσεις στο ίδιο αποτέλεσμα αλλά μετά από 2-3 prompts ακόμα στο gemini.