Κληρώνει σήμερα η ΑΑΔΕ!

Λογικό αυτό που λες από την άλλη όμως πως μπορείς να πέσεις περίπου 170 τάξεις μεγέθους έξω;

Το Πιθ.ΝΑΙ/ΟΧΙ το έχασα πως το υπολόγισες, θέλει μάλλον να το ξαναδώ. Το ακριβές πάντως για να βρεις για ένα ΑΦΜ στη ζώνη 1 την Πιθ.ΟΧΙ είναι P(0 νικών ΑΦΜ σε ζώνη 1)=(P μη νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 1)*(P μη νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 2)*(P μη νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 2)*...
Όπου (P μη νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 1)=1-P(νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 1)=1-(Αρχικοί Λαχνοί Ζώνης 1)/(Σύνολο Αρχικών Λαχνών)/(Σύνολο Αρχικών ΑΦΜ Ζώνης 1)
και (P μη νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 2)=1-P(νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 2)=P(νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 2 | κέρδισε ζώνη 1 στην κλήρωση 1)*P(κέρδισε ζώνη 1 στην κλήρωση 1) + ... + P(νίκης ΑΦΜ σε ζώνη 1 στη κλήρωση 2 | κέρδισε ζώνη 5 στην κλήρωση 1)*P(κέρδισε ζώνη 5 στην κλήρωση 1)
Πρέπει δηλαδή να εξετάσεις 5 ενδεχόμενα, αν κέρδισε ΑΦΜ από τη ζώνη 1 ή 2 ή 3 ή 4 ή 5 στην 1η κλήρωση και να βρεις την πιθανότητα κάθε ενός από αυτά τα 5 ενδεχόμενα. Και μετά να υπολογίσεις τους λαχνούς στη δεύτερη κλήρωση για κάθε ένα από τα 5 ενδεχόμενα για να βγάλεις τη δεσμευμένη πιθανότητα νίκης.
κ.ο.κ., στην 3η κλήρωση γίνονται 25 τα ενδεχόμενα. Μπλέκει το πράγμα.

Αν αρχίσεις τώρα που λες να υποθέτεις και διαφοροποιήσεις μεταξύ των μηνών δεν θα το λύσεις ποτέ. Είναι σαν να πας να λύσεις το παράδοξο των γενεθλίων μη υποθέτοντας ομοιόμορφη κατανομη των γενεθλίων. Βασικά είναι ακόμα πιο δύσκολο.

Πως μπορείς να ανεβάσεις το Excel; Αν μου πεις τον τρόπο ανεβάζω και τη σελίδα html με τη javascript αν θες. Πάντως δεν νομίζω να ξοδέψω πολύ περισσότερο χρόνο για το θέμα, αρχίζει αντί για πρόβλημα με έξυπνη και κομψή λύση να ζητάει αρκετή χαμαλοδουλειά.
 
Δεν ξαναέτρεξα την σειρά *(1-1/4.500.000)*(1-1/4.999.999) αλλά χρησιμοποίησα την απλοποιημένη μορφή 1000*("λαχνοί/ΑΦΜ")/"Λαχνοί". Επειδή βρήκα οτι ελάχιστα διαφέρει απο το τρέξιμο της σειράς (λογικό καθώς ο δειγματικός χώρος είναι πολύ μεγαλύτερος απο τα "τραβήγματα")

ΟΚ τώρα το κατάλαβα. Λογική απλοποίηση. Δειγματικός χώρος :2thumb22sup: Γυρνάμε πίσω...
 
OK .. καλά που το έγραψες οτι το κατάλαβες και "εγκρίνεις" .. γιατί ξανάρχιζα να σκαλίζω .. αν πάρω και άλλο ενα ΟΚ .. τέλος .. δεν το ξαναπειράζω. ;) ..

Το έφερα βαρέως στην αρχή που έστηνα το spreadsheet γιατί δεν είναι ακριβές 100% .. αλλά τεστάρισα διαφορές και βγαίνουν ασήμαντες .. οπότε επειδή στο excel είχα μια στήλη με 1000 πολλαπλασιασμούς για να βγει η σειρά και αν το έκανα Χ5 θα άρχιζε να τα φτυνει .. το παράβλεψα ..
 
Βέβαια αν υποθέσουμε ότι υπάρχουν κάποια ΑΦΜ με πάρα πολλούς λαχνούς, τότε αν κερδίσουν αυτα μία φορά και αφαιρεθούν οι λαχνοί τους αλλάζει σημαντικά ο δειγματικός χώρος. Όπως τα έχεις βάλει όμως και όλοι οι υπερπλούσιοι να κερδίσουν θα φύγει μόνο το 1% των λαχνών από τη μέση. Οπότε με την κατανομή που έκανες είναι δεκτή η απλοποίηση, αν όμως οι υπερπλούσιοι είχαν το 10% των λαχνών δεν θα ίσχυε.
 
Και μην ξεχνάμε, το γεγονός ότι η αναμενόμενη τιμή των διπλών νικητών (με ομοιόμορφη κατανομή λαχνών σε 4.500.000 ΑΦΜ) είναι 12,198 δεν σημαίνει ότι θα έχουμε σχεδόν σίγουρα 11, 12, 13 διπλούς νικητές και κάθε άλλη τιμή πρέπει να θεωρείται εξαιρετικά απίθανη. Π.χ. δημιούργησα με τη javascript 100 δείγματα, δηλαδή έκανα 100 σετ 11 κληρώσεων. Οι 100 τιμές των διπλών νικητών σε κάθε δείγμα ήταν:

5,5,6,6,6,6,7,7,7,7,8,8,8,9,9,9,9,9,9,9,10,10,10,10,10,10,10,10,10,10,10,10,10,11,11,11,11,11,11,11,11,11,12,12,12,12,12,12,12,12,12,12,12,12,12,12,12,13,13,13,13,13,13,13,13,14,14,14,14,14,14,14,14,14,15,15,15,15,15,15,15,15,16,16,16,16,16,17,17,17,17,17,17,18,18,19,19,19,19,22

Ομαδοποιημένα έχουμε:
5 --> 2 φορές
6 --> 4 φορές
7 --> 4 φορές
8 --> 3 φορές
9 --> 7 φορές
10 --> 13 φορές
11 --> 9 φορές
12 --> 15 φορές
13 --> 8 φορές
14 --> 9 φορές
15 --> 8 φορές
16 --> 5 φορές
17 --> 6 φορές
18 --> 2 φορές
19 --> 4 φορές
22 --> 1 φορές
 
Έτρεξα ένα μοντέλο με ισοκατανομή λαχνών σε 450.000 ΑΦΜ. Ο αναμενόμενος αριθμός ΑΦΜ με 3 επιτυχίες με βάση τις πιθανότητες είναι 0,8004. Σε 10.000 δείγματα είχα την εξής συχνότητα εμφάνισης τριπλονικητών:
0 --> 4420 φορές
1 --> 3659 φορές
2 --> 1435 φορές
3 --> 390 φορές
4 --> 77 φορές
5 --> 17 φορές
6 --> 2 φορές

Δηλαδή ακόμα και με αναμενόμενη τιμή τριπλονικητών 0,8 στο 0,96% περίπου των περιπτώσεων έχουμε 4 ή παραπάνω τριπλονικητές.

Αν τώρα αλλάξουμε το μοντέλο σε ισοκατανομή λαχνών σε 300.000 ΑΦΜ, ο αναμενόμενος αριθμός τριπλονικητών είναι 1,785. Σε 10.000 δείγματα είχα την εξής συχνότητα εμφάνισης τριπλονικητών:
0 --> 1707 φορές
1 --> 3034 φορές
2 --> 2685 φορές
3 --> 1543 φορές
4 --> 664 φορές
5 --> 272 φορές
6 --> 72 φορές
7 --> 19 φορές
8 --> 4 φορές

Δηλαδή με αναμενόμενη τιμή τριπλονικητών 1,785 στο 10,31% των περιπτώσεων είχαμε 4 ή παραπάνω τριπλονικητές.

Συνοψίζοντας τα αποτελέσματα για τους τριπλονικητές:
Αναμενόμενη τιμή 0,8004 , Συχνότητα 4 ή παραπάνω τριπλονικητών 0,96%
Αναμενόμενη τιμή 1,785 , Συχνότητα 4 ή παραπάνω τριπλονικητών 10,31%

Οπότε στο Excel σου Ηλία μην ψάχνεις με το ζόρι να βρεις κατανομή εισοδημάτων που βγάζει αναμενόμενη τιμή 4 για τους τριπλονικητές. Και με πολύ μικρότερη αναμενόμενη τιμή, φαίνεται ότι δεν είναι εξαιρετικά απίθανο να έχουμε 4 ή παραπάνω τριπλονικητές.
Νομίζω ότι ειδικά για μικρούς φυσικούς αριθμούς υπάρχει μεγαλύτερη διασπορά ως ποσοστό της μέσης τιμής από ότι για μεγαλύτερους. Π.χ. αν με μέση τιμή 1 έχουμε δείγμα 2 μιλάμε για τιμή διπλάσια της κανονικής, ενώ αν αντί με μέση τιμή 40 έχουμε δείγμα 41 η απόκλιση είναι πολύ μικρή ως ποσοστό.
 
Last edited:
Tώρα με έπιασε μια περιέργεια για το τι θα γίνει, αν στην κλήρωση που έρχεται, δεν βγεί κανένας διπλο- ή τριπλο- νικητής... :)))
 
ρε'σεις,δε σταματατε επιτελους με τα στατιστικα;
Μας εχετε τρελανει!
Θυμασαι σε μια κοπη πιτας του avclub που κληρωθηκε 5 φορες το ονομα μου στα δωρα. ?
Εφταιγε ο kblachos επειδη ειχε βαλει μια βλαμμενη τυχαια γεννητρια αριθμων στο ipad. :D

Κοιτα να δεις που και εδω μπορει να χρησιμοποιησαν καμια γεννητρια την πρωτη που θα βρηκαν μπροστα τους στο ιντερνετ και τσαμπα σκοτωνονται τωρα εδω με αναλυσεις και συνομωσιες.:D
 
Έτρεξα ένα μοντέλο με ισοκατανομή λαχνών σε 450.000 ΑΦΜ. Ο αναμενόμενος αριθμός ΑΦΜ με 3 επιτυχίες με βάση τις πιθανότητες είναι 0,8004. Σε 10.000 δείγματα είχα την εξής συχνότητα εμφάνισης τριπλονικητών:
0 --> 4420 φορές
1 --> 3659 φορές
2 --> 1435 φορές
3 --> 390 φορές
4 --> 77 φορές
5 --> 17 φορές
6 --> 2 φορές
Δηλαδή ακόμα και με αναμενόμενη τιμή τριπλονικητών 0,8 στο 0,96% περίπου των περιπτώσεων έχουμε 4 ή παραπάνω τριπλονικητές.
Αν τώρα αλλάξουμε το μοντέλο σε ισοκατανομή λαχνών σε 300.000 ΑΦΜ, ο αναμενόμενος αριθμός τριπλονικητών είναι 1,785. Σε 10.000 δείγματα είχα την εξής συχνότητα εμφάνισης τριπλονικητών:
0 --> 1707 φορές
1 --> 3034 φορές
2 --> 2685 φορές
3 --> 1543 φορές
4 --> 664 φορές
5 --> 272 φορές
6 --> 72 φορές
7 --> 19 φορές
8 --> 4 φορές
Δηλαδή με αναμενόμενη τιμή τριπλονικητών 1,785 στο 10,31% των περιπτώσεων είχαμε 4 ή παραπάνω τριπλονικητές.
Συνοψίζοντας τα αποτελέσματα για τους τριπλονικητές:
Αναμενόμενη τιμή 0,8004 , Συχνότητα 4 ή παραπάνω τριπλονικητών 0,96%
Αναμενόμενη τιμή 1,785 , Συχνότητα 4 ή παραπάνω τριπλονικητών 10,31%

Οπότε στο Excel σου Ηλία μην ψάχνεις με το ζόρι να βρεις κατανομή εισοδημάτων που βγάζει αναμενόμενη τιμή 4 για τους τριπλονικητές. Και με πολύ μικρότερη αναμενόμενη τιμή, φαίνεται ότι δεν είναι εξαιρετικά απίθανο να έχουμε 4 ή παραπάνω τριπλονικητές.
Νομίζω ότι ειδικά για μικρούς φυσικούς αριθμούς υπάρχει μεγαλύτερη διασπορά ως ποσοστό της μέσης τιμής από ότι για μεγαλύτερους. Π.χ. αν με μέση τιμή 1 έχουμε δείγμα 2 μιλάμε για τιμή διπλάσια της κανονικής, ενώ αν αντί με μέση τιμή 40 έχουμε δείγμα 41 η απόκλιση είναι πολύ μικρή ως ποσοστό.

Ωραίος και πάλι ..

Δεν είχα σκοπό να ταυτίσω το excel με τα αποτελέσματα της ΑΑΔΕ .. όπως ήδη έχω γράψει το να έφτανα σε διαφορά μικρότερη της τάξης μεγέθους μου έφτανε .. (αλλά το 0,008 έιναι 2 τάξεις μεγέθους) απλά το τέντωσα λιγο κυρίως για να φανεί ή επήρρεια των "πλούσιων ΑΦΜ".

Δες λίγο μηπως κατι δεν πάει καλά σε αυτές τις εξομοιώσεις .. π.χ.
- στην 1η βγήκαν πολύ περισσότερα μηδενικά απο το αναμενόμενο και
- στην δεύτερη πάλι το ίδιο πολύ περισσότερα στο αμέσως μικρότερο απο το αναμενόμενο (1) και λιγότερα στο κοντινό του αναμενόμενου 2
Επειδή και στις 2 περιπτώσεις έχουμε ικανοποιητικές επαναλήψεις (10000 !!) και ίδια συμπεριφορά κατι συστηματικό συμβαίνει ..
Αν και μάλλον είναι κατι απλό .. "truncation" .. δηλ. ουσιαστικά το πλήθος στο 1 αφορά το πλήθος στο 1,5 και το πλήθος στο 2 το 2,5 οπότε το 1,785 έχει 0,285 απόσταση απο το κοντινότερο μικρότερο και 0,715 απο το μεγαλύτερο ;)

Εχεις βάλει στο λογαριασμό και τα >3πλονικητών ?.

Ενδιαφέρον θα είχε να μετρήσουμε την τυπική απόκλιση .. λογικά φαίνεται σαν κανονική (gauss) ή ίσως poisson .. απλά θα χρειαστεί μια δοκιμή με μεγάλο προδοκώμενο ώστε να μην κλιπάρει στο μηδέν. Αν είναι όντως gauss/poisson θα μπορούμε να πούμε οτι η τυπική απόκλιση είναι sqrt(N)

Αν μπορείς να ανεβάσεις το σκριπτ να παίξω και εγώ .. θα χρειαστώ και οδηγίες .. δεν έχω ιδέα τι θα χρειαστεί για να το δουλέψω ..
 
:flipout:


DDjm7YPXkAAv5Ra.jpg:large
 
@Γιαρίμης Ηλίας
Ανέβασα τη σελίδα. Μετονόμασε το αρχείο από «aade-draw-calculator.doc» σε «aade-draw-calculator.html». Η σελίδα χρησιμοποιεί τις παρακάτω παραμέτρους υποθέτοντας ίδιες πιθανότητες νίκης για κάθε συμμετέχοντα. Έχει σχόλια στα αγγλικά και νομίζω ότι δεν διαβάζεται πολύ δύσκολα. Ξεκίνησε με χαμηλό numberOfSamples μην κολλήσει το PC. Σε εμένα με Firefox πήγαινε πιο γρήγορα.

var numberOfDraws=11;
var numberOfWinnersPerDraw=1000;
var numberOfParticipantsPerDraw=4500000;
var numberOfSamples=100;

Εγώ προσπαθούσα να βρω την πιθανότητα να έχουμε 4 ή παραπάνω νικητές με 3 ή παραπάνω επιτυχίες. Εσύ ξεκόλλησες την προσπάθεια αποφασίζοντας να βρεις την αναμενόμενη τιμή των 4 τριπλονικητών. Έτσι όμως παραλίγο να ξεχάσουμε ότι μιλάμε για τυχαία μεταβλητή. Και εκτός από την αναμενόμενη (μέση) τιμή έχει σημασία και η διακύμανση (variance).

Για να μη μας κράξουν :violent-smiley-030: όσοι σκαμπάζουν από μαθηματικά (βλ. chrisssb) να ξεκαθαρίσω ότι το παράδειγμα κατανομής που βγάζει η html σελίδα διαφέρει από αυτό της ΑΑΔΕ καθώς εκεί δεν υπάρχει ισοκατανομη λαχνών. Μας δίνει ωστόσο μια ιδέα.
Παρεμπιπτόντως η ερώτηση που έκαναν ΔΗ.ΣΥ.-Ποτάμι «Να μας γνωρίσετε με βάση το σύστημα ηλεκτρονικής κληρωτίδας που χρησιμοποιήθηκε, ποιες είναι οι πιθανότητες ύπαρξης πολλαπλών πολυνικητών. Συγκεκριμένα να μας γνωρίσετε ποιες οι πιθανότητες ύπαρξης 4 νικητών με 3 νίκες σε 11 κληρώσεις και ποιες είναι οι πιθανότητες ύπαρξης 29 νικητών με 2 νίκες σε 11 κληρώσεις» έχει διαφορετική απάντηση ανάλογα με το για ποιες 11 κληρώσεις μιλάμε, καθώς κάθε μήνας έχει διαφορετική κατανομή λαχνών. Ακόμα και αν έχουμε όλα τα στοιχεία για την κατανομή λαχνών τους συγκεκριμένους 11 μήνες, η ζητούμενη πιθανότητα είναι πρακτικά αδύνατον να βρεθεί με μαθηματικούς υπολογισμούς. Μόνο με εξομοίωση μπορεί να βρεθεί προσεγγιστικά, επαναλαμβάνοντας τις 11 κληρώσεις πολλές φορές με ακριβώς την ίδια κατανομή λαχνών, μέχρι να αρχίσει να συγκλίνει η πιθανότητα. Μόνο το Ποτάμι και ο Τσακ Νόρις μπορούν να υπολογίσουν αυτή την πιθανότητα! :flipout:

Δες λίγο μηπως κατι δεν πάει καλά σε αυτές τις εξομοιώσεις .. π.χ.
- στην 1η βγήκαν πολύ περισσότερα μηδενικά απο το αναμενόμενο και
- στην δεύτερη πάλι το ίδιο πολύ περισσότερα στο αμέσως μικρότερο απο το αναμενόμενο (1) και λιγότερα στο κοντινό του αναμενόμενου 2
Πως ξέρουμε τον αναμενόμενο αριθμό μηδενικής εμφάνισης τριπλονικητών σε 10.000 δείγματα; Με βάση τη θεωρία των πιθανότητων έχουμε στοιχεία μόνο για τη μέση τιμή, όχι για τη διακύμανση.
 

Attachments

Για δες και τη νέα έκδοση που βγάζει και την τυπική απόκλιση.

Για ποιες τιμές numberOfParticipantsPerDraw και numberOfSamples γέρνει προς τα αριστερά; Ποιο νούμερο εξέτασες τους διπλονικητές, τριπλονικητές;

Τι χρόνο εκτέλεσης έχεις; Εγώ:
Samples: 100000
Participants per Draw: 4500000
Execution time: 616.2245600000001 seconds
 

Attachments

Αφού τώρα η σελίδα html υπολογίζει και την τυπική απόκλιση, έτρεξα δύο μετρήσεις με 100.000 δείγματα. Στην πρώτη είχαμε 4.500.000 συμμετέχοντες σε κάθε κλήρωση και μέση τιμή διπλονικητών 12,2 με τυπική απόκλιση 3,5. Στη δεύτερη 450.000 συμμετέχοντες σε κάθε κλήρωση και μέση τιμή διπλονικητών 119,8 με τυπική απόκλιση 10,7.
Έφτιαξα και στο Excel 100.000 δείγματα κανονικής κατανομή με αντίστοιχη μέση τιμή και τυπική απόκλιση. Έκανα τις γραφικές παραστάσεις και τελικά η κατανομή των διπλονικητών μοιάζει πολύ με την κανονική.
Το Excel στην πρώτη περίπτωση με μέση τιμή 12,2 μου έβγαλε και 18 αρνητικές τιμές στις 100.000 τις οποίες τις έκανα 0. Αντίστοιχα στην δεύτερη περίπτωση μου έβγαλε 3 τιμές 18 τις οποίες έκανα 75.

VZvV4dG.png




bcgO5Mi.png

Οπότε φαίνεται να είναι κοντά στην κανονική η κατανομή των διπλονικητών. Άραγε μάλλον και γενικότερα των πολλαπλών νικητών.
 
Εξοχος !! .. ήθελα να το ζητήσω αλλά με πρόλαβες :)

Αυτό περίμενα .. να μοιάζει με κανονική κατανομή (το είχα αναφέρει προχτές) .. τσέκαρα και εγώ το πρωί στους διπλονικητές πρόχειρα .. με μέση τιμή 16 μου έβγαζε stdev περίπου 4 = sqrt(16) .. αρα κανονική .. αλλά νομίζω στους μονούς νικητές δεν είναι έτσι ..

EDIT μόλις βγηκε το πρώτο αποτέλεσμα με την νεα version
Code:
Samples: 20000
Participants per Draw: 450000
Execution time: 207.23594 seconds
Average winners with 1 victories: 10758.2597    Standard deviation of winners with 1 victories: 21.676384751844534 .. sqrt(10758.2597) = 103,72 .. δεν ταιριάζει με κανονική .. τι να φταίει .. πέφτουμε σε περίπτωση bivariant ?.
Average winners with 2 victories: 119.6521      Standard deviation of winners with 2 victories: 10.767175376578697 .. sqrt(119.6521) = 10.93 .. καλό ματσάρισμα
Average winners with 3 victories: 0.80655       Standard deviation of winners with 3 victories: 0.8977901188474341 .. sqrt(0.80655) = 0.898 .. ακόμα καλύτερο ματσάρισμα !!
Average winners with 4 victories: 0.00405       Standard deviation of winners with 4 victories: 0.06351060934992867

Πάντως η καμπύλη δείχνει να είναι Poisson .. διότι έχει ελαφρα κλίση αριστερα στις μικρές τιμές ενω σε ψηλότερες ταιριάζει καλύτερα με την κανονική .. Το καλό ειναι οτι είτε κανονική είτε Poissonian μπορεί η τυπική απόκλιση για 2-3τριπλοτυχερούς να θεωρηθεί ως stdev=sqrt(mean) .. μόνο οι μονοί νικητές δεν καλύπτονται αλλά δεν μας ενδιαφέρουν κιόλας ;)