Κληρώνει σήμερα η ΑΑΔΕ!

Θυμασαι σε μια κοπη πιτας του avclub που κληρωθηκε 5 φορες το ονομα μου στα δωρα. ?
Εφταιγε ο kblachos επειδη ειχε βαλει μια βλαμμενη τυχαια γεννητρια αριθμων στο ipad. :D

Κοιτα να δεις που και εδω μπορει να χρησιμοποιησαν καμια γεννητρια την πρωτη που θα βρηκαν μπροστα τους στο ιντερνετ και τσαμπα σκοτωνονται τωρα εδω με αναλυσεις και συνομωσιες.:D

ειμαι σχεδον σιγουρος!
 
Απορώ γιατί το συζητάμε :2thumb22sup:. Poisson ταιριάζει πολύ καλύτερα από κανονική. Καταρχάς η κανονική είναι συνεχής άρα ακατάλληλη για την περίπτωση μας. Ενώ η Poisson διακριτή και δεν δίνει ποτέ αρνητικές τιμές. Επίσης όπως λες βλέπουμε ότι μέση τιμή είναι περίπου ίδια με την διασπορά (τετράγωνο της τυπικής απόκλισης) όπως στην Poisson. Στην κανονική κατανομή, μέση τιμή και διασπορά μπορεί να διαφέρουν. Βασικά από την αρχή την Poisson έπρεπε να πάρω ως μοντέλο αλλά βλέπεις έχω σκουριάσει! :furious3:

Όσον αφορά τους νικητές 1φορά η κατανομή είναι λίγο περίεργη. Οι ζυγές τιμές νικητών (π.χ. 10976) έχουν μεγάλη συχνότητα ενώ οι διπλανές μονές πολύ μικρή (π.χ. 10975). Αυτό είναι λογικό γιατί ξέρουμε ότι το συνολικό άθροισμα νικών είναι ζυγό 11.000, οπότε κάθε φορά που έχουμε n διπλονικητές, οι μονονικητές θα είναι 11.000-2n δηλαδή ζυγός αριθμός, εκτός αν έχουμε τριπλονικητές που είναι σπάνιο. Αν εξαιρέσεις αυτή τη λεπτομέρεια στο μάτι έμοιαζε με κανονική, απλώς με μεγάλες διαφορές μεταξύ μονών και ζυγών τιμών.
 
Οπότε για να επανέλθω σε αυτό που είχα πει προηγουμένως, αν υποθέσουμε κατανομή Poisson για τους τριπλονικητές έχουμε (στην Poisson ως γνωστόν μέση τιμή=λ):
Με μέση τιμή (λ) 0,83 η πιθανότητα για 4 ή παραπάνω τριπλονικητές είναι 1%
Με μέση τιμή (λ) 1 είναι 1,9%
Με μέση τιμή (λ) 1,5 είναι 6,5%
Με μέση τιμή (λ) 2 είναι 14%

Οπότε δεν είναι ανάγκη να τεντώνεις την κατανομή των λαχνών ώστε να βρεις ένα μοντέλο που δίνει μέση τιμή τριπλονικητών 4. Και με πολύ μικρότερη τιμή υπάρχει μια λογική πιθανότητα να βγουν 4 τριπλονικητές.
 
@Γιαρίμης Ηλίας
Τροποποίησα των κώδικα ώστε να επιτρέπει την κατανομή των συμμετεχόντων σε ζώνες. Το ποσοστό συμμετεχόντων και λαχνών σε κάθε ζώνη είναι μεταβλητό. Παίζοντας λίγο με τα ποσοστά, είδα ότι πράγματι για να ανέβουν οι τριπλονικητές πρέπει να υπάρχει μια μικρή κατηγορία υπερ-πλουσίων.
Έτρεξα την εξομοίωση με 100.000 δείγματα για την κατανομή λαχνών που είχες βάλει στο Excel . Για δες αν έπεσες μέσα. :grinning-smiley-043

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Samples: 100000
Participants per Draw: 4300000
Lots per Draw: 1030000000
Number of Zones: 5
Participant Distribution Per Zone: 0.0239,0.3338,0.5721,0.07016,0.00004
Lot Distribution per Zone: 0.001,0.139,0.55,0.3,0.01
Participants Per Zone: 1-102770, 102771-1538110, 1538111-3998140, 3998141-4299828, 4299829-4300000
Lots Per Zone: 1-1030000, 1030001-144200000, 144200001-710700000, 710700001-1019700000, 1019700001-1030000000
Execution time: 700.10702 seconds
Average winners with 1 victories: 10905.18278
Standard deviation of winners with 1 victories: 13.688123007614822
Average winners with 2 victories: 41.64671
Standard deviation of winners with 2 victories: 6.264512445183249
Average winners with 3 victories: 3.2736
Standard deviation of winners with 3 victories: 1.7970651184647835
Average winners with 4 victories: 0.38235
Standard deviation of winners with 4 victories: 0.6165212709231133
Average winners with 5 victories: 0.03212
Standard deviation of winners with 5 victories: 0.17924370449178226
Average winners with 6 victories: 0.00205
Standard deviation of winners with 6 victories: 0.045230493032922585
Average winners with 7 victories: 0.0001
Standard deviation of winners with 7 victories: 0.009999499987497605
Average winners with 8 victories: 0
Standard deviation of winners with 8 victories: 0
Average winners with 9 victories: 0
Standard deviation of winners with 9 victories: 0
Average winners with 10 victories: 0
Standard deviation of winners with 10 victories: 0
Average winners with 11 victories: 0
Standard deviation of winners with 11 victories: 0
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Από αυτή την εκτέλεση με μη ομοιόμορφη κατανομή λαχνών έβγαλα τις παρακάτω παραστάσεις. Οι μονοί νικητές προσεγγίζονται πολύ καλά από τη διωνυμική κατανομή, οι διπλοί πολύ καλά από την Poisson ενώ οι τριπλοί πάρα πολύ καλά από την Poisson. Δεδομένου ότι η διωνυμική κατανομή συγκλίνει στην Poisson για μικρή πιθανότητα επιτυχίας και μεγάλο αριθμό δοκιμών, νομίζω ότι η κατανομή που περιγράφει όλες τις κατηγορίες (μονοί, διπλοί, τριπλοί κλπ. νικητές είναι η διωνυμική). Άλλωστε από τη διωνυμική ξεκινήσαμε!

pwf4RUa.png




nVOfqTM.png




nJslOE4.png

Νομίζω πλέον το έχουμε εξηγήσει καλά το φαινόμενο. Τι λες γράφουμε κανά paper; :BDBDG54:
 
Re: Απάντηση: Κληρώνει σήμερα η ΑΑΔΕ!

Θυμασαι σε μια κοπη πιτας του avclub που κληρωθηκε 5 φορες το ονομα μου στα δωρα. ?
Εφταιγε ο kblachos επειδη ειχε βαλει μια βλαμμενη τυχαια γεννητρια αριθμων στο ipad. :D

Κοιτα να δεις που και εδω μπορει να χρησιμοποιησαν καμια γεννητρια την πρωτη που θα βρηκαν μπροστα τους στο ιντερνετ και τσαμπα σκοτωνονται τωρα εδω με αναλυσεις και συνομωσιες.:D
Κλαμα :flipout:

Στάλθηκε από το LG-D855 μου χρησιμοποιώντας Tapatalk
 
Κατανομή poisson.

Xμμμμμ ....

Όχι poisson αλλά διωνυμική. Η οποία όσο μεγαλώνει ο αριθμός των επιτυχιών (συμμετέχοντες με 1 επιτυχία, με 2,3,4...) συγκλίνει στην Poisson.
Π.χ. για την κατανομή των μονών νικητώνη η Poisson πέφτει τελείως έξω.

DudktBh.png
 
Ναι γιατί δεν καλύπτονται οι προύποθέσεις ώστε να γίνει χρήση της poisson (ούτε διαστήματα ανεξέρτητα έχουμε, ούτε γνωστό μέσο ρυθμό)
 
Τι πουασσόν και διωνυμικές ρε παιδιά... Είστε σίγουροι οτι αν δεν βάλετε μέσα var numberOfPapoudesStoVouno=ΑΦΜ x 1000 και var numberOfAllileggyoi= ΑΦΜ x 5000 δεν θα φτιάξουν οι καμπύλες αμέσως ?... :))
 
@Γιαρίμης Ηλίας
Τροποποίησα των κώδικα ώστε να επιτρέπει την κατανομή των συμμετεχόντων σε ζώνες. Το ποσοστό συμμετεχόντων και λαχνών σε κάθε ζώνη είναι μεταβλητό. Παίζοντας λίγο με τα ποσοστά, είδα ότι πράγματι για να ανέβουν οι τριπλονικητές πρέπει να υπάρχει μια μικρή κατηγορία υπερ-πλουσίων.
Έτρεξα την εξομοίωση με 100.000 δείγματα για την κατανομή λαχνών που είχες βάλει στο Excel . Για δες αν έπεσες μέσα. :grinning-smiley-043

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Samples: 100000
Participants per Draw: 4300000
Lots per Draw: 1030000000
Number of Zones: 5
Participant Distribution Per Zone: 0.0239,0.3338,0.5721,0.07016,0.00004
Lot Distribution per Zone: 0.001,0.139,0.55,0.3,0.01
Participants Per Zone: 1-102770, 102771-1538110, 1538111-3998140, 3998141-4299828, 4299829-4300000
Lots Per Zone: 1-1030000, 1030001-144200000, 144200001-710700000, 710700001-1019700000, 1019700001-1030000000
Execution time: 700.10702 seconds
Average winners with 1 victories: 10905.18278
Standard deviation of winners with 1 victories: 13.688123007614822
Average winners with 2 victories: 41.64671
Standard deviation of winners with 2 victories: 6.264512445183249
Average winners with 3 victories: 3.2736
Standard deviation of winners with 3 victories: 1.7970651184647835
Average winners with 4 victories: 0.38235
Standard deviation of winners with 4 victories: 0.6165212709231133
Average winners with 5 victories: 0.03212
Standard deviation of winners with 5 victories: 0.17924370449178226
Average winners with 6 victories: 0.00205
Standard deviation of winners with 6 victories: 0.045230493032922585
Average winners with 7 victories: 0.0001
Standard deviation of winners with 7 victories: 0.009999499987497605
Average winners with 8 victories: 0
Standard deviation of winners with 8 victories: 0
Average winners with 9 victories: 0
Standard deviation of winners with 9 victories: 0
Average winners with 10 victories: 0
Standard deviation of winners with 10 victories: 0
Average winners with 11 victories: 0
Standard deviation of winners with 11 victories: 0
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

Από αυτή την εκτέλεση με μη ομοιόμορφη κατανομή λαχνών έβγαλα τις παρακάτω παραστάσεις. Οι μονοί νικητές προσεγγίζονται πολύ καλά από τη διωνυμική κατανομή, οι διπλοί πολύ καλά από την Poisson ενώ οι τριπλοί πάρα πολύ καλά από την Poisson. Δεδομένου ότι η διωνυμική κατανομή συγκλίνει στην Poisson για μικρή πιθανότητα επιτυχίας και μεγάλο αριθμό δοκιμών, νομίζω ότι η κατανομή που περιγράφει όλες τις κατηγορίες (μονοί, διπλοί, τριπλοί κλπ. νικητές είναι η διωνυμική). Άλλωστε από τη διωνυμική ξεκινήσαμε!

pwf4RUa.png




nVOfqTM.png




nJslOE4.png

Νομίζω πλέον το έχουμε εξηγήσει καλά το φαινόμενο. Τι λες γράφουμε κανά paper; :BDBDG54:

paper !! ?? :bang: (πού είναι εκείνο το καταραμένο που ξύνει το κεφάλι του ..)

Δεν ήξερα ότi υπό κάποιες προυποθέσεις η διωνυμική συγκλίνει στην Poissson .. το μόνο που ήξερα είναι οτι η Poisson συγκλινει στην Gauss για μεγάλα λ .. τώρα βλέπω στο wiki και το λήμμα https://en.wikipedia.org/wiki/Binomial_distribution#Poisson_approximation

Αρα δηλ. θα μπορούσες να δείξεις τις κατανομές των διπλών-τριπλών ... κλπ νικητών να ταυτίζονται με διωνυμική !! αντι τής ταύτισης με Poisson ...
Μήπως να δοκίμαζες και την υπεργεωμετρική ... ?? ;)

.. διότι .. Η διαδικασία της κλήρωσης είναι υπεργεωμετρική (κλήρωση και αποκλεισμός) στις φάσεις εντός των μηνιαίων κληρώσεων και δυωνυμική (ανεξαρτητες κληρώσεις με αντικατάσταση) απο μήνα σε μήνα .. σωστά ?.
Τωρα επειδή το ποσοστό των κλήρων_&_αποκλεισμών είναι μικρό σε σχέση με τους λαχνούς (τον δειγματικό χώρο που λέγαμε ..) η υπεργεωμετρική συγκλίνει στην διωνυμική .. αυτό άλλωστε σκέφθηκα και εγω και κατέληξα να απλοποιήσω τον υπολογισμό .. αλλά σε parer δεν χωράνε κάτι τέτοια ;) .. Μήπως το σωστό είναι να χρησιμοποιηθεί η υπεργεωμετρική ?. καi με τις πολλαπλές ζώνες ή https://en.wikipedia.org/wiki/Hypergeometric_distribution#Multivariate_hypergeometric_distribution

ΥΓ Τον νέο κώδικα θα τον ανεβάσεις ??
 
Re: Απάντηση: Κληρώνει σήμερα η ΑΑΔΕ!

Τι πουασσόν και διωνυμικές ρε παιδιά... Είστε σίγουροι οτι αν δεν βάλετε μέσα var numberOfPapoudesStoVouno=ΑΦΜ x 1000 και var numberOfAllileggyoi= ΑΦΜ x 5000 δεν θα φτιάξουν οι καμπύλες αμέσως ?... :))

Αυτό όμως μπορεί εύκολα να το πιάσει ένας έλεγχος διότι αν κάποια ΑΦΜ μπήκαν στην κληροτίδα με πολλαπλασιαστή θα σημαίνει οτι δεν θα συμφωνούν οι βεβαιωμένες συναλλαγές (και άρα τα φορολογημένα ποσά) με το ποσό που ανακοινώθηκε οτι συμμετείχε (τα 22.000.000.000)
 
Η διαδικασία της κλήρωσης είναι υπεργεωμετρική (κλήρωση και αποκλεισμός) στις φάσεις εντός των μηνιαίων κληρώσεων

Δεν νομίζω. Μπορείς να μου εξηγήσεις (στο απλό μοντέλο όπου κάθε παίκτης έχει ένα λαχνό) πως ακριβώς ταιριάζει η υπεργεωμετρική; Ποια είναι τα N,K,n;

Ανέβασα τη σελίδα (Για το απλοποιημένο μοντέλο βάλε απλώς numberOfParticipantsPerDraw=numberOfLotsPerDraw=4500000 και κατανομές [0.5 0.5]). Ανέβασε και το excel όταν μπορείς.

Την άφησα το βράδυ να τρέχει με 1000000 δείγματα και το πρωί είχε κρασάρει το Firefox :bigcry:
 

Attachments

Εννοώ στις μηνιαίες κληρώσεις όπου η διαδικασία είναι 1000 τραβήγματα με αποκλεισμό .. με το Excel ποιά συνάρτηση ή διαδικασία θα χρησιμοποιούσες για να υπολογίσεις την πιθανότητα κλήρωσης - μή κλήρωσης ?

Ο ένας τρόπος είναι να αναπτύξεις την σειρά (1-1/ΑΦΜ)*(1-1/(ΑΦΜ-1))*(1-1/(ΑΦΜ-2)) .. αυτό δεν γράφεται σε έναν τυπο .. επομένως (εγώ τουλάχιστον ..) χρησιμοποιείς 1000 σειρές και πολλαπλασιάζεις .. όμως αν έχεις πολλαπλές τέτοιες σειρες βαραίνει το excel .. και επιπλέον πέφτεις σε περιπτώσεις όπου η ακρίβεια του Excel δεν είναι αρκετή ..

Ομως η HYPERGEOM.DIST(επιτυχίες_ανα_ΑΦΜ;εξεταζόμενα_ΑΦΜ;πλήθος_τραβηγμάτων;πληθος_ΑΦΜ;FALSE) μας δίνει ακριβώς αυτο .. τις πιθανότητες επιτυχιών ενός ΑΦΜ σε διαδικασία με αποκλεισμό ..
π.χ. για την περίπτωσή μας έχουμε 1000 τραβήγματα και εξετάζουμε την περίπτωση 10.000 ΑΦΜ_με_ίσες_πιθανότητες

HYPERGEOM.DIST(0;1;1000;10000;FALSE) = 0,99 μας δίνει την πιθανότητα για μηδεν επιτυχίες
HYPERGEOM.DIST(1;1;1000;10000;FALSE) = 0,01 μας δίνει την πιθανότητα για μια επιτυχία
HYPERGEOM.DIST(2;1;1000;10000;FALSE) = 0,000000000 μας δίνει την πιθανότητα για 2 επιτυχίες .. βγαίνει πάντα μηδέν για άνω της 1 επιτυχίας που είναι ακριβώς και το ζητούμενο ;)

Aρα η υπεργεωμετρική μας δίνει ακριβώς την κατανομή πιθανοτήτων στις μηνιαίες κληρώσεις .. η διωνυμική θα δώσει πιθανότητες και για 2,3,4 επιτυχίες κάτι που αντιβαίνει την διαδικασία της κλήρωσης που δεν δίνει πιθανότητες για πάνω από 1 επιτυχία ανα AΦΜ ..
 
HYPERGEOM.DIST(0;1;1000;10000;FALSE) = 0,99 μας δίνει την πιθανότητα για μηδεν επιτυχίεςHYPERGEOM.DIST(1;1;1000;10000;FALSE) = 0,01 μας δίνει την πιθανότητα για μια επιτυχία
HYPERGEOM.DIST(2;1;1000;10000;FALSE) = 0,000000000

Στα παραδείγματα που έβαλες μάλλον έγραψες καταλάθος 10.000 ΑΦΜ αντί για 100.000ΑΦΜ. Μόνο με 100.000 βγαίνουν τα νούμερα που έγραψες.

Έχεις απόλυτο δίκιο για την υπεργεωμετρική ως εργαλείο των πράξεων. Έστω το αρχικό παράδειγμα με 4.500.000 ΑΦΜ. Ένας τρόπος να υπολογίσουμε την πιθανότητα 0 επιτυχιών σε 1000 κληρώσεις για ένα μεμονωμένο ΑΦΜ είναι: Π[1-1/(4.500.001-i] από i=1 ως i=1000 ή (1-1/4.500.000)*(1-1/4.499.999)*...*(1-1/4.499.001).
Όμως το παράδειγμα μας (επιλογή δείγματος 1000 ΑΦΜ χωρίς επανατοποθέτηση από πληθυσμό 4.500.000 ΑΦΜ όπου επιτυχία θεωρείται μόνο ένα ΑΦΜ) είναι υπεργεωμετρική με N=4.500.000,K=1,n=1000. Οπότε η πιθανότητα 0 επιτυχιών σε 1000 κληρώσεις δίνεται και από τον τύπο της υπεργεωμετρικής με k=0 που υπολογίζεται στο Excel ως HYPGEOM.DIST(0;1000;1;4500000;FALSE). (Στην ουσία ξαναέγραψα αυτό που είπες με άλλα λόγια και αριθμούς.)
Όμως πέρα από εργαλείο πράξεων στο Excel που μας δίνει έναν εναλλακτικό τρόπο να υπολογίσουμε την πιθανότητα αποτυχίας δεν βλέπω να μας βοηθάει στη μαθηματική ανάλυση του προβλήματος. Έχουμε μια τυχαία μεταβλητή με μόνο δύο πιθανά αποτελέσματα, 0 επιτυχίες ή 1 επιτυχίες. Δεν χρειαζόμαστε κατανομή, η τυχαία μεταβλητή περιγράφεται πλήρως από ένα μόνο νούμερο, την πιθανότητα επιτυχίας.

Η πολυμεταβλητή υπεργεωμετρική από την άλλη δεν βλέπω που βοηθάει στο πρόβλημα.

Μου έδωσες πάντως μια ενδιαφέρουσα ιδέα. Ένα άλλο παράδοξο ήταν οι δύο αδερφές που κέρδισαν. (Αν υποθέσουμε ότι είναι αλήθεια και δεν είναι δύο ψωνάρες που κάλεσαν τα ΜΜΕ λέγοντας ότι δήθεν κέρδισαν. Γιατί η ΑΑΔΕ δεν έδωσε τέτοια στοιχεία, προφανώς μόνες τους το κοινοποίησαν στα ΜΜΕ.).
Κάνουμε την υπόθεση ότι και στις 11.000 κληρώσεις απαγορεύεται να ξανακερδίσεις, δηλαδή έχουμε λήψη δείγματος χωρίς επανατοποθέτηση. Δεν έχει μεγάλη διαφορά άλλωστε από την πραγματικότητα, η συντριπτική πλειοψηφία ήταν μονοί νικητές. Και έτσι έχω μέγιστο αριθμό νικών ανά ΑΦΜ 1, πιο κοντά στο πραγματικό μέγιστο 11 από το μέγιστο 11.000 που θα είχαμε αν διαλέγαμε επανατοποθέτηση. Τότε η πιθανότητα να κερδίσει ένας ζεύγος αδερφών (που είναι μοναδικά, δεν έχουν τρίτο αδερφό) είναι υπεργεωμετρική με Ν=4.500.000,Κ=2,n=11.000,k=2 δηλαδή περίπου 5,97*10^-6 ή HYPGEOM.DIST(2;11000;2;4500000;FALSE).
Αν τώρα υποθέσουμε και ότι όλα τα ΑΦΜ έχουν 1 ακριβώς αδερφό, σημαίνει ότι έχουμε 2.250.000 ζεύγη αδερφών. Οπότε η αναμενόμενη τιμή ζευγών αδερφών που κέρδισαν είναι (5,97*10^-6)*2.250.000=13,44.

Οπότε ?? Τί κατανομή περιμένουμε μετα την άθροιση αυτων των 100.000 επαναλήψεων μιας υπεργεωμετρικής ??.
Μήπως να διαβάσουμε αυτό το βιβλίο που αναφέρει η ελληνική wikipedia στις πηγές;
Πάνος Τσικογιαννόπουλος (2010). «Αθροιστική πολυωνυμική και υπεργεωμετρική κατανομή». Μαθηματική Επιθεώρηση (72): 3-22.
Ή να ρωτήσουμε το Ποτάμι που ξέρει από πιθανότητες; :flipout: