Πίνακας προβολής

Από testwiki
Μετάβαση στην πλοήγηση Πήδηση στην αναζήτηση

Στη στατιστική, ο πίνακας προβολής (𝐏),[1] που μερικές φορές ονομάζεται επίσης πίνακας επιρροής[2] ή πίνακας καπέλου (𝐇), απεικονίζει το διάνυσμα των τιμών απόκρισης (τιμές εξαρτημένης μεταβλητής) στο διάνυσμα των προσαρμοσμένων τιμών (ή προβλεπόμενων τιμών). Περιγράφει την επιρροή που έχει κάθε τιμή απόκρισης σε κάθε προσαρμοσμένη τιμή.[3][4] Τα διαγώνια στοιχεία του πίνακα προβολής είναι οι μοχλεύσεις, οι οποίες περιγράφουν την επιρροή που έχει κάθε τιμή απόκρισης στην προσαρμοσμένη τιμή για την ίδια παρατήρηση.

Ορισμός

Αν το διάνυσμα των τιμών απόκρισης συμβολίζεται με 𝐲 και το διάνυσμα των προσαρμοσμένων τιμών με 𝐲^,

𝐲^=𝐏𝐲.

Καθώς το 𝐲^ συνήθως προφέρεται «y-hat», ο πίνακας προβολής 𝐏 ονομάζεται επίσης πίνακας καπέλου καθώς «βάζει ένα καπέλο[5] στο 𝐲».

Εφαρμογή για τα υπόλοιπα

Ο τύπος για το διάνυσμα των υπολοίπων 𝐫 μπορεί επίσης να εκφραστεί συμπαγώς χρησιμοποιώντας τον πίνακα προβολής:

𝐫=𝐲𝐲^=𝐲𝐏𝐲=(𝐈𝐏)𝐲.

όπου 𝐈 είναι ο πίνακας ταυτότητας. Ο πίνακας 𝐌:=𝐈𝐏 αναφέρεται μερικές φορές ως πίνακας υπολειμματικού δημιουργού ή πίνακας εξουδετέρωσης.

Ο πίνακας συνδιακύμανσης των υπολοίπων 𝐫, με διάδοση σφάλματος, ισούται με

Σ𝐫=(𝐈𝐏)TΣ(𝐈𝐏),

όπου Σ είναι ο πίνακας συνδιακύμανσης του διανύσματος σφάλματος (και κατ' επέκταση και του διανύσματος απόκρισης). Για την περίπτωση των γραμμικών προτύπων με ανεξάρτητα και πανομοιότυπα κατανεμημένα σφάλματα στα οποία Σ=σ2𝐈, αυτό ανάγεται σε:[3]

Σ𝐫=(𝐈𝐏)σ2.

Διαίσθηση

Ένας πίνακας, 𝐀 έχει το χώρο των στηλών του απεικονιζόμενο ως πράσινη γραμμή. Η προβολή κάποιου διανύσματος 𝐛 στο χώρο των στηλών του 𝐀 είναι το διάνυσμα 𝐱

Από το σχήμα, είναι σαφές ότι το πλησιέστερο σημείο από το διάνυσμα 𝐛 στο χώρο των στηλών του 𝐀, είναι το 𝐀𝐱, και είναι ένα σημείο όπου μπορούμε να σχεδιάσουμε μια ευθεία ορθογώνια στο χώρο των στηλών του 𝐀. Ένα διάνυσμα που είναι ορθογώνιο στο χώρο των στηλών ενός πίνακα βρίσκεται στο μηδενικό χώρο του μετασχηματισμού του πίνακα, οπότε

𝐀T(𝐛𝐀𝐱)=0.

Από εκεί και πέρα, αναδιατάσσεται, έτσι

𝐀T𝐛𝐀T𝐀𝐱=0𝐀T𝐛=𝐀T𝐀𝐱𝐱=(𝐀T𝐀)1𝐀T𝐛.

Επομένως, δεδομένου ότι ο 𝐀𝐱 βρίσκεται στο χώρο των στηλών του 𝐀, του πίνακα προβολής, ο οποίος απεικονίζει τον 𝐛 πάνω στον 𝐱 είναι απλά 𝐀, ή 𝐀(𝐀T𝐀)1𝐀T.

Γραμμικό μοντέλο

Ας υποθέσουμε ότι επιδιώκουμε να εκτιμήσουμε ένα γραμμικό πρότυπο με τη χρήση γραμμικών ελαχίστων τετραγώνων. Το πρότυπο μπορεί να γραφεί ως εξής

𝐲=𝐗β+ε,

όπου 𝐗 είναι ένας πίνακας επεξηγηματικών μεταβλητών (ο πίνακας σχεδιασμού), β είναι ένα διάνυσμα άγνωστων παραμέτρων προς εκτίμηση και ε είναι το διάνυσμα σφάλματος.

Πολλοί τύποι μοντέλων και τεχνικών υπόκεινται σε αυτή τη διατύπωση. Μερικά παραδείγματα είναι τα γραμμικά ελάχιστα τετράγωνα, τα splines εξομάλυνσης, τα splines παλινδρόμησης, η τοπική παλινδρόμηση, η παλινδρόμηση πυρήνα και το γραμμικό φιλτράρισμα.

Συνήθης μέθοδος ελαχίστων τετραγώνων

Όταν τα βάρη για κάθε παρατήρηση είναι πανομοιότυπα και τα σφάλματα είναι ασυσχέτιστα, οι εκτιμώμενες παράμετροι είναι

β^=(𝐗T𝐗)1𝐗T𝐲,

έτσι οι προσαρμοσμένες τιμές είναι

𝐲^=𝐗β^=𝐗(𝐗T𝐗)1𝐗T𝐲.

Επομένως, ο πίνακας προβολής (και ο πίνακας καπέλου) δίνεται από τη σχέση

𝐏:=𝐗(𝐗T𝐗)1𝐗T.

Σταθμισμένα και γενικευμένα ελάχιστα τετράγωνα

Τα παραπάνω μπορούν να γενικευτούν στις περιπτώσεις όπου τα βάρη δεν είναι ίδια ή/και τα σφάλματα συσχετίζονται. Ας υποθέσουμε ότι ο πίνακας συνδιακύμανσης των σφαλμάτων είναι Σ. Τότε αφού

β^GLS=(𝐗TΣ1𝐗)1𝐗TΣ1𝐲.

ο πίνακας καπέλου είναι συνεπώς

𝐇=𝐗(𝐗TΣ1𝐗)1𝐗TΣ1

και πάλι μπορούμε να δούμε ότι H2=HH=H, αν και τώρα δεν είναι πλέον συμμετρική.

Ιδιότητες

Ο πίνακας προβολής έχει ορισμένες χρήσιμες αλγεβρικές ιδιότητες[6][7]. Στη γλώσσα της γραμμικής άλγεβρας, ο πίνακας προβολής είναι η ορθογώνια προβολή στο χώρο των στηλών του πίνακα σχεδιασμού 𝐗.[4] (Σημειώστε ότι (𝐗T𝐗)1𝐗T είναι το ψευδοαντίστροφο του X). Ορισμένα γεγονότα του πίνακα προβολής σε αυτό το περιβάλλον συνοψίζονται ως εξής:[4]

  • 𝐮=(𝐈𝐏)𝐲, και 𝐮=𝐲𝐏𝐲𝐗.
  • 𝐏 είναι συμμετρικός, και το ίδιο ισχύει και για το 𝐌:=𝐈𝐏.
  • 𝐏 είναι αδύναμος: 𝐏2=𝐏, και έτσι είναι 𝐌.
  • Αν 𝐗 είναι ένας Πρότυπο:Nowrap πίνακας με rank(𝐗)=r, τότε rank(𝐏)=r
  • Οι ιδιοτιμές του 𝐏 αποτελούνται από r μονάδες και Πρότυπο:Nowrap μηδενικά, ενώ οι ιδιοτιμές της 𝐌 αποτελούνται από Πρότυπο:Nowrap μονάδες και r μηδενικά.[8]
  • 𝐗 είναι αναλλοίωτος κάτω από 𝐏 : 𝐏𝐗=𝐗, ως εκ τούτου (𝐈𝐏)𝐗=𝟎.
  • (𝐈𝐏)𝐏=𝐏(𝐈𝐏)=𝟎.
  • 𝐏 είναι μοναδικός για ορισμένους υποχώρους.

Ο πίνακας προβολής που αντιστοιχεί σε ένα γραμμικό πρότυπο είναι συμμετρικός και ιδιοσυστατικός, δηλαδή, 𝐏2=𝐏. Ωστόσο, αυτό δεν ισχύει πάντα- στην εξομάλυνση τοπικά σταθμισμένων διασπορών (LOESS), παραδείγματος χάριν, ο πίνακας καπέλου δεν είναι γενικά ούτε συμμετρικός ούτε ιδιοσυστατικός.

Για τα γραμμικά πρότυπα, το ίχνος του πίνακα προβολής είναι ίσο με την τάξη του 𝐗, η οποία είναι ο αριθμός των ανεξάρτητων παραμέτρων του γραμμικού προτύπου[9]. Για άλλα πρότυπα όπως το LOESS που εξακολουθούν να είναι γραμμικά στις παρατηρήσεις 𝐲, ο πίνακας προβολής μπορεί να χρησιμοποιηθεί για τον ορισμό των πραγματικών βαθμών ελευθερίας του μοντέλου.

Οι πρακτικές εφαρμογές του πίνακα προβολής στην ανάλυση παλινδρόμησης περιλαμβάνουν τη μόχλευση και την απόσταση του Κουκ, οι οποίες αφορούν τον εντοπισμό παρατηρήσεων με επιρροή, δηλαδή παρατηρήσεων που έχουν μεγάλη επίδραση στα αποτελέσματα μιας παλινδρόμησης.

Blockwise πρότυπο

Ας υποθέσουμε ότι ο πίνακας σχεδιασμού 𝐗 μπορεί να αναλυθεί ανά στήλες ως X𝐗=[𝐀𝐁]. Ορίζουμε τον τελεστή καπέλου ή προβολής ως 𝐏[𝐗]:=𝐗(𝐗T𝐗)1𝐗T. Ομοίως, ορίστε τον τελεστή υπολοίπου ως 𝐌[𝐗]:=𝐈𝐏[𝐗]. Τότε ο πίνακας προβολής μπορεί να αναλυθεί ως εξής:[10]

Τότε ο πίνακας προβολής μπορεί να αναλυθεί ως εξής:[10]

𝐏[𝐗]=𝐏[𝐀]+𝐏[𝐌[𝐀]𝐁],

όπου, π.χ., 𝐏[𝐀]=𝐀(𝐀T𝐀)1𝐀T και 𝐌[𝐀]=𝐈𝐏[𝐀]. Υπάρχουν πολλές εφαρμογές μιας τέτοιας αποσύνθεσης. Στην κλασική εφαρμογή 𝐀 είναι μια στήλη όλων των μονάδων, η οποία επιτρέπει την ανάλυση των αποτελεσμάτων της προσθήκης ενός όρου παρεμβολής σε μια παλινδρόμηση. Μια άλλη χρήση είναι στο μοντέλο σταθερών επιδράσεων, όπου 𝐀 είναι ένας μεγάλος αραιός πίνακας των ψευδομεταβλητών για τους όρους σταθερών επιδράσεων. Μπορεί κανείς να χρησιμοποιήσει αυτή την κατάτμηση για να υπολογίσει τον πίνακα καπέλου του 𝐗 χωρίς να σχηματίσει ρητά τον πίνακα 𝐗, ο οποίος μπορεί να είναι πολύ μεγάλος για να χωρέσει στη μνήμη του υπολογιστή.

Ιστορία

Ο πίνακας καπέλου εισήχθη από τον Τζον Γουάιλντερ το 1972. Ένα άρθρο των Χόγκλιν, D.C. και Γουέλς, R.E. (1978) παρουσιάζει τις ιδιότητες του πίνακα καθώς και πολλά παραδείγματα εφαρμογής του.

Δείτε επίσης

Εξωτερικοί σύνδεσμοι

Δημοσιεύσεις

Παραπομπές

Πρότυπο:Reflist

Πρότυπο:Reflist

  • Janko Bračič, Kolobar aritmetičnih funkcij (Ring of arithmetical functions), (Obzornik mat, fiz. 49 (2002) 4, pp. 97–108) (MSC (2000) 11A25)
  • Iwaniec and Kowalski, Analytic number theory, AMS (2004).

Πρότυπο:Authority control Πρότυπο:Portal bar