Αποκτήστε τα σύνολα δεδομένων που θα χρησιμοποιηθούν για την ανάλυση και την επαλήθευση του τελικού δέντρου. Περισσότερα στοιχεία που χρησιμοποιήθηκαν στην ανάλυση θα δώσει μια πιο ακριβή αναπαράσταση δέντρων της διαδικασίας λήψης αποφάσεων . Υπάρχουν πολλοί διαφορετικοί τρόποι για τη δημιουργία και τη δομή ενός δένδρου αποφάσεων . Ο αλγόριθμος ID3 είναι ένα πρώιμο προσέγγιση επί της οποίας έχουν πιο εξελιγμένες παραλλαγές έχουν βάση . 2
Κατάλογος όλα τα χαρακτηριστικά που χρησιμοποιούνται από το σύνολο των δεδομένων . Για παράδειγμα , σε ένα σύνολο δεδομένων εφαρμογής τραπεζικού δανείου , η εγγραφή για κάθε υποψήφιο θα περιλαμβάνει χαρακτηριστικά όπως το όνομα , τη διεύθυνση , το τηλέφωνο , το εισόδημα , η αξία του σπιτιού , υποθήκη , τραπεζική και πιστωτικών καρτών .
Αν αυτόματη δημιουργία ένα δέντρο απόφασης , φυσικά αποκλείει χαρακτηριστικά, όπως το όνομα , που δεν θα περίμενε κανείς να επηρεάσει την απόφαση για τη χορήγηση δανείου . Κατά τη χρήση τεχνικών εξόρυξης δεδομένων του υπολογιστή , όλα τα χαρακτηριστικά θεωρούνται , αφήνοντας το πρόγραμμα του υπολογιστή για να καθορίσουν ποιοι από αυτούς δεν έχουν καμία σχέση με το τελικό αποτέλεσμα .
Εικόνων 3
Προσδιορίστε ποιο χαρακτηριστικό είναι το χαρακτηριστικό προορισμού . Στο παράδειγμα της αίτησης δανείου , το χαρακτηριστικό στόχος είναι αυτός που δείχνει αν το δάνειο χορηγήθηκε ή απορρίφθηκε.
Η 4
Επιλέξτε την ιδιότητα να παρέχουν το μεγαλύτερο όφελος των πληροφοριών για χρήση ως κόμβο . Το δέντρο αποτελείται από κόμβους αποφάσεων και κόμβους . Στους κόμβους απόφαση , ένας κλάδος που έχει δημιουργηθεί για κάθε δυνατή τιμή του χαρακτηριστικού προορισμού . Κάθε κλάδος αντιπροσωπεύει τα αρχεία δεδομένων που μοιράζονται την ίδια τιμή για την παράμετρο στόχο .
Ένας κόμβος φύλλο επιτυγχάνεται όταν όλα τα αρχεία που θα εξετάζονται κατά τον τρέχοντα κόμβο έχουν το ίδιο αποτέλεσμα για το χαρακτηριστικό προορισμού . Στο παράδειγμα του δανείου , αν ο καθένας που ισχύει για ένα δάνειο έχει εγκριθεί , ολόκληρο το δέντρο απόφασης είναι η οριακή περίπτωση ενός ενιαίου κόμβου-φύλλου χωρίς κλαδιά . Είναι πιο πιθανό ότι τα δεδομένα θα πρέπει να χωρίζεται σε δύο κλάδους : . Εγκριθεί και αρνήθηκε
μεθόδους υπολογισμού επιλέγοντας την ιδιότητα να χρησιμοποιήσετε οποιαδήποτε κόμβο του δένδρου είναι εξαιρετικά πολύπλοκες. Ψάξτε για το χαρακτηριστικό που προβλέπει πιο έντονα το αποτέλεσμα του στόχου. Διαισθητικά , " έσοδα" θα είναι καλύτερος υποψήφιος για τον κόμβο ρίζας από « πρώτο όνομα ».
5
Αφαιρέστε το χαρακτηριστικό root από τον κατάλογο των πιθανών χαρακτηριστικών που θα χρησιμοποιηθεί για τους κόμβους διακλάδωσης . Επιλέξτε το υπόλοιπο χαρακτηριστικό με το μεγαλύτερο κέρδος πληροφορίες για να εκχωρήσετε στους κόμβους διακλάδωσης .
Στο παρόν παράδειγμα , οι κόμβοι διακλάδωσης σε κάθε σημείο στο δέντρο δημιουργούν υποκαταστήματα των εγκεκριμένων και αρνήθηκε δάνεια . Δεν μπορεί να υπάρξει οποιοσδήποτε αριθμός των υποκαταστημάτων που προέρχονται από ένα κόμβο του δένδρου απόφασης , ανάλογα με το πόσο πολλές δυνατές τιμές μπορούν να εκχωρηθεί στην παράμετρο στόχο .
Η 6
Επαναλάβετε τη διαδικασία κατά μήκος κάθε κλάδο μέχρι να φτάσει σε ένα φύλλο κόμβο όπου όλα τα δεδομένα που μοιράζεται την ίδια τιμή για την παράμετρο στόχο . Το μέγιστο βάθος του δέντρου σε οποιοδήποτε σημείο θα είναι ο συνολικός αριθμός των χαρακτηριστικών που προσδιορίζονται κατά την έναρξη .
Είναι πιθανό ότι δεν είναι κάθε χαρακτηριστικό είναι σχετικό με την απόφαση σε κάθε κλάδο και έτσι ορισμένοι κλάδοι θα είναι μικρότερη . Μόλις έχετε ολοκληρώσει το δέντρο , με τα πόδια μέσα από αυτό να βρείτε τους κανόνες που έχει αποκομίσει . Για παράδειγμα , μπορείτε να βρείτε ότι « το δάνειο θα εγκριθεί , αν έχετε ένα υψηλό εισόδημα , υψηλή εξοικονόμηση και κανένα χρέος . "
Η 7
Χρησιμοποιήστε τα δεδομένα δοκιμής που να επικυρώσει το δέντρο δημιουργήθηκε . Το δέντρο θα πρέπει να προβλέψει με ακρίβεια τα αποτελέσματα στα νέα δεδομένα .
Η
εικόνων
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα