Προγραμματισμός

* Γνώση Υπολογιστών >> Προγραμματισμός >> Python Προγραμματισμός

Πώς να : REGEX να αναλύσει XML

Ανάλυση XML αποτελεί πρόκληση για τους επίδοξους αναλυτή κειμένου λόγω της επεκτασιμότητας της XML . Συμβάσεις μορφοποίησης XML είναι ιεραρχικά στη φύση , που σημαίνει ότι ορισμένες ετικέτες κυριαρχούν άλλες ετικέτες . Κανονικές Εκφράσεις ( REGEXes ) την αναγνώριση προτύπων κειμένου XML - Μια REGEX για το ταίριασμα των ετικετών XML θα ταιριάζει με τα πάντα μέσα στις ετικέτες xml <> , αλλά δεν θα εμφανίσει την ιεραρχική οργάνωση αυτών των ετικετών . Είναι δυνατόν να διαχωριστεί αυτή η δομή tag από το κείμενο χρησιμοποιώντας τη γλώσσα προγραμματισμού Python και το πακέτο Toolkit Φυσικής Γλώσσας , η οποία ενσωματώνει τις κανονικές εκφράσεις και τις πράξεις χειραγώγησης κειμένου και μπορεί να εμφανίσει τις ετικέτες XML και την οργάνωσή τους . Οδηγίες
Η

1 Ανοίξτε ένα παράθυρο τερματικού και πληκτρολογήστε την εντολή " python - v" στο prompt για να ελέγχει την ύπαρξη και την έκδοση της Python στον υπολογιστή σας . Πηγαίνετε στην αρχική σελίδα του NLTK και να κατεβάσετε το πρόγραμμα εγκατάστασης του πακέτου NLTK κατάλληλη για το λειτουργικό σας σύστημα . Βεβαιωθείτε ότι NLTK έχει εγκατασταθεί σωστά , εισάγοντας την εντολή " >>> NLTK εισαγωγής " στη γραμμή Python . 2

Τύπος " >>> nltk.download ( ) " για να ανοίξει ένα παράθυρο . Επιλέξτε τη σειρά με την ένδειξη "all" και πατήστε το κουμπί λήψης. Αυτό θα κατεβάσετε μια σειρά κειμένων για NLTK να συνεργαστεί με , μεταξύ των οποίων και του Σαίξπηρ « Ο έμπορος της Βενετίας " που έχει διαμορφωθεί με ειδικές ετικέτες XML για θεατρικά έργα .
Εικόνων 3

Import ο Έμπορος της Βενετίας ετικέτα στο XML με την ακόλουθη εντολή στη γραμμή εντολών Python : >>>

merchant_file = nltk.data.find ( « σώματα /Σαίξπηρ /merchant.xml » )

Εκχώρηση στο αρχείο μια μεταβλητή έτσι ώστε να μπορείτε να το χειριστείτε με τις εντολές Python : .

>>> πρώτες = ανοικτό ( merchant_file ) read ( )

Ακριβώς για να βεβαιωθείτε ότι είναι εκεί , πληκτρολογήστε το ακόλουθη εντολή για να δείτε τα πρώτα 168 χαρακτήρες :

>>> εκτύπωση των πρώτων [ 0:168 ] Ξενοδοχεία

θα δείτε τις ετικέτες επικεφαλίδα XML και τις ειδικές ετικέτες παιχνίδι XML
Φτηνές 4

Πληκτρολογήστε την ακόλουθη εντολή στη γραμμή εντολών Python : >>>

από nltk.etree.ElementTree εισαγωγής ElementTree

και πατήστε το πλήκτρο "Return ", στη συνέχεια, πληκτρολογήστε τα ακόλουθα στη γραμμή εντολών Python : .

>>> έμπορος = ElementTree ( ) αναλύσει ( merchant_file )

η εντολή parse επιτρέπει στο χρήστη για να δείτε τις ετικέτες XML και το περιεχόμενό τους . Για να οικοδομήσουμε μια ιεραρχική προβολή σωστά ένθετες ετικέτες XML , πληκτρολογήστε την ακόλουθη εντολή στη γραμμή εντολών Python : >>>

merchant.getchildren ( )

Αυτό θα δείξει όλες τις ειδικές XML παίζουν ετικέτες στην ιεραρχική τάξη τους. Η έξοδος της εντολής αυτής θα πρέπει να μοιάζει κάπως έτσι :

[ , , , , , , , , ]
εικόνων

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα