1. Χρησιμοποιώντας το OpenOffice Writer "Find and Replace" (περιορισμένο και κουραστικό):
Αυτή η μέθοδος είναι εφικτή για ένα μικρότερο αρχείο, αλλά εξαιρετικά ανέφικτη για ένα αρχείο HTML 100 σελίδων.
* Εισαγωγή: Ανοίξτε το αρχείο HTML στο OpenOffice Writer. Θα διατηρήσει πιθανώς τη μορφοποίηση, συμπεριλαμβανομένων των επικεφαλίδων.
* Βρείτε και αντικαταστήστε (επαναληπτικά): Εκτελέστε μια λειτουργία "εύρεση και αντικατάσταση".
* Βρείτε: «
* Αντικατάσταση: Κρατήστε αυτό το πεδίο άδειο. Κάντε κλικ στην επιλογή "Αντικατάσταση όλων." Αυτό θα διαγράψει το περιεχόμενο αλλά * όχι * την επικεφαλίδα. Επαναλάβετε για `
* Επαναλάβετε: Στη συνέχεια, θα χρειαστεί να διαγράψετε με μη αυτόματο τρόπο τα πάντα * εκτός από τις επικεφαλίδες. Αυτό είναι πολύ χρονοβόρο για ένα μεγάλο αρχείο.
2. Χρησιμοποιώντας το OpenOffice Calc και τις κανονικές εκφράσεις (πιο προηγμένες, αλλά δυνητικά καλύτερες):
Αυτή η προσέγγιση είναι πιο αυτοματοποιημένη, αλλά απαιτεί κάποια εξοικείωση με τις κανονικές εκφράσεις και τις λειτουργίες υπολογιστικών φύλλων.
* Εισαγωγή (ως κείμενο): Ανοίξτε το αρχείο HTML στο OpenOffice Calc. Εισαγάγετε το ως απλό κείμενο, όχι HTML, για να αποφύγετε τη μορφοποίηση των προβλημάτων. Πιθανότατα θα εισαγάγει ως ένα ενιαίο, πολύ μακρύ κελί.
* Διαχωρίστε το κείμενο: Χρησιμοποιήστε τη λειτουργία `textsplit '(διαθέσιμη σε νεότερες εκδόσεις του OpenOffice) για να χωρίσετε το κείμενο σε γραμμές με βάση έναν οριοθετημένο μεταφορέα (` \ n`). Αυτό θα σας δώσει μία γραμμή ανά γραμμή κώδικα HTML (περίπου).
* Τακτικές εκφράσεις (με `regex`): Χρησιμοποιήστε τη συνάρτηση regex` του OpenOffice (παρόμοια με το regexmatch` ή το `regexExtract` του Excel ανάλογα με την έκδοση σας) μέσα σε μια νέα στήλη. Ο τύπος πρέπει να εξαγάγει το κείμενο της επικεφαλής. Ένα παράδειγμα:`=regex (a1,"
* Αυτός ο τύπος αναζητά `
* Φίλτρο και καθαρίστε: Φιλτράρισμα για μη κενά κύτταρα για την απομάκρυνση καταχωρίσεων χωρίς να βρέθηκαν επικεφαλίδες. Θα χρειαστείτε ακόμα κάποιο χειροκίνητο καθαρισμό για να αφαιρέσετε τυχόν επιπλέον κενά ή αδέσποτους χαρακτήρες από τα αποτελέσματα.
3. Χρήση εξωτερικών εργαλείων (συνιστώμενα):
Αυτό είναι μακράν η ευκολότερη και αποτελεσματικότερη μέθοδος για ένα μεγάλο αρχείο. Χρησιμοποιήστε ένα εξειδικευμένο εργαλείο επεξεργασίας κειμένου ή γλώσσα δέσμης ενεργειών όπως η Python:
* Python με «όμορφη σούπα»: Η Python, με τη βιβλιοθήκη `Beautiful Soup 'είναι εξαιρετική για την ανάλυση HTML. Ένα σύντομο σενάριο μπορεί να εξαγάγει μόνο τις ετικέτες "H2` και" H3` και το περιεχόμενό τους. Πολλά online σεμινάρια δείχνουν πώς να το κάνετε αυτό.
Παράδειγμα σενάριο Python:
`` `Python
Από το BS4 Import Beautifulsoup
με ανοιχτό ("your_100page_html_file.html", "r", encoding ="utf-8") ως f:
html =f.read ()
Σούπα =Beautifulsoup (HTML, "html.parser")
επικεφαλίδες =[]
Για το H2 στο Soup.find_all ("H2"):
Headings.Append (h2.text.strip ())
Για το H3 στο Soup.find_all ("H3"):
Headings.append (h3.text.strip ())
με ανοιχτό ("extracted_headings.txt", "w", encoding ="utf-8") ως outfile:
για επικεφαλίδα σε επικεφαλίδες:
outfile.write (επικεφαλίδα + "\ n")
εκτύπωση ("Οι επικεφαλίδες που εξάγονται στο εξαγόμενο_Headings.txt")
`` `
Θυμηθείτε να αντικαταστήσετε το `" your_100page_html_file.html "` με το πραγματικό σας όνομα αρχείου. Θα πρέπει να εγκαταστήσετε `όμορφη σούπα ':` pip install beautifulsoup4'
Η προσέγγιση της Python συνιστάται έντονα για την αποτελεσματικότητα και την ακρίβειά της. Οι μέθοδοι OpenOffice είναι σημαντικά πιο δυσκίνητες για ένα αρχείο αυτού του μεγέθους.
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα