λογισμικό

Γνώση Υπολογιστών >> λογισμικό >  >> Portable Document Format

Έχω ένα μακρύ αρχείο 100pg html και θέλω να κρατήσω μόνο τις επικεφαλίδες δηλαδή H2 H3 Πώς το κάνει αυτό με το Open Office;

Το OpenOffice δεν διαθέτει ενιαία, ενσωματωμένη λειτουργία για την εξαγωγή μόνο επικεφαλίδων (H2 και H3) από ένα αρχείο HTML 100 σελίδων. Θα χρειαστεί να χρησιμοποιήσετε ένα συνδυασμό χαρακτηριστικών ή ένα εξωτερικό εργαλείο. Ακολουθούν μερικές προσεγγίσεις:

1. Χρησιμοποιώντας το OpenOffice Writer "Find and Replace" (περιορισμένο και κουραστικό):

Αυτή η μέθοδος είναι εφικτή για ένα μικρότερο αρχείο, αλλά εξαιρετικά ανέφικτη για ένα αρχείο HTML 100 σελίδων.

* Εισαγωγή: Ανοίξτε το αρχείο HTML στο OpenOffice Writer. Θα διατηρήσει πιθανώς τη μορφοποίηση, συμπεριλαμβανομένων των επικεφαλίδων.

* Βρείτε και αντικαταστήστε (επαναληπτικά): Εκτελέστε μια λειτουργία "εύρεση και αντικατάσταση".

* Βρείτε: «

.*?

`(Αυτό βρίσκει τα πάντα μεταξύ`

`και`

`ετικέτες. Το `.

Τμήματα)

* Αντικατάσταση: Κρατήστε αυτό το πεδίο άδειο. Κάντε κλικ στην επιλογή "Αντικατάσταση όλων." Αυτό θα διαγράψει το περιεχόμενο αλλά * όχι * την επικεφαλίδα. Επαναλάβετε για `

Ετικέτες.

* Επαναλάβετε: Στη συνέχεια, θα χρειαστεί να διαγράψετε με μη αυτόματο τρόπο τα πάντα * εκτός από τις επικεφαλίδες. Αυτό είναι πολύ χρονοβόρο για ένα μεγάλο αρχείο.

2. Χρησιμοποιώντας το OpenOffice Calc και τις κανονικές εκφράσεις (πιο προηγμένες, αλλά δυνητικά καλύτερες):

Αυτή η προσέγγιση είναι πιο αυτοματοποιημένη, αλλά απαιτεί κάποια εξοικείωση με τις κανονικές εκφράσεις και τις λειτουργίες υπολογιστικών φύλλων.

* Εισαγωγή (ως κείμενο): Ανοίξτε το αρχείο HTML στο OpenOffice Calc. Εισαγάγετε το ως απλό κείμενο, όχι HTML, για να αποφύγετε τη μορφοποίηση των προβλημάτων. Πιθανότατα θα εισαγάγει ως ένα ενιαίο, πολύ μακρύ κελί.

* Διαχωρίστε το κείμενο: Χρησιμοποιήστε τη λειτουργία `textsplit '(διαθέσιμη σε νεότερες εκδόσεις του OpenOffice) για να χωρίσετε το κείμενο σε γραμμές με βάση έναν οριοθετημένο μεταφορέα (` \ n`). Αυτό θα σας δώσει μία γραμμή ανά γραμμή κώδικα HTML (περίπου).

* Τακτικές εκφράσεις (με `regex`): Χρησιμοποιήστε τη συνάρτηση regex` του OpenOffice (παρόμοια με το regexmatch` ή το `regexExtract` του Excel ανάλογα με την έκδοση σας) μέσα σε μια νέα στήλη. Ο τύπος πρέπει να εξαγάγει το κείμενο της επικεφαλής. Ένα παράδειγμα:`=regex (a1,"

(.*?)

|

(.*?)

"2)`

* Αυτός ο τύπος αναζητά `

ή `

Ετικέτες, καταγράφοντας το περιεχόμενο μέσα. Ο `|` ενεργεί ως "ή" χειριστής. Το `(.*?)` Καταγράφει το περιεχόμενο μη-πράσινο. Η «2» εξάγει τη δεύτερη ομάδα σύλληψης. αν μόνο `

`βρέθηκε ότι θα ήταν μια κενή συμβολοσειρά.

* Φίλτρο και καθαρίστε: Φιλτράρισμα για μη κενά κύτταρα για την απομάκρυνση καταχωρίσεων χωρίς να βρέθηκαν επικεφαλίδες. Θα χρειαστείτε ακόμα κάποιο χειροκίνητο καθαρισμό για να αφαιρέσετε τυχόν επιπλέον κενά ή αδέσποτους χαρακτήρες από τα αποτελέσματα.

3. Χρήση εξωτερικών εργαλείων (συνιστώμενα):

Αυτό είναι μακράν η ευκολότερη και αποτελεσματικότερη μέθοδος για ένα μεγάλο αρχείο. Χρησιμοποιήστε ένα εξειδικευμένο εργαλείο επεξεργασίας κειμένου ή γλώσσα δέσμης ενεργειών όπως η Python:

* Python με «όμορφη σούπα»: Η Python, με τη βιβλιοθήκη `Beautiful Soup 'είναι εξαιρετική για την ανάλυση HTML. Ένα σύντομο σενάριο μπορεί να εξαγάγει μόνο τις ετικέτες "H2` και" H3` και το περιεχόμενό τους. Πολλά online σεμινάρια δείχνουν πώς να το κάνετε αυτό.

Παράδειγμα σενάριο Python:

`` `Python

Από το BS4 Import Beautifulsoup

με ανοιχτό ("your_100page_html_file.html", "r", encoding ="utf-8") ως f:

html =f.read ()

Σούπα =Beautifulsoup (HTML, "html.parser")

επικεφαλίδες =[]

Για το H2 στο Soup.find_all ("H2"):

Headings.Append (h2.text.strip ())

Για το H3 στο Soup.find_all ("H3"):

Headings.append (h3.text.strip ())

με ανοιχτό ("extracted_headings.txt", "w", encoding ="utf-8") ως outfile:

για επικεφαλίδα σε επικεφαλίδες:

outfile.write (επικεφαλίδα + "\ n")

εκτύπωση ("Οι επικεφαλίδες που εξάγονται στο εξαγόμενο_Headings.txt")

`` `

Θυμηθείτε να αντικαταστήσετε το `" your_100page_html_file.html "` με το πραγματικό σας όνομα αρχείου. Θα πρέπει να εγκαταστήσετε `όμορφη σούπα ':` pip install beautifulsoup4'

Η προσέγγιση της Python συνιστάται έντονα για την αποτελεσματικότητα και την ακρίβειά της. Οι μέθοδοι OpenOffice είναι σημαντικά πιο δυσκίνητες για ένα αρχείο αυτού του μεγέθους.

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα