υπολογιστή

* Γνώση Υπολογιστών >> υπολογιστή >> Λογισμικό

Τρόπος εξαγωγής κειμένου από έγγραφο PDF

Μπορεί να είναι πολύ απογοητευτικό να προσπαθήσετε να εξαγάγετε κείμενο από ένα αρχείο PDF για χρήση σε άλλη εφαρμογή. Δεν είναι ασυνήθιστο τα γραφικά να φτάσουν στον τρόπο ή τη διάταξη του εγγράφου για να δυσκολευτεί η μεταφορά του τεστ σε σημαντικές προτάσεις. Παρόλο που δεν είναι αδύνατο να εξαγάγετε κείμενο με προσέγγιση αντιγραφής και επικόλλησης, μπορεί να χρονοβόρα και δεν επιτρέπει την εξαγωγή κειμένου αρχείου PDF ως διαφορετική μορφή. Υπάρχουν, ωστόσο, μερικοί τρόποι για να εξαγάγετε κείμενο από ένα αρχείο PDF.

Εξαγωγή κειμένου με χρήση του Acrobat Reader

Βήμα 1

Ανοίξτε το αρχείο στο Acrobat Reader. Στα Windows, επιλέξτε "Αρχείο -> Εξαγωγή εγγράφου σε κείμενο", ονομάστε το έγγραφο και αποθηκεύστε το.

Βήμα 2

Αντιγράψτε το κείμενο σε λειτουργικό σύστημα Mac ή Linux, μεταβαίνοντας στο μενού Προβολή και επιλέγοντας " Συνεχής "ή" Συνεχής-Αντιμετώπιση ". (Ο πρώτος θα σας παράσχει το κείμενο σε μια στήλη, ενώ το τελευταίο θα διαμορφώσει το κείμενο ως σελίδες δίπλα-δίπλα.) Μεταβείτε στην επιλογή "Επεξεργασία -> Επιλογή όλων" και στη συνέχεια "Επεξεργασία -> Αντιγραφή" Χρησιμοποιήστε το εργαλείο επιλογής αν θέλετε να εξαγάγετε μόνο ένα μέρος του κειμένου. Κάντε κλικ στο εργαλείο "Επιλογή κειμένου" και στη συνέχεια επιλέξτε τις πληροφορίες που θέλετε. Σε ένα έγγραφο μορφοποιημένο σε πολλές στήλες, θα πρέπει πρώτα να χρησιμοποιήσετε το εργαλείο "Επιλογή στήλης". Πηγαίνετε στο "Επεξεργασία -> Αντιγραφή".

Μετατροπή PDF σε HTML

Βήμα 1

Χρησιμοποιήστε το Gmail ως συντόμευση. Συνδέστε το αρχείο PDF σε ένα μήνυμα ηλεκτρονικού ταχυδρομείου και στείλτε το στο λογαριασμό σας στο Gmail. Όταν ανοίγετε το μήνυμα ηλεκτρονικού ταχυδρομείου, θα δείτε πολλές επιλογές δίπλα στο συνημμένο. Επιλέξτε "Προβολή ως HTML" και αποθηκεύστε το αρχείο που ανοίγει σε ξεχωριστό παράθυρο. Αν και δεν θα μπορείτε να δείτε οποιαδήποτε γραφικά, το αρχείο HTML θα διατηρήσει τη μορφοποίηση κειμένου του εγγράφου.

Βήμα 2

Εξαγωγή και μετατροπή αρχείων στη γραμμή εντολών. Οι χρήστες του Linux μπορούν να χρησιμοποιήσουν μια βασική εντολή μετατροπής, η οποία θα αλλάξει ένα αρχείο .pdf σε ένα αρχείο .txt: "pdftotext filename.pdf". Να είστε βέβαιος να αντικαταστήσετε το όνομα αρχείου με το όνομα του αρχείου PDF.

Λήψη προγράμματος μετατροπής PDF σε κείμενο. Υπάρχουν διαθέσιμα διάφορα προγράμματα ανοιχτού κώδικα και δωρεάν λογισμικού όπως το PDFBox και ο Εύκολος μετατροπέας κειμένου PDF σε κείμενο (δείτε τους παρακάτω πόρους). Πολλά από αυτά τα προγράμματα μπορούν επίσης να μετατρέψουν τα αρχεία PDF σε HTML επίσης.

Συμβουλές

Προσδιορίστε εάν το έγγραφο έχει μορφοποιηθεί ώστε να περιέχει κείμενο και γραφικά. Η προσέγγιση Adobe Acrobat θα λειτουργήσει μόνο εάν το αρχείο PDF περιέχει και τα δύο. δεν θα λειτουργήσει μόνο για αρχεία με εικόνες. Σε ορισμένες περιπτώσεις, το κείμενο σε ένα έγγραφο PDF είναι στην πραγματικότητα μορφοποιημένο ως εικόνα. Αυτό συμβαίνει συχνά όταν γίνεται σάρωση ενός πρωτότυπου εγγράφου και δημιουργείται ένα αρχείο PDF από τη σαρωμένη εικόνα.

Προετοιμαστείτε να αναμορφώσετε μερικά από το κείμενο όταν χρησιμοποιείτε το Acrobat Reader. Αυτός ο τρόπος εξαγωγής απλώς εξάγει το αρχείο PDF σε ένα αρχείο κειμένου - δεν θα διατηρήσει αναγκαστικά τη διαμόρφωση. Ωστόσο, αν απλά πρέπει να χρησιμοποιήσετε τις λέξεις αυτό δεν πρέπει να είναι ένα πρόβλημα.

Στοιχεία που χρειάζεστε

Αρχείο PDF

Λογισμικό Adobe Acrobat Reader

Λογαριασμός Gmail (προαιρετικό)

Λογισμικό μετατροπής κειμένου PDF (προαιρετικό)

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα