λογισμικό

Γνώση Υπολογιστών >> λογισμικό >  >> Συμπίεση δεδομένων

Πώς επηρεάζει η συμπίεση αρχείων TXT;

Η συμπίεση αρχείου επηρεάζει τα αρχεία TXT (αρχεία απλού κειμένου) μειώνοντας το μέγεθός τους. Αυτό επιτυγχάνεται με την εκμετάλλευση απολύσεων και μοτίβων εντός των δεδομένων κειμένου. Διαφορετικοί αλγόριθμοι συμπίεσης επιτυγχάνουν αυτό με διάφορους τρόπους, αλλά η γενική αρχή παραμένει η ίδια:

* συμπίεση χωρίς απώλειες: Αυτός είναι ο πιο συνηθισμένος τύπος που χρησιμοποιείται για τα αρχεία TXT. Οι αλγόριθμοι συμπίεσης χωρίς απώλειες εγγυώνται ότι το αρχικό κείμενο θα ανακατασκευαστεί τέλεια μετά την αποσυμπίεση. Λειτουργούν αναγνωρίζοντας τα επαναλαμβανόμενα πρότυπα, τις ακολουθίες χαρακτήρων ή άλλα προβλέψιμα δεδομένα και την αντικατάστασή τους με μικρότερους κωδικούς. Παραδείγματα περιλαμβάνουν:

* LZ77/LZ78 και τα παράγωγά τους (π.χ. Zip, Gzip, 7Z): Αυτοί οι αλγόριθμοι βρίσκουν επαναλαμβανόμενες ακολουθίες και τις αντικαταστήσουν με δείκτες σε προηγούμενα περιστατικά, μειώνοντας αποτελεσματικά τον πλεονασμό.

* κωδικοποίηση Huffman: Αυτός ο αλγόριθμος αποδίδει μικρότερους κωδικούς σε συχνότερους χαρακτήρες και μεγαλύτερους κωδικούς σε λιγότερο συχνές, μειώνοντας το συνολικό μέγεθος.

* bzip2: Αυτός ο αλγόριθμος χρησιμοποιεί ένα burrows-wheeler μετασχηματισμό για να αναδιατάξει τα δεδομένα πριν από την εφαρμογή της κωδικοποίησης Huffman, με αποτέλεσμα υψηλότερες αναλογίες συμπίεσης.

* συμπίεση απώλειας: Αυτός ο τύπος συμπίεσης δεν χρησιμοποιείται συνήθως για αρχεία TXT. Οι τεχνικές συμπίεσης απώλειας απορρίπτουν ορισμένες πληροφορίες για την επίτευξη μεγαλύτερης μείωσης του μεγέθους. Δεδομένου ότι η απόρριψη πληροφοριών σε ένα αρχείο κειμένου θα άλλαζε το νόημά του, αυτό δεν είναι πρακτικό. Παραδείγματα συμπίεσης απώλειας (τα οποία είναι ακατάλληλα για το TXT) περιλαμβάνουν το JPEG για εικόνες και MP3 για ήχο.

Πόση συμπίεση επιτυγχάνεται;

Η ποσότητα συμπίεσης που επιτυγχάνεται σε ένα αρχείο TXT εξαρτάται από διάφορους παράγοντες:

* Το μέγεθος του αρχικού αρχείου: Τα μεγαλύτερα αρχεία έχουν γενικά περισσότερες ευκαιρίες για πλεονασμό, επιτρέποντας υψηλότερους λόγους συμπίεσης.

* Το περιεχόμενο του αρχείου: Το εξαιρετικά επαναλαμβανόμενο κείμενο, όπως ο κώδικας με επαναλαμβανόμενα μπλοκ ή ένα έγγραφο με πολλές επαναλαμβανόμενες φράσεις, θα συμπιέζει καλύτερα από το πολύ τυχαίο κείμενο (όπως μια πραγματικά τυχαία σειρά χαρακτήρων).

* Ο αλγόριθμος συμπίεσης: Διαφορετικοί αλγόριθμοι έχουν διαφορετικές αποτελεσματικότητες. Το BZIP2 επιτυγχάνει γενικά υψηλότερη συμπίεση από το GZIP, αλλά με το κόστος της βραδύτερης συμπίεσης και των ταχύτητων αποσυμπίεσης.

Εν ολίγοις, η συμπίεση αρχείων για αρχεία TXT τα καθιστά μικρότερα για αποθήκευση και μετάδοση χωρίς να χάσουν δεδομένα. Η έκταση της μείωσης του μεγέθους εξαρτάται από την εγγενή δομή του κειμένου και τον επιλεγμένο αλγόριθμο συμπίεσης.

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα