* Η μορφή του κειμένου: Ένα απλό αρχείο κειμένου (όπως το `.txt`) θα είναι πολύ μικρότερο από ένα μορφοποιημένο αρχείο (όπως το` .doc`, `.docx`,` .pdf` ή ένα epub). Τα διαμορφωμένα αρχεία περιλαμβάνουν επιπλέον δεδομένα για πράγματα όπως στυλ γραμματοσειράς, εικόνες, σπασίματα σελίδας κ.λπ.
* Η κωδικοποίηση: Η κωδικοποίηση χαρακτήρων (π.χ., ASCII, UTF-8, UTF-16) επηρεάζει τον αριθμό των bytes ανά χαρακτήρα. Το UTF-8 είναι μια κωδικοποίηση μεταβλητού μήκους, που σημαίνει ότι ορισμένοι χαρακτήρες χρειάζονται περισσότερα byte από άλλα.
* Το συγκεκριμένο βιβλίο: Διαφορετικές εκδόσεις του ίδιου βιβλίου μπορεί να έχουν ελαφρώς διαφορετικά μήκη.
Ας κάνουμε κάποιες λογικές υποθέσεις:
* Μήκος: Ένα βιβλίο του Χάρι Πότερ είναι περίπου 300.000 λέξεις.
* χαρακτήρες ανά λέξη: Ας υποθέσουμε κατά μέσο όρο 5 χαρακτήρες ανά λέξη (συμπεριλαμβανομένων των χώρων).
* bytes ανά χαρακτήρα: Χρησιμοποιώντας το UTF-8, θα υποθέσουμε κατά μέσο όρο 1 byte ανά χαρακτήρα (αυτή είναι μια απλοποίηση, ορισμένοι χαρακτήρες απαιτούν περισσότερα).
Υπολογισμός:
1. Συνολικοί χαρακτήρες: 300.000 λέξεις * 5 χαρακτήρες/λέξη =1.500.000 χαρακτήρες
2. Συνολικά bytes (απλό κείμενο): 1.500.000 χαρακτήρες * 1 byte/χαρακτήρα =1.500.000 bytes (περίπου 1,5 MB)
Ωστόσο, αυτή είναι μια * πολύ * χαμηλή εκτίμηση. Ένα μορφοποιημένο ebook (EPUB, για παράδειγμα) ή ένα σαρωμένο PDF ενός τυπωμένου βιβλίου θα είναι σημαντικά μεγαλύτερο λόγω της συμπερίληψης πληροφοριών μορφοποίησης, εικόνων (εικονογραφήσεων) και ενδεχομένως ενσωματωμένων γραμματοσειρών. Ένα PDF μπορεί εύκολα να είναι 5-10 MB ή ακόμα περισσότερο, ενώ ένα EPUB μπορεί να είναι περίπου 2-5 MB.
Ως εκ τούτου, μια λογική εκτίμηση για ένα βιβλίο του Χάρι Πότερ σε μια κοινή ψηφιακή μορφή θα ήταν μεταξύ 2 και 10 MB .
Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα