υπολογιστή

* Γνώση Υπολογιστών >> υπολογιστή >> Διαδίκτυο

Πώς να βρείτε κρυμμένες σελίδες σε ιστότοπους

Το 2016, η Google χειρίστηκε πάνω από 3,2 τρισεκατομμύρια ερωτήματα αναζήτησης, ωστόσο τα αποτελέσματα της μηχανής αναζήτησης αντιστοιχούσαν μόνο σε ένα μικρό μέρος του διαθέσιμου περιεχομένου στο διαδίκτυο. Μεγάλο μέρος των διαθέσιμων πληροφοριών στο διαδίκτυο δεν είναι προσβάσιμο από τις μηχανές αναζήτησης, επομένως πρέπει να χρησιμοποιήσετε ειδικά εργαλεία ή να ερευνήσετε τον εαυτό σας προσωπικά για να βρείτε αυτές τις κρυφές σελίδες. Γνωστή ως ο βαθύς ιστός, αυτές οι κρυφές πληροφορίες αντιπροσωπεύουν μέχρι 5.000 φορές αυτό που είναι διαθέσιμο χρησιμοποιώντας τις τυπικές τεχνικές αναζήτησης.

Τύποι κρυμμένου περιεχομένου

Οι κρυμμένες σελίδες των ιστοτόπων πέφτουν κατηγορίες που περιγράφουν γιατί παραμένουν αόρατες για τις μηχανές αναζήτησης.

Ορισμένοι αποτελούν δυναμικό περιεχόμενο, εξυπηρετούνται μόνο όταν ένας επισκέπτης εκδίδει ένα συγκεκριμένο αίτημα σε έναν ιστότοπο που χρησιμοποιεί κώδικα που βασίζεται σε βάση δεδομένων για να παρουσιάσει στοχευμένα αποτελέσματα. Για παράδειγμα, αυτές οι σελίδες θα μπορούσαν να περιλαμβάνουν αποτελέσματα αγορών με βάση συγκεκριμένους συνδυασμούς κριτηρίων προϊόντος. Οι μηχανές αναζήτησης δεν έχουν σχεδιαστεί για να παρακολουθούν και να αποθηκεύουν πληροφορίες που είναι αποθηκευμένες σε αυτές τις βάσεις δεδομένων. Για να βρείτε αυτές τις σελίδες, θα πρέπει να μεταβείτε στον ιστότοπο και να αναζητήσετε τις συγκεκριμένες πληροφορίες που αναζητάτε ή να χρησιμοποιήσετε μια υπηρεσία αναζήτησης με βάση τις βάσεις δεδομένων, όπως το Bright Planet. Ορισμένες σελίδες δεν έχουν συνδέσμους που να τις συνδέσετε σε πηγές με δυνατότητα αναζήτησης. Οι προσωρινοί πόροι, όπως οι πολλαπλές εκδόσεις ιστότοπων υπό ανάπτυξη, μπορεί να εμπίπτουν σε αυτήν την κατηγορία, όπως και οι ανεπαρκώς σχεδιασμένοι ιστότοποι. Για παράδειγμα, αν κάποιος δημιούργησε μια ιστοσελίδα και την ανέβασε στο διακομιστή του ιστότοπου, αλλά απέτυχε να προσθέσει ένα σύνδεσμο σε αυτήν στις τρέχουσες σελίδες του ιστότοπου, κανείς δεν θα ξέρει ότι ήταν εκεί, συμπεριλαμβανομένων των μηχανών αναζήτησης.

Ακόμα περισσότερες σελίδες απαιτούν πιστοποιήσεις σύνδεσης για προβολή ή πρόσβαση σε αυτές, όπως ιστότοπους συνδρομής. Οι σχεδιαστές ιστοσελίδων ορίζουν σελίδες και τμήματα ιστότοπων ως εκτός ορίων για τις μηχανές αναζήτησης, εξαλείφοντάς τους αποτελεσματικά από το να βρεθούν με συμβατικά μέσα. Για να αποκτήσετε πρόσβαση σε αυτές τις σελίδες, συνήθως πρέπει να δημιουργήσετε έναν λογαριασμό, πριν να σας δοθεί άδεια πρόσβασης.

Χρήση αρχείων Robots.txt

Οι μηχανές αναζήτησης ανιχνεύουν σελίδες σε έναν ιστότοπο και να αναδείξει το περιεχόμενό του, ώστε να μπορεί να εμφανιστεί ως απάντηση σε ερωτήματα. Όταν ένας ιδιοκτήτης ιστότοπου θέλει να αποκλείσει ορισμένα τμήματα του τομέα από αυτές τις διαδικασίες ευρετηρίασης, προσθέτει τις διευθύνσεις αυτών των καταλόγων ή σελίδων σε ένα ειδικό αρχείο κειμένου που ονομάζεται robots.txt και είναι αποθηκευμένο στη ρίζα του ιστότοπού του. Επειδή οι περισσότεροι ιστότοποι περιλαμβάνουν ένα αρχείο ρομπότ ανεξάρτητα από το αν προσθέτουν εξαιρέσεις σε αυτό, μπορείτε να χρησιμοποιήσετε το προβλέψιμο όνομα του εγγράφου για να εμφανίσετε τα περιεχόμενά του.

Αν πληκτρολογήσετε "[domain name] /robots.txt" χωρίς τα εισαγωγικά στην γραμμή θέσης του προγράμματος περιήγησης, αντικαθιστώντας το "[domain name]" με τη διεύθυνση ιστότοπου, το περιεχόμενο του αρχείου ρομπότ εμφανίζεται συχνά στο παράθυρο του προγράμματος περιήγησης αφού πατήσετε το πλήκτρο "Enter". Οι καταχωρήσεις που προηγήθηκαν με "disallow" ή "nofollow" αντιπροσωπεύουν τμήματα του site που παραμένουν απρόσιτα μέσω μιας μηχανής αναζήτησης. στα αρχεία robot.txt, συχνά βρίσκετε άλλο κρυφό περιεχόμενο πληκτρολογώντας τις διευθύνσεις ιστού για συγκεκριμένες σελίδες και φακέλους στο πρόγραμμα περιήγησης ιστού. Για παράδειγμα, αν κοιτάξατε τον ιστότοπο ενός καλλιτέχνη και παρατηρήσατε ότι κάθε σελίδα χρησιμοποίησε την ίδια ονομασία - όπως gallery1.html, gallery2.html, gallery4.html - τότε μπορεί να βρείτε μια κρυφή γκαλερί πληκτρολογώντας τη σελίδα " gallery3.html. " στο πρόγραμμα περιήγησης ιστού.

Ομοίως, αν δείτε ότι ο ιστότοπος χρησιμοποιεί φακέλους για την οργάνωση σελίδων - όπως example.com/content/page1.html, με το "/content" να είναι ο φάκελος - τότε μπορεί να είστε σε θέση για να προβάλετε τον ίδιο τον φάκελο πληκτρολογώντας τον ιστότοπο και τον φάκελο χωρίς μια σελίδα, όπως το "example.com/content/" στο πρόγραμμα περιήγησης ιστού. Εάν η πρόσβαση στο φάκελο δεν έχει απενεργοποιηθεί, τότε μπορείτε να περιηγηθείτε στις σελίδες που περιέχει, καθώς και σε σελίδες σε οποιονδήποτε υπο-φάκελο, για να βρείτε κρυφό περιεχόμενο.

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα