λογισμικό

Γνώση Υπολογιστών >> λογισμικό >  >> Λογισμικό Κινούμενων Σχεδίων

Τι είναι ένα πρόγραμμα υπολογιστή αράχνης;

Ένα πρόγραμμα υπολογιστών "Spider", πιο γνωστό ως crawler web ή Spider Web , είναι ένας τύπος bot που συστηματικά περιηγεί στον παγκόσμιο ιστό, συνήθως για το σκοπό της ευρετηρίασης ιστοσελίδων για μια μηχανή αναζήτησης. Το κάνει αυτό ακολουθώντας συνδέσμους από σελίδα σε σελίδα.

Ακολουθεί μια ανάλυση του τρόπου με τον οποίο λειτουργεί:

* Ξεκινά σε μια διεύθυνση URL σπόρου: Ο ανιχνευτής αρχίζει με μια λίστα με τις διευθύνσεις URL εκκίνησης (τις διευθύνσεις URL "Seed"). Αυτά θα μπορούσαν να παρέχονται με το χέρι ή να επιλεγούν από μια βάση δεδομένων γνωστών ιστότοπων.

* Λέει το HTML: Ο ανιχνευτής κατεβάζει τον πηγαίο κώδικα HTML κάθε URL που επισκέπτεται.

* αναλύει το html: Αναλύει το HTML για την εξαγωγή πληροφοριών, όπως:

* Περιεχόμενο κειμένου: Τις λέξεις και τις προτάσεις στη σελίδα.

* Σύνδεσμοι: URL που δείχνουν σε άλλες ιστοσελίδες.

* μεταδεδομένα: Πληροφορίες όπως ο τίτλος, οι περιγραφές και οι λέξεις -κλειδιά.

* Δείχνει τις πληροφορίες: Τα εξαγόμενα δεδομένα αποθηκεύονται σε ένα δείκτη, μια τεράστια βάση δεδομένων που χρησιμοποιείται από τις μηχανές αναζήτησης για να ανακτήσει γρήγορα τα σχετικά αποτελέσματα στα ερωτήματα των χρηστών.

* Ακολουθεί συνδέσμους: Ο ανιχνευτής προσθέτει τους πρόσφατα ανακαλυφθέντες συνδέσμους στην ουρά των διευθύνσεων URL που πρέπει να επισκεφθείτε. Δίνει προτεραιότητα σε ορισμένους συνδέσμους έναντι άλλων με βάση διάφορους παράγοντες (όπως η εξουσία της σελίδας σύνδεσης). Αυτή η διαδικασία συνεχίζεται αναδρομικά, επεκτείνοντας προς τα έξω από τις αρχικές διευθύνσεις URL σπόρων.

* Σεβασμός robots.txt: Οι δεοντολογικοί και καλά συμπεριφερόμενοι ανιχνευτές ιστού σέβονται το αρχείο `robots.txt` σε κάθε ιστότοπο. Αυτό το αρχείο καθορίζει τα τμήματα του ιστότοπου που επιτρέπεται ή απαγορεύεται η πρόσβαση στο ανιχνευτή.

* Πολιτικές ευγένειας: Για να αποφευχθεί η υπερφόρτωση ιστότοπων, οι καλοί ανιχνευτές εφαρμόζουν πολιτικές ευγένειας, οι οποίες περιλαμβάνουν τον περιορισμό του ρυθμού με τον οποίο ζητούν σελίδες από έναν μόνο διακομιστή και ενδεχομένως καθυστερούν τα αιτήματά τους.

Εν ολίγοις, η αράχνη είναι ένα αυτοματοποιημένο πρόγραμμα που διερευνά συστηματικά τον ιστό, συλλέγοντας πληροφορίες και καθιστώντας την αναζήτηση. Είναι ένα κρίσιμο στοιχείο του τρόπου λειτουργίας των μηχανών αναζήτησης.

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα