Προγραμματισμός

* Γνώση Υπολογιστών >> Προγραμματισμός >> Προγραμματισμός Υπολογιστών Γλώσσες

Πώς να δημιουργήσετε ένα Spider Web

A ιστό της αράχνης είναι μια εφαρμογή υπολογιστή που κατεβάζει μια σελίδα web και, στη συνέχεια, ακολουθεί όλους τους συνδέσμους σε αυτή τη σελίδα και να τους κατεβάζει , καθώς και. Web αράχνες που χρησιμοποιούνται για την αποθήκευση ιστοσελίδων για ανάγνωση χωρίς σύνδεση , ή για την αποθήκευση των ιστοσελίδων σε βάση δεδομένων που θα χρησιμοποιηθεί από μια μηχανή αναζήτησης . Δημιουργώντας μια αράχνη Web είναι ένα δύσκολο έργο , κατάλληλο για μια κατηγορία προγραμματισμού κολλέγιο-επίπεδο . Αυτές οι οδηγίες υποθέτουν ότι έχετε μεγάλη εμπειρία προγραμματισμού, αλλά καμία γνώση της αρχιτεκτονικής αράχνη . Τα βήματα απλώστε μια πολύ συγκεκριμένη αρχιτεκτονική για το γράψιμο μια αράχνη Web στη γλώσσα της επιλογής σας . Τα πράγματα που θα χρειαστείτε
πρόγραμμα περιήγησης στο Web που να ανταποκρίνεται στις προγραμματικές εντολές
γλώσσα προγραμματισμού με ανάγνωσης-εγγραφής πρόσβαση στο δίσκο και λειτουργίες της βάσης δεδομένων

Παρουσίαση Περισσότερες οδηγίες
Η 1

προετοιμαστεί σας πρόγραμμα με την αρχική ιστοσελίδα που θέλετε να κατεβάσετε . Προσθέστε τη διεύθυνση URL για αυτή τη σελίδα σε ένα νέο πίνακα της βάσης δεδομένων των URLs . 2

Στείλτε μια εντολή προς το web browser καθοδηγώντας το να φέρω αυτή την ιστοσελίδα , και να το αποθηκεύσετε σε ένα δίσκο . Μετακινήστε το δείκτη βάσης δεδομένων προς τα εμπρός ένα βήμα πέρα από το URL που μόλις αγόρασαν , η οποία θα δείξει τώρα στο τέλος του πίνακα .
Εικόνων 3

Διαβάστε την ιστοσελίδα στο πρόγραμμα , και να αναλύσει αυτό για συνδέσεις προς άλλες ιστοσελίδες . Αυτό γίνεται συνήθως με την έρευνα για το κείμενο string " http://", και συλλαμβάνοντας το κείμενο μεταξύ της χορδής και ένα χαρακτήρα τερματισμού (όπως "" , " . " , Ή " > " ) . Προσθέστε αυτούς τους συνδέσμους στον πίνακα της βάσης δεδομένων URL ? Ο δείκτης της βάσης δεδομένων θα πρέπει να παραμείνει στην κορυφή αυτής της νέας λίστας
Η 4

Δοκιμάστε τις καταχωρήσεις στον πίνακα της βάσης δεδομένων για την μοναδικότητα , και αφαιρέστε τυχόν διευθύνσεις URL που εμφανίζονται περισσότερες από μία φορές . .
5

Αν θέλετε να εφαρμόσετε ένα φίλτρο URL ( για παράδειγμα , για να αποτρέψει τη λήψη σελίδες από τις ιστοσελίδες σε διάφορους τομείς ) , θα εφαρμόζονται τώρα σε πίνακα της βάσης δεδομένων URL και αφαιρέστε τυχόν διευθύνσεις URL που δεν θέλετε για να κατεβάσετε .
Η 6

Δημιουργήστε ένα προγραμματικό θηλιά τόσο αράχνη σας επιστρέφει στο βήμα 2 παραπάνω . Αυτό θα κατεβάσετε αναδρομικά όλες τις διευθύνσεις URL συναντήσεις αράχνη σας . Αφαίρεση των διπλών URLs εξασφαλίζει ότι η αράχνη θα τερματίσει σωστά όταν φτάσει στο τελευταίο μοναδική διεύθυνση URL .
Η
εικόνων

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα