λογισμικό

* Γνώση Υπολογιστών >> λογισμικό >> λογισμικού βάσεων δεδομένων

Καθαρισμός δεδομένων Μέθοδοι

καθαρισμό δεδομένων - αλλιώς γνωστή ως καθαρισμού των δεδομένων ή τρίψιμο - είναι η διαδικασία ανίχνευσης και διόρθωσης των σφαλμάτων , οι ανακολουθίες και παραλείψεις στα δεδομένα . Τεράστιες ποσότητες δεδομένων που συλλέγονται και αναλύονται από τους πολιτικούς , οικονομολόγους και επιστήμονες , αλλά σφαλμάτων σε δεδομένα - τα οποία μπορεί να επηρεάσουν την επεξεργασία του και τα συμπεράσματα που προέκυψαν από αυτό - είναι κοινά και θα πρέπει να αναμένεται . Υπάρχουν διάφορες μέθοδοι καθαρισμού των δεδομένων , τόσο παραδοσιακά όσο και αυτοματοποιημένη . Στατιστικές Μέθοδοι
Η

Στατιστικές μέθοδοι μπορούν να χρησιμοποιηθούν για να ελέγξουν δεδομένα και σωστή ακόμα και σύνθετα σφάλμα δεδομένων . Ένας στατιστικολόγος μπορεί να αναλύσει τη μέση τιμή , τυπική απόκλιση και το εύρος των τιμών των δεδομένων και , ως εκ τούτου , να εντοπίζει τα επιμέρους αρχεία βάσεων δεδομένων ( πλειάδες ), που δεν είναι έγκυρα . Αυτά τα αρχεία μπορούν να διαγραφούν ή να αντικατασταθούν κατά μέσο όρο ή άλλη στατιστική αξία . Στατιστικές μέθοδοι καθαρισμού των δεδομένων μπορεί επίσης να αναφέρει τις τιμές που λείπουν , η οποία μπορεί να συμπληρωθεί με εύλογες αξίες με βάση το υπόλοιπο του συνόλου των δεδομένων .
Εικόνων Δεδομένα εργαλεία Καθαρισμός
Η

Δεδομένων εργαλεία καθαρισμού έχουν υπάρξει για πολλά χρόνια . Αυτοματοποιημένα εργαλεία καθαρισμού δεδομένων συνήθως επικεντρώνονται σε ένα συγκεκριμένο τομέα βάσης δεδομένων - το οποίο καθορίζει τις πιθανές τιμές από ό, τι μπορούν να εισαχθούν σε κάθε τομέα , ή χαρακτηριστικό - όπως το όνομα και τα στοιχεία διεύθυνσης . Χρησιμοποιούν συνήθως μια σειρά από κανόνες που ταιριάζουν από μια βιβλιοθήκη , ή να παρέχεται διαδραστικά από τον χρήστη , να επικυρώσει τα ονόματα των δρόμων , τα ονόματα της πόλης και τους ταχυδρομικούς κώδικες και να μετατρέψει τα υπάρχοντα δεδομένα σε άτομο, τυπικά στοιχεία . Χρησιμοποιούν εγγραφή που ταιριάζει για να προσδιορίσει αν δύο εγγραφές αντιπροσωπεύουν τα δεδομένα για το ίδιο θέμα και είναι σε θέση να συνδυάσει τα άτομα τα αρχεία που έχουν , ας πούμε , την ίδια διεύθυνση . Εργαλεία καθαρισμού δεδομένα μπορεί να διαφέρουν ως προς το επίπεδο της πολυπλοκότητας όσον αφορά τον έλεγχο των δεδομένων , τον καθαρισμό και τη μετανάστευση .

Η ETL Tools
Η

ETL σημαίνει " Extract , Transform , Load " και υπάρχουν πολλά εμπορικά εργαλεία λογισμικού που έχουν σχεδιαστεί για να βοηθήσουν τη διαδικασία ETL του καθαρισμού των δεδομένων . Τα σημαντικότερα χαρακτηριστικά ενός αποτελεσματικού εργαλείου ETL είναι η ικανότητά του να διαβάζει δεδομένα προέλευσης άμεσα και να καθαρίσει και να μετατρέψει τα δεδομένα , μαζί με την υποστήριξή του για μεταδεδομένα . Τα μεταδεδομένα είναι έγγραφα ή πληροφορίες σχετικά με ένα συγκεκριμένο κομμάτι των δεδομένων και μπορεί να βοηθήσει το χρήστη να εντοπίσει τα λάθη και αντιφάσεις στα δεδομένα που δεν μπορούν , κατ 'ανάγκην , να προσδιορίζονται από την ίδια την ETL εργαλείο . ETL εργαλεία παρέχουν συνήθως μια βιβλιοθήκη λειτουργιών και σχήματα για τη μετατροπή των δεδομένων - μετατροπές τύπων δεδομένων , αριθμητικές συναρτήσεις , συναρτήσεις συμβολοσειράς , κλπ. - και να εξαγάγετε τα δεδομένα από τις πηγές δεδομένων ελεύθερης μορφής , με κάποιους περιορισμούς , καθώς και μέσω του προτύπου ODBC ( « το Open Database Connectivity " ) και ο ΕΟΑ ( « Electronic Design Automation " ) διεπαφές .
Η
εικόνων

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα