Αναγνωρίζοντας σχεδόν-Διπλότυπα Αρχεία

Πτυχιακή Εργασία uoadl:2926479 144 Αναγνώσεις

Μονάδα:
Τμήμα Πληροφορικής & Τηλεπικοινωνιών
Πληροφορική
Ημερομηνία κατάθεσης:
2020-10-28
Έτος εκπόνησης:
2020
Συγγραφέας:
ΡΕΠΠΑΣ ΙΩΑΝΝΗΣ
Στοιχεία επιβλεπόντων καθηγητών:
Δημήτρης Γουνόπουλος, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Αναγνωρίζοντας σχεδόν-Διπλότυπα Αρχεία
Γλώσσες εργασίας:
Ελληνικά
Μεταφρασμένος τίτλος:
Αναγνωρίζοντας σχεδόν-Διπλότυπα Αρχεία
Περίληψη:
Σκοπός της εργασίας αποτελεί η αναγνώριση των διπλότυπων αρχείων. Με τον όρο «διπλότυπα αρχεία», εννοούμε αρχεία τα οποία έχουν μεγάλο βαθμό ομοιότητας. Η μαθηματική προσέγγιση του προβλήματος περιλαμβάνει έναν αλγόριθμο για τον υπολογισμό των διπλότυπων αρχείων, ο οποίος προσεγγίζει αρκετά καλά το επιθυμητό αποτέλεσμα, σε σχέση με άλλους, πιο απλούς αλγορίθμους. Πιο συγκεκριμένα, υπολογίζεται ένα “sketch” για κάθε αρχείο. Με τον όρο sketch, εννοούμε ένα μικρό υποσύνολο δεδομένων του αρχικού αρχείου, το οποίο δεν υπερβαίνει μερικά εκατοντάδες bytes σε μέγεθος. Για τον υπολογισμό της ομοιότητας μεταξύ των δύο αρχείων, χρησιμοποιούνται τα δύο sketch τους. Η ομοιότητα (resemblance) εκφράζεται ως ένας αριθμός από το 0 μέχρι το 1. Όσο πιο κοντά στο 1 είναι το αποτέλεσμα, τόσο πιο «όμοια» είναι μεταξύ τους τα αρχεία. Με βάση τα αποτελέσματα αρκετών εκτελέσεων που έγιναν για τον παραπάνω αλγόριθμο, επιβεβαιώθηκε η ορθότητά του.
Ο αλγόριθμος της σύγκρισης και ανίχνευσης όμοιων αρχείων έχει εφαρμογές σε διάφορες περιπτώσεις, από την απλή σύγκριση δύο αρχείων μέχρι και το φιλτράρισμα όμοιων αρχείων για την προβολή μη-όμοιων ιστοσελίδων από τις μηχανές αναζήτησης, έτσι ώστε να προσφέρεται ποικιλία αποτελεσμάτων στους χρήστες. Πιο συγκεκριμένα, παρόμοιος αλγόριθμος (στον οποίο έχει βασιστεί και η πτυχιακή εργασία) έχει υλοποιηθεί και χρησιμοποιηθεί από τη μηχανή αναζήτησης AltaVista.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
ομοιότητα, σύγκριση, shingling, μεταθέσεις, sketch
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
3
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
5
Αριθμός σελίδων:
42
IdentifyingNearDuplicateDocuments.pdf (508 KB) Άνοιγμα σε νέο παράθυρο