Μονάδα:
Τμήμα Πληροφορικής & ΤηλεπικοινωνιώνΠληροφορική
Ημερομηνία κατάθεσης:
2020-10-28
Συγγραφέας:
ΡΕΠΠΑΣ ΙΩΑΝΝΗΣ
Στοιχεία επιβλεπόντων καθηγητών:
Δημήτρης Γουνόπουλος, Καθηγητής, Τμήμα Πληροφορικής και Τηλεπικοινωνιών, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών
Πρωτότυπος Τίτλος:
Αναγνωρίζοντας σχεδόν-Διπλότυπα Αρχεία
Γλώσσες εργασίας:
Ελληνικά
Μεταφρασμένος τίτλος:
Αναγνωρίζοντας σχεδόν-Διπλότυπα Αρχεία
Περίληψη:
Σκοπός της εργασίας αποτελεί η αναγνώριση των διπλότυπων αρχείων. Με τον όρο «διπλότυπα αρχεία», εννοούμε αρχεία τα οποία έχουν μεγάλο βαθμό ομοιότητας. Η μαθηματική προσέγγιση του προβλήματος περιλαμβάνει έναν αλγόριθμο για τον υπολογισμό των διπλότυπων αρχείων, ο οποίος προσεγγίζει αρκετά καλά το επιθυμητό αποτέλεσμα, σε σχέση με άλλους, πιο απλούς αλγορίθμους. Πιο συγκεκριμένα, υπολογίζεται ένα “sketch” για κάθε αρχείο. Με τον όρο sketch, εννοούμε ένα μικρό υποσύνολο δεδομένων του αρχικού αρχείου, το οποίο δεν υπερβαίνει μερικά εκατοντάδες bytes σε μέγεθος. Για τον υπολογισμό της ομοιότητας μεταξύ των δύο αρχείων, χρησιμοποιούνται τα δύο sketch τους. Η ομοιότητα (resemblance) εκφράζεται ως ένας αριθμός από το 0 μέχρι το 1. Όσο πιο κοντά στο 1 είναι το αποτέλεσμα, τόσο πιο «όμοια» είναι μεταξύ τους τα αρχεία. Με βάση τα αποτελέσματα αρκετών εκτελέσεων που έγιναν για τον παραπάνω αλγόριθμο, επιβεβαιώθηκε η ορθότητά του.
Ο αλγόριθμος της σύγκρισης και ανίχνευσης όμοιων αρχείων έχει εφαρμογές σε διάφορες περιπτώσεις, από την απλή σύγκριση δύο αρχείων μέχρι και το φιλτράρισμα όμοιων αρχείων για την προβολή μη-όμοιων ιστοσελίδων από τις μηχανές αναζήτησης, έτσι ώστε να προσφέρεται ποικιλία αποτελεσμάτων στους χρήστες. Πιο συγκεκριμένα, παρόμοιος αλγόριθμος (στον οποίο έχει βασιστεί και η πτυχιακή εργασία) έχει υλοποιηθεί και χρησιμοποιηθεί από τη μηχανή αναζήτησης AltaVista.
Κύρια θεματική κατηγορία:
Τεχνολογία – Πληροφορική
Λέξεις-κλειδιά:
ομοιότητα, σύγκριση, shingling, μεταθέσεις, sketch
Αρ. σελίδων ευρετηρίου:
3
Αρ. βιβλιογραφικών αναφορών:
5