Θεματικά Εστιασμένη Προσκομιδή Ιστοσελίδων από τον Κρυμμένο Παγκόσμιο Ιστό

Διπλωματική Εργασία uoadl:1317945 234 Αναγνώσεις

Μονάδα:
Κατεύθυνση / ειδίκευση Υπολογιστικά Συστήματα: Λογισμικό και Υλικό (ΣΥΣ)
Βιβλιοθήκη Σχολής Θετικών Επιστημών
Ημερομηνία κατάθεσης:
2011-07-05
Έτος εκπόνησης:
2011
Συγγραφέας:
Λιάκος Παναγιώτης
Στοιχεία επιβλεπόντων καθηγητών:
Καθηγητής Αλέξιος Δελής
Πρωτότυπος Τίτλος:
Θεματικά Εστιασμένη Προσκομιδή Ιστοσελίδων από τον Κρυμμένο Παγκόσμιο Ιστό
Γλώσσες εργασίας:
Αγγλικά
Περίληψη:
Ένα συνεχώς αυξανόμενο πλήθος υψηλής ποιότητας πληροφορίας είναι αποθηκευμένο
σε σελίδες που έρχονται από τον Κρυμμένο Παγκόσμιο Ιστό (Hidden Web). Τέτοιες
σελίδες είναι προσβάσιμες μόνο μέσω μιας διεπαφής επερωτήσεων που παρέχεται από
τους Κρυμμένους Ιστότοπους και μπορεί να εκτείνονται σε μία ποικιλία θεμάτων.
Προκειμένου να παρασχεθεί κεντρικοποιημένη πρόσβαση στον Κρυμμένο Παγκόσμιο
Ιστό, οι προηγούμενες προσπάθειες είχαν επικεντρωθεί στην ανάπτυξη τεχνικών
παραγωγής επερωτήσεων (queries) που στοχεύουν στην λήψη ενός ολόκληρου
Κρυμμένου ιστότοπου με το μικρότερο κόστος. Σε ορισμένες περιπτώσεις όμως, μας
ενδιαφέρει η λήψη μόνο ενός συγκεκριμένου κομματιού ενός τέτοιου ιστότοπου. Για
παράδειγμα, σε μία ειδησεογραφική βάση δεδομένων, έναν χρήστης μπορεί να
ενδιαφέρεται για την ανάκτηση μόνο των αθλητικών άρθρων και όχι των πολιτικών.
Σε αυτή την περίπτωση, πρέπει να κάνουμε την καλύτερη δυνατή χρήση των πόρων
μας κατεβάζοντας μόνο το τμήμα του Κρυμμένου ιστότοπου που μας ενδιαφέρει.
Στην εργασία αυτή, ερευνούμε το πως μπορούμε να αναπτύξουμε μια θεματικά
εστιασμένη εφαρμογή προσκομιδής κρυμμένων ιστοσελιδών (\lt Hidden Web Crawler)
\gt που μπορεί αυτόνομα να εξάγει θεματικές σελίδες από τον Κρυμμένο Παγκόσμιο
Ιστό, αναζητώντας μόνο στο υποσύνολο που είναι σχετικό με την αντίστοιχη
κατηγορία. Για το σκοπό αυτό, παρουσιάζουμε τεχνικές παραγωγής επερωτήσων που
λαμβάνουν υπόψη τους το θέμα το οποίο μας ενδιαφέρει. Προτείνουμε έναν πλήθος
από διαφορετικές πολιτικές συγκομιδής ιστοσελίδων και τις αξιολογούμε
πειραματικά με δεδομένα απο ένα δημοφιλή ιστότοπο.
Λέξεις-κλειδιά:
Κρυμμένος Παγκόσμιος Ιστός, εφαρμογή προσκομιδής ιστοσελίδων, θεματικά εστιασμένη, επιλογή επερωτήσεων, αξιολόγηση
Ευρετήριο:
Ναι
Αρ. σελίδων ευρετηρίου:
7-8
Εικονογραφημένη:
Ναι
Αρ. βιβλιογραφικών αναφορών:
18
Αριθμός σελίδων:
37