24 Αυγούστου 2011

Ένα Αρχείο του Μέλλοντος : Twitter Archive by Library of Congress


άρθρο της κας Audrey Watters 
στον διαδικτυακό τόπο oreilly.com

Τον Απρίλιο του 2010 το Twitter ανακοίνωσε ότι παραχωρεί στην Βιβλιοθήκη του Κογκρέσου, το αρχείο με τα δημόσια tweets. Κάθε tweet από το 2006, εποχή ίδρυσης του Twitter, θα διαφυλαχθεί. Η παραχώρηση του δημόσιου αρχείου στην Βιβλιοθήκη του Κογκρέσου μπορεί να είναι εν μέρει μια συμβολική πράξη, μια προσπάθεια αναγνώρισης της πολιτιστικής σημασίας του Twitter. Εξάλλου από την εποχή που έγινε η ανακοίνωση παραχώρησης του αρχείου, αρκετές σημαντικές ιστορικές στιγμές έχουν ήδη καταγραφεί μέσω του Twitter, πχ. το πρώτο tweet από το διάστημα, το πρώτο tweet του Barack Obama ως Προέδρου της Αμερικής, η είδηση του θανάτου του Michael Jackson. Με το πέρασμα του χρόνου έχει αυξηθεί το ενδιαφέρον της ιντερνετικής κοινότητας και των ερευνητών, για τα tweets.


Συνέπεια αυτών ήταν, η Βιβλιοθήκη του Κογκρέσου να κατακλυστεί από ερωτήματα ερευνητών για το πότε και το πώς θα γίνει προσβάσιμο το υλικό του αρχείου του Twitter. Αιτήματα που ίσως ενισχύθηκαν από τις αλλαγές που έκανε το Twitter, στο API and firehose access.


Όμως η διαχείριση και διάθεση ενός αρχείο όπως αυτό του Twitter είναι μια πολύπλοκη και δύσκολη διαδικασία ακόμα και για μια Βιβλιοθήκη όπως αυτή του Κογκρέσου. Πρόκειται για ένα πρωτοποριακό έργο, που αποτελεί πρόκληση στον τομέα της αρχειοθέτησης ψηφιακών δεδομένων αυτού του είδους.   


Αξίζει να αναφερθεί εδώ, ότι η Βιβλιοθήκη του Κογκρέσου έχει ως σύμμαχο στο έργο της την σχεδόν δεκαετή εμπειρία της στον τομέα της διατήρησης και διάθεσης ψηφιακού υλικού π.χ. από το 2000 αρχειοθετεί ιστοσελίδες από τις αμερικανικές προεκλογικές εκστρατείες για την Προεδρεία και το Κογκρέσο - web αρχεία έκτασης μεγαλύτερης των 200 terabytes -. Διαθέτει επίσης εκατοντάδες terabytes ψηφιοποιημένων εφημερίδων, αλλά και petabytes δεδομένων από άλλες πηγές, όπως κινηματογραφικά αρχεία και υλικό από το Folklife Center. Κατ επέκταση και το αρχείο του Twitter εμπίπτει στο ήδη υπάρχον πεδίο διατήρησης ψηφιακού υλικού, που διαθέτει και αναπτύσσει η Βιβλιοθήκη του Κογκρέσου. Η κυρία Martha Anderson, επικεφαλής του National Digital Information Infrastructure and Preservation Program (NDIIP), της Βιβλιοθήκης του Κογκρέσου, αναφέρει χαρακτηριστικά ότι παρά τη μακρά εμπειρία στο τομέα των ψηφιακών αρχείων η Βιβλιοθήκη “felt pretty brave about taking on Twitter".

Αυτό που κάνει το όλο εγχείρημα δύσκολο, δεν είναι μόνο το μέγεθος του αρχείου αλλά και  σύνθεσή του, καθώς αποτελείται από δισεκατομμύρια και δισεκατομμύρια και δισεκατομμύρια ετερόκλιτων tweets. Την περίοδο που η δωρεά ανακοινώθηκε πέρυσι, δημιουργούνταν περίπου 50 εκατομμύρια tweets ανά ημέρα, ενώ όταν το Twitter γιόρταζε τα 5α γενέθλια του, πριν από μερικούς μήνες, ο αριθμός αυτός έχει αυξηθεί σε περίπου 140 εκατομμύρια tweets την ημέρα. Τα δεδομένα - tweets εξακολουθούν να παράγονται συνεχώς και ο αριθμός τους όλο και μεγαλώνει. Η Βιβλιοθήκη του Κογκρέσου έχει πρόσβαση μέσω Gnip, στα real-time και στα ιστορικού χαρακτήρα tweets.


Κάθε tweet αποτελεί ένα αρχείο JSON, που περιέχει πολύ μεγάλο αριθμό μεταδεδομένων, εκτός από το καθεαυτό περιεχόμενο του κάθε tweet (ημερομηνία, ώρα, αριθμό followers, ημερομηνία δημιουργίας λογαριασμού, geodata κλπ). Το επίπεδο δυσκολία ανεβαίνει αν σε όλα αυτά ληφθεί υπόψιν ότι πολλά tweets περιέχουν URLs, γεγονός που έχει οδηγήσει την Βιβλιοθήκη του Κογκρέσου σε συζητήσεις με πολλούς από τους παρόχους URLs, καθώς και με το Internet Archive και το 301works project, για να επιτραπεί η “χαρτογραφηση” αυτών των URLs


Όπως έχουν τα πράγματα, η κυρία Anderson πιστεύει ότι “they won't be crawling all these external sites and end-points”, αν και προσθέτει ότι το μεγάλο όραμα για το μέλλον είναι όλα αυτά τα δεδομένα - όχι μόνο της Βιβλιοθήκης του Κογκρέσου αλλά και άλλων τεχνολογικών και πολιτιστικών ιδρυμάτων - να συνδέονται μεταξύ τους. Ο σχεδιασμός της Βιβλιοθήκης δεν προβλέπει τη δημιουργία κάποιου καταλόγου όλων αυτών των tweets και το σχετικών δεδομένων, αλλά την ευρετηρίαση του υλικού ώστε οι ερευνητές να έχουν άμεση και ουσιαστική πρόσβαση σε αυτό.


Αυτό απαιτεί μια σημαντική τεχνολογική ανάπτυξη εκ μέρους της Βιβλιοθήκης, ώστε να δημιουργηθεί η απαραίτητη υποδομή και τα αποτελεσματικά εργαλεία, με προτεραιότητα την επεξεργασία των δεδομένων σε πεδία - τομείς που ερευνητές ζητούν πρόσβαση άμεσα και επίμονα. Προς αυτήν την κατεύθυνση έχει δημιουργηθεί μαι δια-τμηματική ομάδα - επιτροπή με σκοπό την διερεύνηση και καταγραφή των αναγκών των ερευνητών σε σχέση με το υλικό. Επιπλέον πρέπει να καθοριστούν με ακρίβεια οι προσδοκίες αναφορικά με τα κριτήρια και τις παραμέτρους των μηχανισμών αναζήτησης πχ. high-bandwidth, high-computing-power.     


Το έργο γενικά σε μεγάλο βαθμό βρίσκεται υπό σχεδιασμό και κατασκευή και οι αρμόδιες ομάδες - επιτροπές της Βιβλιοθήκης συγκρίνουν και μελετούν τις δυνατότητες διαφόρων open source τεχνολογιών, προκειμένου να επιλεχθεί και να αναπτυχθεί το πιο κατάλληλο για την αποθήκευση, διαχείριση και αναζήτηση του αρχείου του Twitter. Παρόλο που η απόφαση για το ποια εργαλεία θα χρησιμοποιηθούν, δεν έχει παρθεί ακόμα η Βιβλιοθήκη δοκιμάζει και πειραματίζεται με τα παρακάτω: Hive, ElasticSearch, Pig, Elephant-bird, HBase, και Hadoop.
 
Αυτό το καλοκαίρι πραγματοποιείται ένα πιλοτικό εργαστήριο στο οποίο συμμετέχουν μέλη της Βιβλιοθήκης και ερευνητές με στόχο την συνεργασία τους για την καταγραφή του Αρχείου και την προσβασιμότητα σ αυτό. Οι άνθρωποι του Project εκτιμούν ότι σε περίπου 5 μήνες θα φανούν τα πρώτα αποτελέσματα της όλης προσπάθειας. Αλλά ακόμα και τότε, η πρόσβαση στο αρχείο του Twitter θα περιοριστεί στους "known researchers", οι οποίοι θα πρέπει να πάρουν από τη Βιβλιοθήκη συγκεκριμένη έγκριση, έπειτα από συγκεκριμένες διαδικασίες. Σύμφωνα με την κυρία Anderson “Based on the sheer number of research requests, there are going to be plenty of scholars lined up to have a closer examination of this important cultural and technological archive”    


 

Δεν υπάρχουν σχόλια: