Μια επίσκεψη στα φυσικά αρχεία του Διαδικτύου

By | January 11, 2024

Ενώ βρισκόμουν στο Σαν Φρανσίσκο για το AI Engineer Summit νωρίτερα αυτόν τον μήνα, βρήκα την ευκαιρία να επισκεφτώ το Αρχείο Διαδικτύου – τα πραγματικά φυσικά αρχεία της πόλης Richmond της Καλιφόρνια, περίπου είκοσι λεπτά με το αυτοκίνητο από το Σαν Φρανσίσκο.

Είχα αγοράσει ένα εισιτήριο για να «πάω στα παρασκήνια των φυσικών αρχείων» την Τετάρτη 11 Οκτωβρίου και έφτασα λίγο πριν από τις 6 μ.μ. ώρα αναχώρησης. Χάρηκα που δεν είχα φτάσει νωρίτερα, γιατί η τοποθεσία του φυσικού αρχείου ήταν (δεν αποτελεί έκπληξη) μια αποθήκη σε μια βιομηχανική γειτονιά στο Ρίτσμοντ. Δεν φαινόταν να υπάρχει κάτι άλλο να κάνουμε στην περιοχή.

Είχα ζητήσει από τον οδηγό της Uber να με αφήσει σε ένα πάρκινγκ με μια πινακίδα Internet Archive. Αλλά κοιτάζοντας γύρω μου, δεν μπορούσα να δω καμία δημόσια είσοδο στην αποθήκη. Υπήρχαν μερικοί άλλοι μπερδεμένοι σπασίκλες της ιστορίας του Διαδικτύου εκεί, έτσι συστηθήκαμε αμήχανα και συζητήσαμε για το αν βρισκόμασταν στο σωστό μέρος. Τελικά μερικοί άνθρωποι στο τέλος του δρόμου, περίπου 200 μέτρα μακριά, μας εντόπισαν και μας έγνεψαν.

Physical Archives Internet Archive, Ρίτσμοντ, Καλιφόρνια.

Αποδείχθηκε ότι μια ομάδα ανθρώπων είχε ήδη βολευτεί μέσα στο κεντρικό κτίριο, πίνοντας δωρεάν κοκ, μπύρες ή μεταλλικό νερό και τρώγοντας ορεκτικά. Το πλήθος ήταν ένας συνδυασμός ηλικιωμένων (ίσως από τη γενιά που δούλευε στη Silicon Valley τις δεκαετίες του 1960 και του 1970) και νεότερους geeks (υποψιάζομαι ότι πολλοί ήταν είτε βιβλιοθηκονόμοι είτε επαγγελματίες επικεφαλής του διαδικτύου – εγώ είμαι παράδειγμα των τελευταίων).

Όταν ξεκίνησε η περιοδεία, περίπου μισή ώρα αργότερα, τριάντα ή σαράντα άτομα συγκεντρώθηκαν μπροστά σε έναν ενθουσιώδη άνδρα με κόκκινο πουκάμισο και αραιά γκρίζα μαλλιά. Ήταν φυσικά ο ιδρυτής του Internet Archive, Brewster Kahle. Στην αρχή εξεπλάγην που οδηγούσε ο ίδιος την περιοδεία, αλλά σύντομα έγινε σαφές ότι η Kahle ζει και αναπνέει την αποστολή του Internet Archive. Ξεκίνησε δείχνοντάς μας τα εμπορευματοκιβώτια αποστολής γεμάτα με παλιά βιβλία και άλλα υλικά, ενώ είπε και μερικά γεγονότα (“Το Αρχείο Διαδικτύου είναι μια μη κερδοσκοπική βιβλιοθήκη, το ξεκινήσαμε πριν από 27 χρόνια, 1996 .”).

Η Brewster Kahle μπροστά από κοντέινερ

Η Brewster Kahle μπροστά από κοντέινερ (πραγματικά και φυσικά).

Αργότερα στην περιοδεία, ο Kahle έδειξε με ενθουσιασμό τη μηχανή σάρωσης βιβλίων, έδειξε στοίβες από κουτιά που δωρίστηκαν στα αρχεία (γεμάτα με βιβλία, βίντεο, δίσκους, δίσκους, κασέτες και άλλα μέσα) και στάθηκε περήφανα στο πλάι ενώ η ταινία του The Archivists εξηγούσε σε εμάς πώς μετατρέπουν vintage οικιακά βίντεο σε ψηφιακά αρχεία υψηλής ανάλυσης. Ήταν μια συναρπαστική ματιά στις καθημερινές λειτουργίες του Internet Archive, το οποίο στελεχώνεται από αρκετούς φιλικούς και πιθανώς φιλελεύθερους Καλιφορνέζους, συμπεριλαμβανομένου του γιου του Μπρούστερ, Κάσλον.

Τι αποθηκεύει το Αρχείο Διαδικτύου

Το Internet Archive είναι ίσως περισσότερο γνωστό για το Wayback Machine, το οποίο έκανε το ντεμπούτο του το 2001 και αρχειοθετεί ιστοσελίδες από το 1996. “Συλλέγουμε περίπου ένα δισεκατομμύριο URL κάθε μέρα, έναν εκπληκτικά μεγάλο αριθμό”, είπε ο Kahle κατά τη διάρκεια της περιοδείας του. . «Και η συλλογή Wayback Machine έχει τώρα δυόμισι χιλιάδες δισεκατομμύρια URL, αυτές τις παλιές ιστοσελίδες. Και ελέγχεται περίπου έξι ή επτά χιλιάδες φορές το δευτερόλεπτο.

Αλλά τα φυσικά αρχεία, όπως υποδηλώνει το άτυπο όνομά τους, αποτελούν αποθήκη φυσικός μέσα – βιβλία, κατάλογοι, παλιοί δίσκοι υπολογιστών, ταινίες, δίσκοι και κασέτες και πολλά άλλα. Όταν φθάνουν τα νέα μέσα, το προσωπικό του Internet Archive αποφασίζει πρώτα αν είναι αντίγραφο κάτι που ήδη έχει — μια διαδικασία που ονομάζει “deduplication”. Εάν πρόκειται για χαζό, απορρίπτεται ή παραχωρείται. Διαφορετικά, σαρώνεται και στη συνέχεια αποθηκεύεται το φυσικό στοιχείο. (Επιπλέον, το Αρχείο Διαδικτύου δηλώνει ότι διαθέτει ψηφιακά αντίγραφα ενός βιβλίου μόνο εάν του ανήκει το φυσικό αντίγραφο.)

Σαρωτές φιλμ AI

Ένας ειδικά σχεδιασμένος σαρωτής vintage φιλμ από το Internet Archive.

«Σαρώνουμε βιβλία από τις αρχές της δεκαετίας του 2000», είπε η Kahle, «και καταλήξαμε να φτιάξουμε τους δικούς μας σαρωτές βιβλίων». Πρόσθεσε ότι η τεχνητή νοημοσύνη ψηφιοποιεί «περίπου ένα εκατομμύριο βιβλία το χρόνο» και ότι έχουν ψηφιοποιήσει της τάξης των 7-8 εκατομμυρίων βιβλίων συνολικά (στη σελίδα Πληροφορίες, η τεχνητή νοημοσύνη λέει ότι έχει «41» εκατομμύρια βιβλία και κείμενα», επομένως η πλειονότητά τους πρέπει να είναι αντικείμενα κειμένου εκτός από βιβλία).

Όσο για τη μουσική, είναι ένα είδος μέσων που είχε ιστορικά πολλές μορφές: LP, CD, κασέτες, MP3 κ.λπ. Ο Kahle ήταν ιδιαίτερα ενθουσιασμένος με τους δίσκους 78 στροφών, που όπως είπε υπήρχαν από το 1900 έως το 1950 περίπου. ή 3 εκατομμύρια από αυτά», είπε, «[and] Έχουμε ψηφιοποιήσει περίπου 450.000».

Κουτιά πολυμέσων

Κουτιά με είδη πολυμέσων, επικαλυμμένα με ένα χαρτόνι από τον Darth Vader.

«Προσπαθούμε να δουλέψουμε σε όλους τους τύπους μέσων», συνέχισε η Kahle. «Και αυτό που ανακάλυψα ήταν όταν […] τα πράγματα γίνονται απαρχαιωμένα, συμβαίνει όλο και πιο γρήγορα. […] Όχι μόνο δεν έχετε πρόσβαση στα ίδια πράγματα. ακόμα κι αν έχετε πρόσβαση σε αυτό, δεν σας παρουσιάζεται με τρόπο που θα το χρησιμοποιήσετε πραγματικά.

Σημείωση: Εάν ενδιαφέρεστε να δωρίσετε αντικείμενα στο Αρχείο Διαδικτύου, ανατρέξτε σε αυτήν την ιστοσελίδα για μια λίστα με τους τύπους μέσων που δέχεται αυτήν τη στιγμή.

Πώς λειτουργεί το Αρχείο Διαδικτύου

Ένα μέλος της ομάδας ρώτησε την Kahle πόσο συχνά η τεχνητή νοημοσύνη έπρεπε να αγοράζει νέους διακομιστές για να αποθηκεύει αυτή τη συνεχή εισροή νέων μέσων.

«Συνεχώς», απάντησε. «Αγοράζουμε ένα νέο ζευγάρι ράφια, γιατί έρχονται πάντα σε ζευγάρια, κάθε δύο μήνες. [or] τρεις μήνες. […] Σε ένα ράφι μπορείτε τώρα να αποθηκεύσετε περίπου πέντε petabyte.

Ράφια διακομιστή αρχείων αρχείων Διαδικτύου

Δύο προηγούμενες γενιές μηχανών αποθήκευσης Internet Archive. στα αριστερά, το StorageTek 9710 από τη δεκαετία του 1990 και στα δεξιά το PetaBox πρώτης γενιάς (2004).

Φυσικά, η τεχνητή νοημοσύνη ήταν στην επικαιρότητα φέτος λόγω νομικών επιθέσεων από τον κλάδο των εκδόσεων βιβλίων και τη μουσική βιομηχανία (η τελευταία σχετικά με το έργο των 78 στροφών). Η Kahle έκανε πολλά απότομα σχόλια σχετικά με αυτές τις νομικές προκλήσεις κατά τη διάρκεια της περιοδείας, αλλά ήταν σαφές ότι είχε επηρεάσει αρνητικά την τεχνητή νοημοσύνη. «Εκκρεμεί ακόμη στο δικαστήριο», αναστενάζει, σχετικά με την αγωγή των εκδοτών βιβλίων, «και είναι απίστευτα ακριβό».

Πώς επιβιώνει λοιπόν η τεχνητή νοημοσύνη; Η Kahle είπε ότι η τεχνητή νοημοσύνη λειτουργεί κυρίως μέσω δωρεών από 110.000 άτομα, κατά μέσο όρο περίπου 5 $ ανά άτομο, καθώς και «ιδρυμάτων που μας δίνουν μεγάλα χρηματικά ποσά». Η IA προσφέρει επίσης συνδρομητικές υπηρεσίες σε βιβλιοθήκες και άλλους οργανισμούς.

«Επιβιώνουμε επίσης μη ξοδεύοντας πολλά», πρόσθεσε. “Δηλαδή, παρατηρείς ότι οι διακομιστές δεν έχουν κλιματισμό, σωστά;” Αν κάνει ζέστη, απλά ανοίγουμε τα παράθυρα. Άρα είναι πράσινο. Είναι όμως και φθηνό.

στους δρόμους του Ρίτσμοντ

Έξω από το φυσικό αρχείο Διαδικτύου στο Ρίτσμοντ της Καλιφόρνια. Μια διασκεδαστική βραδιά για έναν λάτρη της ιστορίας του Διαδικτύου!

Ζώνη Δημιουργήθηκε με το Sketch.

Leave a Reply

Your email address will not be published. Required fields are marked *