Αποκαλύφθηκε: Ποιοι ιστότοποι ειδήσεων μπλοκάρουν τους ανιχνευτές ιστού AI

By | February 27, 2024

Σύμφωνα με ανάλυση του Press Gazette, περισσότεροι από τέσσερις στους δέκα από τους 100 κορυφαίους αγγλόφωνους ιστότοπους ειδήσεων επιτρέπουν σε όλους τους ανιχνευτές τεχνητής νοημοσύνης να ανακτήσουν το περιεχόμενό τους.

Από τους 106 ιστότοπους που περιλαμβάνονται στους 50 κορυφαίους ιστότοπους της Press Gazette για το Ηνωμένο Βασίλειο, τις ΗΠΑ και τον κόσμο τον Δεκέμβριο, περισσότεροι από τους μισούς απέκλεισαν το bot του OpenAI για το ChatGPT.

Διαβάστε παρακάτω για την πλήρη λίστα των εκδοτών ειδήσεων που μπλοκάρουν τα bots AI.

[Read more: Major news publishers block the bots as ChatGPT starts taking live news]

Τι είναι ο ανιχνευτής ιστού και γιατί ορισμένοι ιστότοποι ειδήσεων τον αποκλείουν;

Οι ανιχνευτές Ιστού, που ονομάζονται επίσης αράχνες ή ρομπότ, είναι προγράμματα που ανιχνεύουν το Διαδίκτυο με στόχο την αποθήκευση ή την ευρετηρίασή του μία σελίδα τη φορά. Οι μηχανές αναζήτησης χρησιμοποιούν ανιχνευτές για να αναγνωρίσουν τους ιστότοπους που απαρτίζουν το Διαδίκτυο και οι εταιρείες τεχνητής νοημοσύνης τους χρησιμοποιούν για να ανακτήσουν πληροφορίες που στη συνέχεια τροφοδοτούν στα μεγάλα μοντέλα γλώσσας που στηρίζουν τα chatbot τους.


Οι περισσότεροι ειδησεογραφικοί ιστότοποι αποκλείουν ή επιτρέπουν προγράμματα ανίχνευσης επεξεργάζοντας μια σελίδα στη διεύθυνση URL τους με το όνομα robots.txt, για παράδειγμα pressgazette.co.uk/robots.txt. Ένα πρόσφατο άρθρο στο The Verge εξέτασε την ιστορία αυτής της σελίδας και τη σημασία της για το Διαδίκτυο. Οι σελίδες Robots.txt είναι στην πραγματικότητα μόνο συμβουλευτικές: ο δημιουργός ενός ρομπότ μπορεί, εάν το επιθυμεί, να του ζητήσει να αγνοήσει τη σελίδα robots.txt.

Περιεχόμενο από τους συνεργάτες μας

Οι ανιχνευτές Ιστού άρχισαν να τυγχάνουν σημαντικής προσοχής από τη βιομηχανία ειδήσεων πέρυσι, αφού οι εκδότες συνειδητοποίησαν ότι το περιεχόμενό τους είχε χρησιμοποιηθεί για να βοηθήσει στην εκπαίδευση μεγάλων γλωσσικών μοντέλων χωρίς τη συγκατάθεσή τους. Ενώ ορισμένοι εκδότες όπως οι New York Times και το BBC απάντησαν αποκλείοντας προγράμματα ανίχνευσης ιστού τεχνητής νοημοσύνης, άλλοι έχουν αφήσει τους ιστότοπούς τους ανοιχτούς σε bots ή διαπραγματεύτηκαν συμφωνίες αδειοδότησης περιεχομένου με διαφημιστικές εταιρείες.

[Read more: News publishers divided over whether to block ChatGPT]

Ποιοι εκδότες τύπου απέκλεισαν ποια ρομπότ τεχνητής νοημοσύνης;

Οι σελίδες Robots.txt είναι δημόσια ορατές, επομένως η Press Gazette μπόρεσε να επισκεφτεί με μη αυτόματο τρόπο κάθε έναν από τους 106 ιστότοπους που εμφανίζονται στις τρεις κορυφαίες 50 ταξινομήσεις μας και να αξιολογήσει ποιους ανιχνευτές εταιρειών τεχνητής νοημοσύνης είχαν αποκλείσει, εάν υπάρχουν, αυτοί οι ιστότοποι. Συνολικά, εννέα ανιχνευτές ιστού που σχετίζονται με επτά εταιρείες τεχνητής νοημοσύνης ονομάστηκαν στα αρχεία robots.txt των ιστότοπων, που αναφέρονται παρακάτω:

  • GPTBot: το πρόγραμμα ανίχνευσης ιστού που τροφοδοτεί ChatGPTτο OpenAI chatbot που ξεκίνησε τη γενετική τρέλα AI
  • Η Google επέκτεινε: η κάμπια που τρέφεται GoogleGemini’s AI chatbot (παλαιότερα ονομαζόταν Bard)
  • Claude-Web, Claudebot και anthropic-ai: τρεις κάμπιες που τρέφονται Ο Κλονττο chatbot που κατασκευάστηκε από την Anthropic, αντίπαλο του OpenAI
  • Cohere-ai: το ρομπότ για Συμμετοχήμια εταιρεία τεχνητής νοημοσύνης που στοχεύει το chatbot της στον επιχειρηματικό κόσμο
  • Perplexity-ai: το ρομπότ για Αμηχανίαάλλος ανταγωνιστής του ChatGPT
  • Ερευνητής: το ρομπότ για Ερευνητήςμια εταιρεία που δημιουργεί μεγάλα γλωσσικά μοντέλα για διάφορους σκοπούς
  • Λιώστε νερό: το ρομπότ για Λιώστε νερόμια εταιρεία παρακολούθησης μέσων που ενσωματώνει ορισμένα εργαλεία τεχνητής νοημοσύνης.

Από τους 106 ιστότοπους, οι 45 (42,5%) δεν έχουν αποκλεισμένο επιχειρηματικό ρομπότ AI, σε σύγκριση με 61 με τουλάχιστον ένα bot αποκλεισμένο. Υπήρχαν 32 ιστότοποι με δύο ή περισσότερους αποκλεισμένους, 16 με τρεις ή περισσότερους, 11 με τέσσερις ή περισσότερους και πέντε με πέντε αποκλεισμένους ανιχνευτές.

Ο μόνος ιστότοπος στη λίστα του Press Gazette που απαγόρευε σχεδόν όλους τους ανιχνευτές ιστού, ανεξάρτητα από την προέλευση ή τον σκοπό τους, ήταν το news.google.com, ο ιστότοπος του προγράμματος συγκέντρωσης Ειδήσεων Google. Το μόνο ρομπότ που επιτρέπεται να ανιχνεύει τον ιστότοπο είναι το Googlebot, το οποίο ευρετηριάζει σελίδες για αναζήτηση Google.

Ο ιστότοπος στον οποίο αποκλείστηκαν τα προγράμματα ανίχνευσης με τις περισσότερες αναφορές ήταν ένας άλλος συναθροιστής, ο MSN, ο οποίος είχε αποκλεισμένους έξι ανιχνευτές. Και οι δύο εκδόσεις του ιστότοπου του BBC στο Ηνωμένο Βασίλειο και στις ΗΠΑ είδαν αποκλεισμένους πέντε ανιχνευτές, όπως και τα the-sun.com, thesun.co.uk και thetimes.co.uk, που ανήκουν στο News UK. Δύο άλλοι τίτλοι της News Corp, η New York Post και η Wall Street Journal, δεν έμειναν πολύ πίσω, με τέσσερα bots αποκλεισμένα το καθένα.

Το GPTBot του ChatGPT ήταν μακράν ο πιο συχνά αποκλεισμένος ανιχνευτής, καθώς απαγορεύτηκε από 60 ιστότοπους (56,6% του συνόλου). Αυτό το εύρημα ευθυγραμμίζεται με μια πρόσφατη μελέτη του Ινστιτούτου Reuters για τη Μελέτη της Δημοσιογραφίας, η οποία διαπίστωσε ότι μέχρι το τέλος του 2023, το 48% των πιο χρησιμοποιούμενων ειδησεογραφικών ιστοτόπων σε δέκα χώρες απέκλεισαν τον ανιχνευτή.

Ο μόνος ιστότοπος Press Gazette που βρήκε ότι απέκλεισε ορισμένους ανιχνευτές αλλά όχι το GPTBot ήταν το Reuters, το οποίο απέκλεισε μόνο τα προγράμματα ανίχνευσης Google και Anthropic.

Περίπου το ένα τέταρτο των ιστότοπων αποκλείστηκαν από το Google-Extended. Συμπεριλαμβανομένων των Ειδήσεων Google, μόνο 17 ιστότοποι (16%) απέκλεισαν ένα πρόγραμμα ανίχνευσης AI εκτός από το GPTBot ή το Google-Extended.

Ο Claudebot μπλοκαρίστηκε μόνο από τους New York Times και ο Seekr μόνο από τον Guardian. Ακολουθούν το Perplexitybot, το οποίο μπλοκάρει το msn.com, το CNBC και το The Hill, και το Meltwater, το οποίο μπλοκάρουν οι Times και οι βρετανικές και αμερικανικές εκδόσεις του The Sun.

Και ποιοι εκδότες δεν αποκλείουν καθόλου τα bots;

Αν και η μικρή πλειοψηφία των εκδοτών έχει αποκλείσει ορισμένους ανιχνευτές τεχνητής νοημοσύνης από τους ιστότοπούς τους, πολλοί μεγάλοι εκδότες δεν τους έχουν απαγορεύσει.

Ο εκδότης των Mirror, Express και Manchester Evening News, Reach, για παράδειγμα, σας επιτρέπει να ανιχνεύετε όλους τους ιστότοπους που έχουν επαληθευτεί από την Εφημερίδα Τύπου. Το ίδιο ισχύει για τις ιστοσελίδες Ladbible και Unilad που εστιάζουν στη νεολαία, καθώς και για την Independent και την Evening Standard που ανήκει στον Lebedev.

Το Politico επίσης δεν μπλοκάρει τα bots, με τη μητρική του εταιρεία Axel Springer να έχει συμφωνία με το OpenAI για να τροφοδοτεί το περιεχόμενο των αναρτήσεών του στο ChatGPT. Αν και η συμφωνία δεν επεκτείνεται σε άλλες εταιρείες τεχνητής νοημοσύνης, ο ανώτερος αντιπρόεδρος προϊόντων και σχεδίου της Politico είπε στην Press Gazette τον περασμένο μήνα ότι ένας νέος επανασχεδιασμός ιστότοπου ελπίζει να κάνει το politico.eu, την ευρωπαϊκή του έκδοση, όσο το δυνατόν πιο ευανάγνωστη για ανιχνευτές. (Περίεργα, το Business Insider, ένας άλλος τίτλος του Axel Springer, αποκλείει τόσο το GPTBot όσο και το Google-Extended.)

Μια πιο εκπληκτική εμφάνιση σε αυτήν τη λίστα τίτλων που δεν μπλοκάρουν κανένα ρομπότ AI είναι το Daily Beast που ανήκει στο IAC. Ο πρόεδρος της IAC, Μπάρι Ντίλερ, έχει επανειλημμένα καλέσει δημόσια τις εταιρείες τεχνητής νοημοσύνης να πληρώσουν τους εκδότες για το περιεχόμενό τους. Τρεις άλλες ιδιότητες IAC – People, Entertainment Weekly και Investopedia – μπλοκάρουν το GPTBot αλλά όχι άλλους ανιχνευτές ιστού AI.

Αρκετοί ιστότοποι της πολιτικής δεξιάς αρνούνται να αποκλείσουν προγράμματα ανίχνευσης τεχνητής νοημοσύνης, συμπεριλαμβανομένων των GB News, Newsmax, Zero Hedge, Breitbart και, αν και άλλοι τίτλοι ιδιοκτησίας του Murdoch μπλοκάρουν όλα τα bots, το Fox News. Η αναφορά Drudge καθιστά επίσης αποτελεσματική την ανίχνευση του ιστότοπού του, επειδή δεν φαίνεται να έχει καθόλου σελίδα robots.txt.

[Read more: Politico embraces generative AI web crawlers with website redesigns]

ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ pged@pressgazette.co.uk για να επισημάνετε λάθη, να παρέχετε συμβουλές για την ιστορία ή να υποβάλετε μια επιστολή για δημοσίευση στο ιστολόγιό μας “Σελίδα Επιστολών”