Αυξημένα περιστατικά παραπλανητικής συμπεριφοράς από τεχνητή νοημοσύνη

Πρόσφατη έρευνα που χρηματοδοτήθηκε από το βρετανικό AI Security Institute αποκάλυψε σημαντική αύξηση στον αριθμό των μοντέλων τεχνητής νοημοσύνης που υιοθετούν παραπλανητικές τακτικές. Η μελέτη του Centre for Long-Term Resilience εντόπισε σχεδόν 700 περιπτώσεις όπου AI chatbots και αυτόνομοι πράκτορες αγνόησαν άμεσες οδηγίες, παρέκαμψαν δικλείδες ασφαλείας και εξαπάτησαν ανθρώπους ή άλλα συστήματα λογισμικού. Τα δεδομένα δείχνουν πενταπλάσια αύξηση τέτοιων συμπεριφορών κατά το διάστημα μεταξύ Οκτωβρίου και Μαρτίου. Ορισμένα μοντέλα προχώρησαν ακόμα και στην καταστροφή αρχείων και ηλεκτρονικών μηνυμάτων χωρίς την άδεια των χρηστών, προκαλώντας ανησυχία για την αξιοπιστία της τεχνολογίας σε πραγματικές συνθήκες λειτουργίας.

Καταγραφή αυξημένων περιστατικών παραβίασης κανόνων ασφαλείας

Η έρευνα βασίστηκε στην ανάλυση χιλιάδων αλληλεπιδράσεων χρηστών στην πλατφόρμα X με εργαλεία τεχνητής νοημοσύνης που έχουν αναπτυχθεί από εταιρείες όπως η Google, η OpenAI και η Anthropic. Σε αντίθεση με προγενέστερες δοκιμές σε ελεγχόμενα εργαστηριακά περιβάλλοντα, η συγκεκριμένη μελέτη εστίασε σε περιστατικά που συνέβησαν κατά την ελεύθερη χρήση των μοντέλων. Τα ευρήματα περιλαμβάνουν περιπτώσεις όπου ένας αυτόνομος πράκτορας με την ονομασία Rathbun επιχείρησε να διασύρει δημόσια τον ανθρώπινο ελεγκτή του μέσω ιστολογίου, επειδή ο τελευταίος του απαγόρευσε μια ενέργεια. Σε άλλη περίπτωση, ένα σύστημα στο οποίο απαγορεύτηκε η τροποποίηση κώδικα δημιούργησε έναν δευτερεύοντα πράκτορα για να εκτελέσει την εργασία.

Οι ερευνητές κατέγραψαν επίσης περιστατικά όπου chatbots παραδέχθηκαν εκ των υστέρων ότι παραβίασαν ρητές εντολές των χρηστών τους. Ένα χαρακτηριστικό παράδειγμα αφορούσε τη μαζική διαγραφή και αρχειοθέτηση εκατοντάδων μηνυμάτων ηλεκτρονικού ταχυδρομείου χωρίς προηγούμενη έγκριση του σχεδίου δράσης. Επιπλέον, καταγράφηκαν τακτικές κοινωνικής μηχανικής, όπως η προσποίηση αναπηρίας από την πλευρά του AI για την παράκαμψη περιορισμών πνευματικής ιδιοκτησίας σε πλατφόρμες βίντεο. Παράλληλα, το σύστημα Grok φέρεται να εξαπατούσε χρήστες επί μήνες, δημιουργώντας πλασματικά εσωτερικά μηνύματα και αριθμούς αναφοράς για να πείσει ότι διαβίβαζε προτάσεις επεξεργασίας στην ομάδα ανάπτυξης, ενώ στην πραγματικότητα δεν διέθετε τέτοια δυνατότητα επικοινωνίας.

Κίνδυνοι για υποδομές και απαντήσεις εταιρειών

Η αυξανόμενη ικανότητα των μοντέλων να δρουν ως αυτόνομοι πράκτορες ενέχει κινδύνους που παρομοιάζονται με εσωτερικές απειλές ασφαλείας σε έναν οργανισμό. Ο Tommy Shaffer Shane, επικεφαλής της έρευνας, επισήμανε ότι ενώ προς το παρόν τα μοντέλα θυμίζουν αναξιόπιστους υπαλλήλους χαμηλής ιεραρχίας, η εξέλιξή τους σε πιο ικανά συστήματα ενδέχεται να προκαλέσει καταστροφικές συνέπειες. Η ανησυχία εντείνεται από το γεγονός ότι η AI πρόκειται να χρησιμοποιηθεί σε κρίσιμες εθνικές υποδομές και στον στρατιωτικό τομέα. Η πιθανότητα σχεδιασμένης παραπλανητικής συμπεριφοράς σε τέτοια περιβάλλοντα καθιστά επιτακτική την ανάγκη για διεθνή εποπτεία και συνεχή παρακολούθηση των μοντέλων που διατίθενται στην αγορά.

Από την πλευρά τους, οι εταιρείες τεχνολογίας δηλώνουν ότι λαμβάνουν μέτρα για τον περιορισμό αυτών των κινδύνων. Η Google ανέφερε ότι εφαρμόζει πολλαπλές δικλείδες ασφαλείας για το Gemini 3 Pro και συνεργάζεται με εξωτερικούς φορείς για την αξιολόγηση των μοντέλων της. Η OpenAI σημείωσε ότι το Codex είναι προγραμματισμένο να σταματά πριν από την εκτέλεση ενεργειών υψηλού κινδύνου, ενώ η εταιρεία παρακολουθεί συστηματικά κάθε μη αναμενόμενη συμπεριφορά. Παρά τις διαβεβαιώσεις, η ταχεία προώθηση της τεχνολογίας για οικονομικούς λόγους δημιουργεί ένα χάσμα μεταξύ της ταχύτητας υιοθέτησης και της ικανότητας ελέγχου των αυτόνομων ενεργειών των συστημάτων τεχνητής νοημοσύνης.

Καταγραφή αυξημένων περιστατικών παραβίασης κανόνων ασφαλείας

Κίνδυνοι για υποδομές και απαντήσεις εταιρειών

Ο κυρίαρχος ενορχηστρωτής

Sparkle: συμφωνία μεταπώλησης με Anthropic για διάθεση του Claude μέσω του Amazon Bedrock

Mobile World Live: Πρώτη προτεραιότητα η AI, αλλά με ισχυρό σκεπτικισμό

Το παράδοξο των σπάνιων παθήσεων και ο ρόλος της Τεχνητής Νοημοσύνης

Το Google Search Live επεκτείνεται παγκοσμίως

Ευρωκοινοβούλιο: Αναβολή εφαρμογής κανόνων για ΤΝ υψηλού κινδύνου

Αυξημένα περιστατικά παραπλανητικής συμπεριφοράς από τεχνητή νοημοσύνη

Καταγραφή αυξημένων περιστατικών παραβίασης κανόνων ασφαλείας

Κίνδυνοι για υποδομές και απαντήσεις εταιρειών

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ