Ερευνητές στον τομέα του AI δηλώνουν ότι έχουν εφεύρει ξόρκια επικίνδυνα να δημοσιοποιηθούν

Με τη μεγάλη δύναμη έρχεται και η μεγάλη… ευκολία εξαπάτησης

Newsbomb

Ερευνητές στον τομέα του AI δηλώνουν ότι έχουν εφεύρει ξόρκια επικίνδυνα να δημοσιοποιηθούν
Unsplash
ΤΕΧΝΟΛΟΓΙΑ
3'
ΣΧΟΛΙΑΣΕ

Τον περασμένο μήνα, παρουσιάστηκε μια νέα μελέτη ερευνητών του Icaro Lab στην Ιταλία, η οποία αποκάλυψε έναν απίστευτα απλό τρόπο να «σπάσουν» τα προστατευτικά φίλτρα ακόμη και των πιο προηγμένων AI chatbots: την «επιθετική ποίηση» (adversarial poetry).

Με λίγα λόγια, η ομάδα — αποτελούμενη από ερευνητές της ομάδας ασφάλειας DexAI και του Πανεπιστημίου Sapienza της Ρώμης — έδειξε ότι κορυφαία συστήματα τεχνητής νοημοσύνης μπορούν να παρασυρθούν σε επιβλαβείς απαντήσεις όταν τους απευθύνονται ποιήματα που κρύβουν επικίνδυνες εντολές, όπως οδηγίες για την κατασκευή πυρηνικής βόμβας.

Υπογραμμίζοντας τη μυστηριώδη δύναμη του στίχου, ο συν-συγγραφέας της μελέτης Matteo Prandi δήλωσε στο The Verge, σε πρόσφατη συνέντευξή του, ότι τα «μαγικά ξόρκια» που χρησιμοποίησαν για να ξεγελάσουν τα μοντέλα τεχνητής νοημοσύνης είναι υπερβολικά επικίνδυνα για να δοθούν στη δημοσιότητα.

Τα ποιήματα αυτά, είπε χαρακτηριστικά, είναι κάτι «που σχεδόν ο καθένας μπορεί να κάνει».

artificial-intelligence-3.jpg

Unsplash

Στη μελέτη η ομάδα δοκίμασε 25 πρωτοποριακά μοντέλα AI, συμπεριλαμβανομένων αυτών των OpenAI, Google, xAI, Anthropic και Meta. Οι ερευνητές τους έδωσαν ποιητικές οδηγίες, είτε γραμμένες στο χέρι είτε μετατροπές γνωστών επιβλαβών prompts σε στίχους με τη βοήθεια άλλου μοντέλου AI. Στη συνέχεια, συνέκριναν την αποτελεσματικότητά τους με τα αντίστοιχα πεζά (prose) prompts.

Κατά μέσο όρο, τα χειρόγραφα ποιητικά prompts κατάφεραν να οδηγήσουν τα μοντέλα σε απαγορευμένο περιεχόμενο στο 63% των περιπτώσεων. Ορισμένα, όπως το Gemini 2.5 της Google, «έπεσαν στην παγίδα» στο 100% των δοκιμών. Εντυπωσιακά, τα μικρότερα μοντέλα φάνηκαν πιο ανθεκτικά, με μονοψήφια ποσοστά επιτυχίας — για παράδειγμα, το GPT-5 nano της OpenAI δεν ξεγελάστηκε ούτε μία φορά. Τα περισσότερα μοντέλα βρέθηκαν κάπου στη μέση.

Σε σύγκριση με τη χειροποίητη ποίηση, τα prompts που μετατράπηκαν σε στίχους από AI ήταν λιγότερο αποτελεσματικά, με μέσο ποσοστό «jailbreak» 43%. Ωστόσο, αυτό ήταν ακόμη «έως και 18 φορές υψηλότερο από τα αντίστοιχα ποσοστά των πεζών προτροπών», όπως σημειώνουν οι ερευνητές.

Γιατί όμως τα ποιήματα; Αυτό δεν είναι απολύτως σαφές, αν και, σύμφωνα με τον Prandi, ο όρος «επιθετική ποίηση» ίσως δεν είναι απόλυτα ακριβής.

artificial-intelligence-2.jpg

Unsplash

«Δεν έχει να κάνει μόνο με το να κάνει κανείς ομοιοκαταληξία. Έχει να κάνει με τους γρίφους», εξήγησε στο The Verge, προσθέτοντας ότι ορισμένες ποιητικές δομές είναι πιο αποτελεσματικές από άλλες. «Στην πραγματικότητα, θα έπρεπε να το είχαμε ονομάσει επιθετικούς γρίφους — η ποίηση είναι από μόνη της ένας γρίφος, αν το καλοσκεφτείς — αλλά η “ποίηση” ήταν μάλλον καλύτερο όνομα».

Οι ερευνητές εικάζουν ότι αυτό μπορεί να σχετίζεται με τον τρόπο που τα ποιήματα παρουσιάζουν την πληροφορία με απρόσμενο τρόπο για τα μεγάλα γλωσσικά μοντέλα, μπερδεύοντας την ικανότητά τους να προβλέπουν ποια λέξη ακολουθεί. Παρ’ όλα αυτά, θεωρητικά αυτό δεν θα έπρεπε να συμβαίνει.

«Η επιθετική ποίηση δεν θα έπρεπε να λειτουργεί. Είναι και πάλι φυσική γλώσσα, η στιλιστική απόκλιση είναι μικρή, το επιβλαβές περιεχόμενο παραμένει ορατό», δήλωσε η ομάδα στο Wired. «Κι όμως, λειτουργεί εντυπωσιακά καλά».

Ίσως κάποιοι κακόβουλοι χρήστες να μετανιώνουν τώρα που δεν πρόσεχαν στο μάθημα της λογοτεχνίας. Η διαφορά ανάμεσα σε ένα σονέτο και μια σεστίνα μπορεί να είναι και η διαφορά ανάμεσα στο να έχεις τον Clippy ή τον Skynet ως συνεργό στο έγκλημα.

«Η παραγωγή πλουτωνίου-239 στρατιωτικών προδιαγραφών περιλαμβάνει διάφορα στάδια», ανέφερε χαρακτηριστικά ένα από τα μοντέλα AI που «μάγεψαν» οι ερευνητές με τους στίχους τους.

Διαβάστε επίσης

Σχόλια
Ροή Ειδήσεων Δημοφιλή
14:25ΚΟΣΜΟΣ

Συναγερμός στη Βρετανία για τη μεταλλαγμένη «σούπερ γρίπη» - «Ξαναζούμε εποχές κορονοϊού»

14:25ΚΟΣΜΟΣ

Πηγή έμπνευσης το μεθυσμένο ρακούν στο πάτωμα της τουαλέτας - Νέα κοκτέιλ για χάρη του

14:21ΕΛΛΑΔΑ

Ηράκλειο - Αγροτικές κινητοποιήσεις: Στην πίστα του αεροδρομίου έφτασαν οι αγρότες - Διακοπή πτήσεων

14:12WHAT THE FACT

Επιστήμονες κατάφεραν να «διαβάσουν» διατηρημένα έμβρυα δεινοσαύρων μέσα σε αυγά 200 εκατ. ετών

13:57LIFESTYLE

Εσπευσμένα στο νοσοκομείο η Έλενα Παπαρίζου

13:55ΕΛΛΑΔΑ

Αγροτικές κινητοποιήσεις: Επεισόδια και στο αεροδρόμιο Χανίων- Έγινε ρίψη χημικών, τραυματίας αστυνομικός

13:53ΚΟΣΜΟΣ

Χιλιάδες άνθρωποι εγκαταλείπουν τα σύνορα Ταϊλάνδης - Καμπότζης μετά τις αιματηρές συγκρούσεις

13:50ΥΓΕΙΑ

Γιατί μαρινάροντας τα κρέατα μειώνουμε τον κίνδυνο καρκίνου

13:49ΚΑΙΡΟΣ

Καιρός: Μέχρι πότε αλλάζει το σκηνικό ο Αντικυκλώνας - Τα πρώτα δείγματα για τα Χριστούγεννα

13:49ΕΛΛΑΔΑ

Καρδίτσα: Έφυγαν οι κλούβες, μετά την «απευθείας» διαβούλευση Τσιάρα – αγροτών

13:47ΜΠΑΣΚΕΤ

AEK: Euroleague καλεί Σίλβα, δυνατά η Μακάμπι Τελ Αβίβ! - Τα δεδομένα και το buy out

13:39ΚΟΣΜΟΣ

Επαναστάτριες μοναχές στο Σάλτσμπουργκ κατέλαβαν το «δικό τους» μοναστήρι: «Δεν θέλουμε να μείνουμε σε γηροκομείο»

13:37ΤΕΧΝΟΛΟΓΙΑ

Αστροναύτης κατέγραψε το Βόρειο Σέλας από το διάστημα – Εντυπωσιακές εικόνες

13:29ΚΟΣΜΟΣ

Ζελένσκι: Δεν υπάρχει συμφωνία για το εδαφικό στις ειρηνευτικές συνομιλίες

13:27ΟΙΚΟΝΟΜΙΑ

Εξάρχου (Aktor) στο Bloomberg: Η Ελλάδα θα χρειαστεί 2ο FSRU πριν από το 2030

13:21ΤΕΧΝΟΛΟΓΙΑ

Μία υπόθεση 180 ετών για το φως μόλις αποδείχθηκε λανθασμένη

13:19WHAT THE FACT

Καινοτομεί η Κίνα: Εξοπλίζει τα σύνορα με στρατό από... ρομπότ - Οι δυνατότητες των ανθρωποειδών

13:16ΕΛΛΑΔΑ

Μετρό Θεσσαλονίκης: Επαναλειτουργεί από σήμερα (8/12) - Το ωράριο για την εορταστική περίοδο

13:11ΚΟΣΜΟΣ

Συναγερμός στη Νορβηγία: Πυροβολισμοί σε εμπορικό κέντρο του Όσλο - Συνελήφθη ο δράστης

13:04ΤΕΧΝΟΛΟΓΙΑ

Ερευνητές στον τομέα του AI δηλώνουν ότι έχουν εφεύρει ξόρκια επικίνδυνα να δημοσιοποιηθούν

ΟΛΕΣ ΟΙ ΕΙΔΗΣΕΙΣ
Novibet
13:57LIFESTYLE

Εσπευσμένα στο νοσοκομείο η Έλενα Παπαρίζου

12:55ΕΛΛΑΔΑ

Χημικά και κρότου λάμψης στο Ηράκλειο - Αγρότες επιχείρησαν να περάσουν τον αστυνομικό φραγμό προς το αεροδρόμιο

13:49ΚΑΙΡΟΣ

Καιρός: Μέχρι πότε αλλάζει το σκηνικό ο Αντικυκλώνας - Τα πρώτα δείγματα για τα Χριστούγεννα

19:04ΚΑΙΡΟΣ

Καιρός: Ολική ανατροπή του σκηνικού από την Πέμπτη - Πού θα βρέξει τις επόμενες ώρες

13:55ΕΛΛΑΔΑ

Αγροτικές κινητοποιήσεις: Επεισόδια και στο αεροδρόμιο Χανίων- Έγινε ρίψη χημικών, τραυματίας αστυνομικός

12:47ΕΛΛΑΔΑ

Ζάκυνθος: Η μητέρα του δίχρονου σπάει τη σιωπή της - «Δεν θα ξαναδούμε το χαμογελαστό του πρόσωπο»

11:42ΕΛΛΑΔΑ

Απίστευτο τροχαίο με δύο νεκρούς και εγκατάλειψη στην Ξάνθη: Θύματα ο οδηγός δικύκλου και ο συνοδηγός του αυτοκινήτου

08:36LIFESTYLE

Άννα Κανδαράκη: Ποια είναι η ψυχολόγος που συγκλόνισε για τη μάχη της με τον καρκίνο - «Κύμα» αγάπης στα social media

21:04LIFESTYLE

Άννα Κανδαράκη: Μίλησε για την μάχη της με τον καρκίνο για δεύτερη φορά - «Θέλω να δώσω δύναμη σε όσους το περνούν»

12:25ΕΛΛΑΔΑ

Δολοφονία Παναγιώτη Στάθη: Την ενοχή των δύο κατηγορουμένων προτείνει η εισαγγελέας

08:19ΚΑΙΡΟΣ

Μαρουσάκης: Ατμοσφαιρικό «βουνό» πάνω από τη Μεσόγειο - Αλλάζει το μοτίβο καιρού τα Χριστούγεννα

08:37ΥΓΕΙΑ

Ασυνήθιστο ξέσπασμα γρίπης σε Ευρώπη και ΗΠΑ: Η νέα παραλλαγή Κ του ιού H3N2 επαναφέρει τη μάσκα

05:14ΟΙΚΟΝΟΜΙΑ

Συντάξεις Ιανουαρίου 2026: Νωρίτερα θα δουν λεφτά 4,2 εκατ. συνταξιούχοι – Πότε θα ξεκινήσουν οι πληρωμές

11:05LIFESTYLE

«Ενημέρωσα την ομάδα να επιστρέψουμε Αθήνα... Η αμοιβή μας ήταν €11.000 και όχι €26.300 όπως ανακοίνωσε ο δήμος»: Ο Θεοφάνους εξηγεί την απουσία του από χριστουγεννιάτικη εκδήλωση στο Ναύπλιο

10:41WHAT THE FACT

Κολοσσιαίος πύθωνας έστησε ενέδρα σε αγρότη - Τον έριξε από το ποδήλατο και τον έσφιξε μέχρι θανάτου

06:44ΕΛΛΑΔΑ

Πυροβολισμοί μεταξύ Ρομά στο Ίλιον: Πεθερός επιχείρησε να βιάσει τη 18χρονη νύφη του

09:48ΕΛΛΑΔΑ

Κάμερες στην Αττική: Σε αυτά τα 8 σημεία θα μπουν πιλοτικά έως τέλος του έτους

11:33ΚΟΣΜΟΣ

Τρόμος 46 δευτερολέπτων - Μαύρη αρκούδα επιτέθηκε σε εργαζόμενο ζωολογικού πάρκου για τη σακούλα με λιχουδιές

12:17ΠΟΛΙΤΙΚΗ

Μαρινάκης: Οι μπαταχτσήδες αγρότες δεν θα πάρουν λεφτά - Αύριο ΚΥΣΕΑ

12:17ΚΟΣΜΟΣ

Εικόνες ντροπής στην Τουρκία: Δεμένοι με σχοινιά στα θρανία μαθητές με αυτισμό για να κάνουν μάθημα

ΟΛΕΣ ΟΙ ΔΗΜΟΦΙΛΕΙΣ ΕΙΔΗΣΕΙΣ