Η τεχνητή νοημοσύνη θα είναι έτοιμη να πετύχει το απόλυτο σκορ σε ένα από τα πιο απαιτητικά τεστ γνώσεων στον κόσμο, το «Humanity’s Last Exam (HLE)», εντός των επόμενων μηνών σύμφωνα με τους δημιουργούς του τεστ.
Το HLE δημιουργήθηκε από στελέχη τεχνολογίας για να αξιολογήσει το επίπεδο νοημοσύνης των συστημάτων τους και αποτελείται από 2,500 προσεκτικά επιλεγμένες ερωτήσεις, καλύπτοντας περίπου 100 θεματικές από την πυραυλική επιστήμη και τη μυθολογία έως τη φυσιολογία. Κάθε ερώτηση απαιτεί κατανόηση επιπέδου διδακτορικού (PhD) και ένα σκορ κοντά στο 100% θα χάριζε σε κάποιον τον τίτλο του «καθολικού ειδικού»
Πριν από δύο χρόνια το ChatGPT της OpenAI πέτυχε μόλις 3% στο τεστ, ενώ οι ανταγωνιστές του από τη Google και την Anthropic δεν τα πήγαν πολύ καλύτερα. Το τεστ βοήθησε να μετριαστούν οι φόβοι για την αυξανόμενη κυριαρχία της τεχνητής νοημοσύνης, με τους ερευνητές να υποστηρίζουν ότι ανέδειξε «ένα σημαντικό χάσμα» ανάμεσα στα μεγάλα γλωσσικά μοντέλα (LLMs) και τους κορυφαίους ακαδημαϊκούς του κόσμου.
Ωστόσο το φαινομενικά αδύνατο HLE ίσως αποδειχθεί απλώς ένα ακόμη ορόσημο στη φρενήρη εξέλιξη της τεχνητής νοημοσύνης. Το Gemini, το ΑΙ πρόγραμμα της Google, σημείωσε ένα εντυπωσιακό 45,9% στο τεστ τον Φεβρουάριο έχοντας εκτοξευθεί από το 18,8% μέσα σε λίγους μήνες από την πρώτη του προσπάθεια και το τέλειο σκορ φαίνεται πλέον εφικτό σύμφωνα με τον Κάλβιν Ζανγκ επικεφαλής έρευνας στη Scale, την εταιρεία πίσω από το HLE.
«Θέλαμε να δημιουργήσουμε ένα ακαδημαϊκό benchmark (συγκριτική αξιολόγηση/σημείο αναφοράς) κλειστού τύπου στο επίπεδο των κορυφαίων ειδικών ανθρώπων, που μόνο ελάχιστοι στον κόσμο μπορούν πραγματικά να λύσουν» δήλωσε ο Ζανγκ.
«Τα τελευταία χρόνια έχουμε δει απίστευτη πρόοδο σε αυτά τα γλωσσικά μοντέλα. Είναι εντυπωσιακό, οι δημιουργοί μοντέλων έχουν κάνει εξαιρετική δουλειά στη βελτίωση των δυνατοτήτων συλλογισμού. Αν αυτό ήταν το μοναδικό μας μέλημα πιστεύω ότι θα μπορούσαμε να φτάσουμε εκεί πολύ γρήγορα» δήλωσε η Κέιτ Ολζέσβκα product manager στο διάσημη μονάδα ανάπτυξης τεχνολογιών τεχνητής νοημοσύνης της Google, τη DeepMind.
Η Anthropic η εταιρεία πίσω από το σύστημα Claude που αποτελεί αυτή τη στιγμή το μεγάλο ανταγωνιστή του ChatGPT έχει πετύχει σκορ 34,2% στο HLE και βελτιώνεται με ταχύ ρυθμό. Ένα σκορ 100% θα αποτελούσε σημαντική εξέλιξη, δεδομένου ότι το τεστ έχει σχεδιαστεί ως «το τελευταίο ακαδημαϊκό benchmark κλειστού τύπου» σύμφωνα με τους δημιουργούς του.
Αυτό σημαίνει ότι αν η τεχνολογία κατακτήσει το HLE στο μέλλον θα πρέπει να αξιολογείται με ερωτήσεις των οποίων οι απαντήσεις δεν είναι γνωστές σε κανέναν άνθρωπο.
Το τεστ
Το HLE δημιουργήθηκε από ερευνητές της Scale και του μη κερδοσκοπικού οργανισμού Center for AI Safety με στόχο να εξετάσει τόσο το εύρος γνώσεων όσο και το βάθος συλλογισμού της τεχνητής νοημοσύνης. Ειδικοί από περίπου 50 χώρες υπέβαλαν 70,000 ερωτήσεις για αξιολόγηση, ανταποκρινόμενοι σε παγκόσμια πρόσκληση τον Σεπτέμβριο του 2024, που προσέφερε έπαθλο 500,000 δολαρίων.
Οι ερωτήσεις έπρεπε να έχουν σύντομη και σαφή απάντηση και να είναι δύσκολο να βρεθούν στο Διαδίκτυο. Η λίστα περιορίστηκε στις 13,000 ερωτήσεις αφού αφαιρέθηκαν όσες μπορούσαν να απαντηθούν από υπάρχοντα μοντέλα. Από αυτές επιλέχθηκαν 2,500 με κάποιες να αφαιρούνται ή να τροποποιούνται αργότερα βάσει σχολίων χρηστών. Οι ερωτήσεις απαιτούν ευρύ φάσμα γνώσεων από βιολογία έως γλωσσικές δεξιότητες και πολλές παραμένουν μυστικές ώστε να μην επωφελούνται τα συστήματα από δημόσιες συζητήσεις των απαντήσεων.
Η επιτυχία στο HLE θα θύμιζε τη νίκη του υπερυπολογιστή Deep Blue της IBM απέναντι στον παγκόσμιο πρωταθλητή σκακιού Γκάρι Κασπάροφ το 1997 κάτι που είχε διαψεύσει τις προβλέψεις των περισσότερων ειδικών. Έκτοτε μια σειρά από σημαντικά benchmarks AI έχουν ξεπεραστεί, όπως το Massive Multitask Language Understanding (MMLU), που παρουσιάστηκε το 2020 και τελικά εγκαταλείφθηκε όταν τα συστήματα άρχισαν να το βρίσκουν πολύ εύκολο συχνά πετυχαίνοντας σκορ άνω του 90%.
«Καθώς η AI πλησιάζει στο σημείο να κατακτήσει τεστ που έχουν σχεδιαστεί από ανθρώπους η επέκταση πέρα από τα όρια της ανθρώπινης γνώσης γίνεται ολοένα και πιο βασικός στόχος των δημιουργών» πρόσθεσε η Ολζέσβκα. Ωστόσο σύμφωνα με τον Ζανγκ θα υπάρχει πάντα χώρος για την ανθρώπινη εξειδίκευση ιδιαίτερα σε πρακτικά πεδία όπως η χειρουργική αλλά και σε δεξιότητες που απαιτούν κρίση και δημιουργικότητα, οι οποίες είναι πιο δύσκολο να κατακτηθούν από την τεχνητή νοημοσύνη.
Naftemporiki.gr

Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου