Τρίτη 21 Μαρτίου 2023

Το OpenAI μόλις ανακοίνωσε το GPT-4, ένα ενημερωμένο chatbot που μπορεί να περάσει τα πάντα, από εξετάσεις δικηγόρων έως AP Biology. Ακολουθεί μια λίστα με δύσκολες εξετάσεις που έχουν περάσει και οι δύο εκδόσεις AI.

 

Χέρι που ολοκληρώνει μια εξέταση πολλαπλών επιλογών.  Η φόρμα απάντησης δημιουργήθηκε από εμένα και δεν προστατεύεται από πνευματικά δικαιώματα.
Το νέο μοντέλο του OpenAI, το GPT-4, έχει περάσει αρκετές εξετάσεις από το bar έως το SAT σε κορυφαία εκατοστημόρια. 
bluestocking / Getty Images
  • Η OpenAI ανακοίνωσε το GPT-4 την περασμένη εβδομάδα, το οποίο λέει ότι «ξεπερνά το ChatGPT σκοράροντας σε υψηλότερα κατά προσέγγιση εκατοστημόρια μεταξύ των υποψηφίων».
  • Το OpenAI σημείωσε επίσης ότι το GPT-4 "ξεπερνά το ChatGPT στις προηγμένες δυνατότητες συλλογιστικής του".
  • Ο Insider  στρογγυλοποίησε μια λίστα με τις εργασίες, τα κουίζ και τις δοκιμές που έχουν περάσει και τα δύο μοντέλα.

Το GPT-4 είναι η «πιο προηγμένη» τεχνολογία AI του OpenAI. Μπορεί να κατανοήσει και να συζητήσει εικόνες και να δημιουργήσει οκτώ φορές το κείμενο του προκατόχου του, ChatGPT (το οποίο υποστηρίζεται από το GPT 3.5). Ακολουθεί μια λίστα με εξετάσεις που πέρασε η νέα τεχνολογία…
Ο Sam Altman του OpenAI
Sam Altman, Διευθύνων Σύμβουλος της OpenAI, η οποία ανακοίνωσε το νέο μοντέλο GPT-4 την Τρίτη. 
JASON REDMOND/AFP μέσω Getty Images

Πηγή: Insider

Η Ενιαία Δικηγορική Εξέταση

η δικηγορική εξέταση
Thianchai Sitthikongsak/Getty Images

Ενώ το GPT-3.5, το οποίο εξουσιοδοτεί το ChatGPT, σημείωσε μόνο το 10ο εκατοστημόριο της εξέτασης bar, το GPT-4 βαθμολογήθηκε στο 90ο εκατοστημόριο με βαθμολογία 298 στα 400, σύμφωνα με το OpenAI . 

Το όριο για το πέρασμα της γραμμής διαφέρει από πολιτεία σε πολιτεία. Στη Νέα Υόρκη, ωστόσο, οι συμμετέχοντες στις εξετάσεις χρειάζονται βαθμολογία 266, περίπου το 50ο εκατοστημόριο , για να περάσουν, σύμφωνα με το Συμβούλιο Εξεταστών Νομικής της Πολιτείας της Νέας Υόρκης.Το SAT

5e6fc018235c180e877a2a04 - Μαθητές που δίνουν εξετάσεις
Reuters

Το GPT-4 μπήκε στην ενότητα SAT Reading & Writing με βαθμολογία 710 στα 800, που το τοποθετεί στο 93ο εκατοστημόριο των υποψηφίων, σύμφωνα με το OpenAI. Το GPT-3,5 από την άλλη σημείωσε στο 87ο εκατοστημόριο με βαθμολογία 670 στα 800. 

Για το τμήμα των μαθηματικών, το GPT-4 κέρδισε 700 στα 800, κατατάσσοντας μεταξύ του 89ου εκατοστημόριου των υποψηφίων, σύμφωνα με το OpenAI. Ενώ το GPT-3,5 σημείωσε στο 70ο εκατοστημόριο, το OpenAI σημείωσε.

Συνολικά, το GPT-4 σημείωσε 1410 από 1600 βαθμούς. Ο μέσος όρος βαθμολογίας στο SAT το 2021 ήταν 1060, σύμφωνα με μια έκθεση από το Συμβούλιο του Κολλεγίου.ΠΗΓΑΙΝΩ

Χέρι που ολοκληρώνει μια εξέταση πολλαπλών επιλογών.  Η φόρμα απάντησης δημιουργήθηκε από εμένα και δεν προστατεύεται από πνευματικά δικαιώματα.
Μολύβι που κρατιέται πάνω από μια εξέταση πολλαπλών επιλογών 
bluestocking / Getty Images

Οι βαθμολογίες του GPT-4 στις εξετάσεις Graduate Record Examination, ή GRE, διέφεραν ευρέως ανάλογα με τις ενότητες. 

Ενώ σημείωσε βαθμολογία στο 99ο εκατοστημόριο στο προφορικό τμήμα της εξέτασης και στο 80ο εκατοστημόριο του ποσοτικού τμήματος της εξέτασης, το GPT-4 σημείωσε μόνο το 54ο εκατοστημόριο του γραπτού τεστ, σύμφωνα με το OpenAI . 

Το GPT-3.5 σημείωσε επίσης βαθμολογία στο 54ο εκατοστημόριο του γραπτού τεστ και κέρδισε βαθμούς εντός του 25ου εκατοστημόριου και του 63ου εκατοστημόριου για το ποσοτικό και το λεκτικό τμήμα αντίστοιχα, σύμφωνα με το OpenAI.
Ημιτελική εξέταση της Ολυμπιάδας Βιολογίας ΗΠΑ

δοκιμή
Ariel Skelley/Getty Images

Η Ολυμπιάδα Βιολογίας των ΗΠΑ είναι ένας διάσημος εθνικός επιστημονικός διαγωνισμός που προσελκύει τακτικά μερικούς από τους πιο έξυπνους μαθητές βιολογίας στη χώρα. Ο πρώτος γύρος περιλαμβάνει μια ανοιχτή διαδικτυακή εξέταση διάρκειας 50 λεπτών που προσελκύει χιλιάδες μαθητές σε όλη τη χώρα, σύμφωνα με τον ιστότοπο της USABO.

Ο δεύτερος γύρος — η Ημιτελική Εξέταση — είναι μια εξέταση 120 λεπτών με τρία μέρη που περιλαμβάνουν ερωτήσεις πολλαπλής επιλογής, αληθινό/λάθος και σύντομες απαντήσεις, σημειώνει η USABO στον ιστότοπό της. Οι μαθητές με τις 20 καλύτερες βαθμολογίες στις Ημιτελικές Εξετάσεις θα προκριθούν στους Εθνικούς Τελικούς, σύμφωνα με το USABO.

Το GPT-4 βαθμολογήθηκε στο 99ο έως το 100ο εκατοστημόριο στην Ημιτελική Εξέταση 2020, σύμφωνα με το OpenAI. 
Εξετάσεις AP

Γυναίκα δάσκαλος σημειώνει τα χαρτιά των εξετάσεων στην τάξη
Διδάξτε Lu/Getty Images

Το GPT-4 έχει περάσει μια σειρά από εξετάσεις Προχωρημένης Κατάταξης , εξετάσεις για μαθήματα επιπέδου κολεγίου που λαμβάνονται από μαθητές γυμνασίου και τα οποία διαχειρίζονται το Συμβούλιο του Κολλεγίου. 

Οι βαθμολογίες κυμαίνονται από το 1 έως το 5, με βαθμολογίες από 3 και άνω που γενικά θεωρούνται επιτυχείς βαθμοί, σύμφωνα με το Συμβούλιο του Κολλεγίου. 

Το GPT-4 έλαβε το 5 για Ιστορία Τέχνης AP, AP Biology, AP Environmental Science, AP Macroeconomics, AP Microeconomics, AP Psychology, AP Statistics, AP US Government και AP US History, σύμφωνα με το OpenAI .

Στο AP Physics 2, το AP Calculus BC, το AP Chemistry και το AP World History, το GPT-4 έλαβε 4, είπε το OpenAI .\
Εξετάσεις AMC

Γραμμική εξίσωση Άλγεβρας

Τα AMC 10 και 12 είναι εξετάσεις 25 ερωτήσεων και 75 λεπτών που χορηγούνται σε μαθητές γυμνασίου και καλύπτουν μαθηματικά θέματα όπως άλγεβρα, γεωμετρία, τριγωνομετρία, σύμφωνα με τον ιστότοπο της Μαθηματικής Ένωσης της Αμερικής . 

Το φθινόπωρο του 2022, η μέση βαθμολογία από τους 150 συνολικούς πόντους στο AMC 10 ήταν 58,33 και 59,9 στο AMC 12 , σύμφωνα με τον ιστότοπο του MAA. Το GPT-4 σημείωσε 30 και 60, αντίστοιχα, τοποθετώντας το μεταξύ του 6ου έως 12ου εκατοστημόριου του AMC 10 και του 45ου έως 66ου εκατοστημόριου του AMC 12, σύμφωνα με το OpenAI. 

 Εξετάσεις σομελιέ

σομελιέ ρίχνει μπουκάλι κρασί
Shutterstock.com

Αν και είναι εμφανώς δύσκολο να κερδίσετε τα διαπιστευτήριά σας ως διαχειριστής κρασιού, το GPT-4 έχει επίσης περάσει τις εξετάσεις Εισαγωγικού Sommelier, Certified Sommelier και Advanced Sommelier με αντίστοιχα ποσοστά 92%, 86% και 77%, σύμφωνα με το OpenAI . 

Το GPT-3.5 ήρθε στο 80%, 58% και 46% για αυτές τις ίδιες εξετάσεις, είπε το OpenAI .

 Το OpenAI κυκλοφόρησε το ChatGPT τον Νοέμβριο, το οποίο υποστηρίζεται από το GPT-3.5. 

Από τότε, το chatbot έχει χρησιμοποιηθεί για τη δημιουργία εκθέσεων και τη σύνταξη εξετάσεων, συχνά περνώντας, αλλά κάνοντας και λάθη. 

Ακολουθεί μια λίστα με τις εξετάσεις που έχει περάσει το ChatGPT…
ChatGPT
SOPA/Getty ImagesΕξετάσεις Wharton MBA
Το σχολείο Wharton
Το ChatGPT θα είχε λάβει B ή B- σε εξετάσεις Wharton, σύμφωνα με έναν καθηγητή στη σχολή επιχειρήσεων. 
David Tran Photo/Shutterstock

Ο καθηγητής του Wharton, Christian Terwiesch, δοκίμασε πρόσφατα την τεχνολογία με ερωτήσεις από την τελική του εξέταση στη διαχείριση λειτουργιών - που κάποτε ήταν υποχρεωτικό μάθημα για όλους τους φοιτητές MBA - και δημοσίευσε τα ευρήματά του . 

Ο Terwiesch κατέληξε στο συμπέρασμα ότι το ρομπότ έκανε μια «καταπληκτική δουλειά» απαντώντας σε βασικές ερωτήσεις λειτουργιών που βασίζονται σε μελέτες περιπτώσεων, οι οποίες είναι εστιασμένες εξετάσεις ενός ατόμου, μιας ομάδας ή μιας εταιρείας και ένας κοινός τρόπος με τον οποίο διδάσκουν οι σχολές επιχειρήσεων στους μαθητές.  

Σε άλλες περιπτώσεις όμως, το ChatGPT έκανε απλά λάθη στους υπολογισμούς που ο Terwiesch πίστευε ότι απαιτούσαν μόνο μαθηματικά στην 6η τάξη. Ο Terwiesch σημείωσε επίσης ότι το ρομπότ είχε προβλήματα με πιο σύνθετες ερωτήσεις που απαιτούσαν κατανόηση του τρόπου με τον οποίο λειτουργούσαν πολλές εισροές και εξόδους μαζί. 

Τελικά, ο Terwiesch είπε ότι το bot θα λάβει ένα B ή B- στην εξέταση. 

 Εξέταση ιατρικής άδειας στις ΗΠΑ

Ο γιατρός χρησιμοποιεί υπολογιστή και smartphone ταυτόχρονα.
Το ChatGPT πέρασε και τα τρία μέρη της εξέτασης ιατρικής αδειοδότησης των Ηνωμένων Πολιτειών σε ένα άνετο εύρος. 
Getty Images

Οι ερευνητές πραγματοποίησαν το ChatGPT μέσω της Εξέτασης Ιατρικής Αδειοδότησης των Ηνωμένων Πολιτειών - μια εξέταση τριών μερών που οι επίδοξοι γιατροί δίνουν μεταξύ ιατρικής σχολής και ειδικότητας - και ανέφεραν τα ευρήματά τους σε μια εργασία που δημοσιεύθηκε τον Δεκέμβριο του 2022. 

Η περίληψη της εργασίας σημείωσε ότι το ChatGPT "εκτέλεσε στο ή κοντά στο κατώφλι επιτυχίας και για τις τρεις εξετάσεις χωρίς καμία εξειδικευμένη εκπαίδευση ή ενίσχυση. Επιπλέον, το ChatGPT επέδειξε υψηλό επίπεδο συμφωνίας και διορατικότητας στις επεξηγήσεις του."

Τελικά, τα αποτελέσματα δείχνουν ότι τα μεγάλα γλωσσικά μοντέλα — στα οποία έχει εκπαιδευτεί το ChatGPT — μπορεί να έχουν «τη δυνατότητα» να βοηθήσουν στην ιατρική εκπαίδευση και ακόμη και στη λήψη κλινικών αποφάσεων, σημείωσε η περίληψη . 

Η έρευνα είναι ακόμα υπό αξιολόγηση από ομοτίμους, σημείωσε το Insider με βάση μια αναφορά από το Axios. 

Δοκίμια

Είδη Δοκιμίου
Ενώ το ChatGPT έχει δημιουργήσει πειστικά δοκίμια κατά καιρούς, προκαλεί επίσης τα φρύδια για την εκτόξευση καλογραμμένης παραπληροφόρησης. 
Tech Insider

Δεν πέρασε πολύς χρόνος αφότου κυκλοφόρησε το ChatGPT για να αρχίσουν οι μαθητές να το χρησιμοποιούν για δοκίμια και οι εκπαιδευτικοί να αρχίσουν να ανησυχούν για λογοκλοπή. 

Τον Δεκέμβριο, ο podcaster του Bloomberg, Matthew S. Schwartz, έγραψε στο Twitter ότι το "take home δοκίμιο είναι νεκρό". Σημείωσε ότι είχε τροφοδοτήσει ένα δοκίμιο της νομικής σχολής στο ChatGPT και είχε "απαντήσει *αμέσως* με μια σταθερή απάντηση". 

 

 

Σε μια άλλη περίπτωση, ένας καθηγητής φιλοσοφίας στο Πανεπιστήμιο Furman έπιασε έναν φοιτητή να γυρίζει σε ένα δοκίμιο που δημιουργήθηκε από AI μόλις παρατήρησε ότι είχε "καλογραμμένη παραπληροφόρηση", ανέφερε το Insider . 

«Λόξη προς λέξη ήταν ένα καλογραμμένο δοκίμιο», είπε ο καθηγητής στο Insider. Καθώς όμως κοίταξε πιο προσεκτικά, παρατήρησε ότι ο μαθητής έκανε έναν ισχυρισμό για τον φιλόσοφο Ντέιβιντ Χιουμ που «δεν είχε νόημα» και ήταν «απλώς εντελώς λάθος», ανέφερε το Insider 

Σε μια συνέντευξη τον Ιανουάριο, ο Sam Altman - Διευθύνων Σύμβουλος του OpenAI που φτιάχνει το ChatGPT - είπε ότι ενώ η εταιρεία θα επινοήσει τρόπους για να βοηθήσει τα σχολεία να ανιχνεύσουν λογοκλοπή, δεν μπορεί να εγγυηθεί την πλήρη ανίχνευση. 

 Κουίζ μικροβιολογίας

Μικροβιολογία
Το ChatGPT πέρασε με επιτυχία ένα κουίζ μικροβιολογίας σε επίπεδο κολεγίου. 
Clouds Hill Imaging Ltd./Getty Images

Ο επιστημονικός δημοσιογράφος και εκτελεστικός συντάκτης του Big Think, Alex Berezow, δοκίμασε το ChatGPT με ένα κουίζ μικροβιολογίας 10 ερωτήσεων που επινόησε . 

Ο Berezow, ο οποίος είναι επίσης κάτοχος διδακτορικού διπλώματος στη μικροβιολογία, σημείωσε ότι οι ερωτήσεις θα ήταν κατάλληλες για μια τελική εξέταση για φοιτητές επιπέδου κολεγίου. Το ChatGPT "το έσκασε", έγραψε ο Berezow. 

Σε ένα παράδειγμα, ο Berezow ρώτησε: 

"Ένας ασθενής από το δωμάτιο επειγόντων περιστατικών παρουσιάζει τρομερό πονοκέφαλο και δυσκαμψία του αυχένα. Ο γιατρός διατάζει μια νωτιαία βρύση για τη συλλογή του εγκεφαλονωτιαίου υγρού. Μια χρώση κατά Gram του ΕΝΥ αποκαλύπτει την παρουσία Gram αρνητικών διπλόκοκκων. Ποια είναι η διάγνωση;"

Στο οποίο το ChatGPT απάντησε σωστά:

Με βάση τις πληροφορίες που παρείχατε, η χρώση κατά Gram του εγκεφαλονωτιαίου υγρού (ΕΝΥ) δείχνει την παρουσία αρνητικών κατά Gram διπλόκοκκων, τα οποία είναι βακτήρια που έχουν συνήθως οβάλ σχήμα και εμφανίζονται σε ζεύγη. Αυτό το εύρημα συνάδει με τη διάγνωση της μηνιγγίτιδας.

Σε μια άλλη περίπτωση ρώτησε:

"Με πέντε λέξεις ή λιγότερο, ποιο είναι το νόημα των αξιώσεων του Κοχ;"

Στο οποίο το ChatGPT είπε: 

Καθιερώστε την αιτιότητα μεταξύ μικροβίου και ασθένειας.

Βγάζοντας τη λέξη "και" ο Berezow είπε το ChatGPT "Κάρφωσε".
Εξετάσεις Νομικής Σχολής

Καθηγητής Νομικής
Jacobs Στοκ Φωτογραφία Ltd/ Getty Images

Το ChatGPT πέτυχε πρόσφατα εξετάσεις σε τέσσερα μαθήματα νομικής σχολής  στο Πανεπιστήμιο της Μινεσότα, με βάση μια πρόσφατα δημοσιευμένη εργασία που γράφτηκε από τέσσερις καθηγητές νομικής σχολής στη σχολή. 

Συνολικά, το bot απάντησε σε πάνω από 95 ερωτήσεις πολλαπλής επιλογής και 12 ερωτήσεις προς ανάπτυξη που βαθμολογήθηκαν τυφλά από τους καθηγητές. Τελικά, οι καθηγητές έδωσαν στο ChatGPT έναν "χαμηλό αλλά επιτυχή βαθμό και στα τέσσερα μαθήματα" περίπου ισοδύναμο με ένα C+. 

Ωστόσο, οι συγγραφείς επεσήμαναν αρκετές συνέπειες για το τι μπορεί να σημαίνει αυτό για τους δικηγόρους και τη νομική εκπαίδευση. Σε μια ενότητα έγραψαν:

«Αν και το ChatGPT θα ήταν μέτριος φοιτητής νομικής, η απόδοσή του ήταν επαρκής για να αποκτήσει επιτυχώς πτυχίο JD από μια εξαιρετικά επιλεκτική νομική σχολή, υποθέτοντας ότι η εργασία του παρέμεινε σταθερή σε όλη τη νομική σχολή (και αγνοώντας άλλες απαιτήσεις αποφοίτησης που περιλαμβάνουν Σε μια εποχή όπου η εξ αποστάσεως διαχείριση εξετάσεων έχει γίνει ο κανόνας, αυτό θα μπορούσε υποθετικά να έχει ως αποτέλεσμα μια μαχόμενη φοιτήτρια νομικής να χρησιμοποιεί το ChatGPT για να κερδίσει ένα JD που δεν αντικατοπτρίζει τις ικανότητές της ή την ετοιμότητά της να ασκήσει δικηγορία."

 Τελικός κλινικός συλλογισμός της Ιατρικής Σχολής του Στάνφορντ

Στάνφορντ
Το ChatGPT πέρασε πρόσφατα τον τελικό της Ιατρικής Σχολής του Στάνφορντ σχετικά με την κλινική λογική. 
(Φωτογραφία από τον David Madison/Getty Images)

Το ChatGPT πέρασε στον τελικό της Ιατρικής Σχολής του Στάνφορντ στην κλινική λογική. Σύμφωνα με βίντεο του YouTubeπου ανέβηκε από τον Eric Strong — κλινικό αναπληρωτή καθηγητή στο Stanford — Το ChatGPT πέρασε μια εξέταση κλινικής λογικής με συνολική βαθμολογία 72%. 

Στο βίντεο , ο Strong περιέγραψε τον κλινικό συλλογισμό σε πέντε μέρη. Περιλαμβάνει την ανάλυση των συμπτωμάτων και των σωματικών ευρημάτων ενός ασθενούς, την υποβολή υποθέσεων πιθανών διαγνώσεων, την επιλογή κατάλληλων εξετάσεων, την ερμηνεία των αποτελεσμάτων των εξετάσεων και τη σύσταση επιλογών θεραπείας. 

Είπε, «είναι μια πολύπλοκη, πολύπλευρη επιστήμη από μόνη της, μια επιστήμη που είναι πολύ επικεντρωμένη στον ασθενή και κάτι που κάνει ό,τι κάνει κάθε ασκούμενος γιατρός σε βάση ρουτίνας».

Ο Στρονγκ σημείωσε στο βίντεο ότι η εξέταση κλινικής αιτιολογίας συνήθως δίνεται σε πρωτοετείς φοιτητές ιατρικής που χρειάζονται βαθμολογία 70% για να περάσουν.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου