Τεχνητή νοημοσύνη: Claude 3, το μοντέλο που ισχυρίζεται ότι μπορεί να νικήσει την OpenAI
Το μοντέλο τεχνητής νοημοσύνης με το όνομα Claude 3 της Anthropic, που κυκλοφόρησε τη Δευτέρα, ξεπερνά τους ανταγωνιστές του GPT-4 και του Gemini 1.0 Ultra της Google, υποστήριξαν τα αδέλφια Dario και Daniela Amodei οι συνιδρυτές της startup τεχνητής νοημοσύνης, σε συνέντευξή τους στο Forbes.
Η Anthropic ανακοίνωσε σήμερα μια νέα σειρά μεγάλων γλωσσικών μοντέλων γλώσσας που η εταιρεία τεχνητής νοημοσύνης ισχυρίζεται ότι είναι τα πιο έξυπνα στον κόσμο μέχρι σήμερα, ξεπερνώντας τις ανταγωνιστικές προσφορές της OpenAI και της Google.
Το νέο μοντέλο της «οικογένειας» της Anthropic διατίθεται σε τρεις εκδόσεις – Opus, Sonnet και Haiku – που διαφέρουν ανάλογα με την απόδοση και την τιμή. Η Opus, η πιο ισχυρή και ακριβότερη έκδοση σε λειτουργία, ξεπέρασε το GPT-4 του OpenAI και το Gemini 1.0 Ultra της Google σε μια σειρά σημείων αναφοράς που μετρούν τη νοημοσύνη, σύμφωνα με την ίδια την εταιρεία. Το It και το Sonnet, τα αντίστοιχα προϊόντα μεσαίας κατηγορίας, διατέθηκαν τη Δευτέρα, ενώ το Haiku θα κυκλοφορήσει σε μεταγενέστερη ημερομηνία.
Μιλώντας στο Forbes, ο συνιδρυτής και διευθύνων σύμβουλος Dario Amodei είπε ότι η οικογένεια μοντέλων σχεδιάστηκε με δεδομένο ότι θα μπορούσε το κάθε «μέλος» της θα μπορούσε να αξιοποιηθεί σε διαφορετικές περιπτώσεις επιχειρηματικής χρήσης. «Το Claude 3 Opus είναι, τουλάχιστον σύμφωνα με τις αξιολογήσεις, από πολλές απόψεις το μοντέλο με τις καλύτερες επιδόσεις στον κόσμο σε μια σειρά εργασιών», πρόσθεσε.
Σε μια σειρά δημοφιλών θεμάτων δοκιμών, συμπεριλαμβανομένων των γενικών γνώσεων προπτυχιακού επιπέδου (MMLU), των μαθηματικών δημοτικού (GSM8K), του κώδικα υπολογιστή (HumanEval) και της γνώσης ερωτήσεων και απαντήσεων (ARC-Challenge), το Claude 3 Opus ξεπέρασε τις επιδόσεις του GPT-4 της OpenAI και του Gemini 1.0 Ultra της Google, ανά σημεία αναφοράς, όπως υποστήριξε η εταιρεία. Στο σημείο αναφοράς γενικής γνώσης, το Claude 3 Opus ξεπέρασε επίσης το Mistral Large, το κορυφαίο μοντέλο ανοιχτού κώδικα που κυκλοφόρησε ο «μονόκερος» της τεχνητής νοημοσύνης Mistral, την περασμένη εβδομάδα.
Η έκδοση του Claude 3 που θα δουν οι περισσότεροι χρήστες, ωστόσο, το Claude 3 Sonnet, απέδωσε περισσότερο στο ίδιο επίπεδο με το GPT-4: σε κάποια σημεία βρέθηκε μπροστά και σε κάποια άλλα πίσω. Και ο Amodei παραδέχτηκε ότι τα σημεία αναφοράς της Anthropic δεν έλαβαν υπόψη τις πρόσφατες ενημερώσεις της OpenAI και της Google (GPT-4 Turbo και Gemini 1.5 Pro), καθώς οι ανταγωνιστές τους δεν έχουν ακόμη δημοσιεύσει τις αντίστοιχες αξιολογήσεις δοκιμών. «Θα εκπλαγώ αν δεν αποδειχτούμε ανταγωνιστικοί», είπε.
To Claude 3 Opus είναι πιο ακριβό από την preview έκδοση του GPT-4 Turbo της OpenAI. Ο Daniel Amodei και η συνιδρύτρια και αδελφή του Daniela Amodei είπαν στο Forbes ότι αναμένουν πως το Opus θα χρησιμοποιηθεί από επιχειρήσεις που χρειάζονται την πιο αιχμή απόδοση για λειτουργίες όπως η σύνθετη ανάλυση δεδομένων και η βιοϊατρική έρευνα.
Το Claude 3 Sonnet, συγκριτικά – το οποίο είναι πέντε φορές φθηνότερο – θα μπορούσε να βοηθήσει στις περισσότερες εργασίες, πρόσθεσαν, με χρήσεις που κυμαίνονται από αναζήτηση και ανάκτηση σε μεγάλες αποθήκες δεδομένων, πρόβλεψη πωλήσεων και στοχευμένο μάρκετινγκ και δημιουργία κώδικα.
Το μοντέλο με το χαμηλότερο κόστος, το Claude 3 Haiku, θα είναι πολύ φθηνότερο, και κατάλληλο για ζωντανές αλληλεπιδράσεις με πελάτες, έλεγχο περιεχομένου και διαχείριση αποθέματος logistics. Η έκδοση Haiku εξακολουθούσε να έχει την ίδια απόδοση με την τελευταία ναυαρχίδα της Anthropic, το Claude 2, που προηγήθηκε και το οποίο κυκλοφόρησε μόλις πριν από οκτώ μήνες. Σύμφωνα με τον Dario Amodei, «είναι πολύ ανταγωνιστικό με άλλα μοντέλα της ίδιας κατηγορίας… αυτό είναι μεγάλο κέρδος».
Επτά πρώην ερευνητές της OpenAI
Συγκροτούμενη από επτά ερευνητές που εγκατέλειψαν την OpenAI, η Anthropic είχε ιστορικά στόχο να διαχωρίσει τον εαυτό της από τον προγονό της και άλλες εταιρείες στον κλάδο ΑΙ μέσω μιας βαθύτερης εστίασης στην ασφάλεια της τεχνητής νοημοσύνης. Ορισμένοι γνώστες του κλάδου αναρωτήθηκαν αν αυτό έχει επιβραδύνει την πορεία της εταιρεία και αμφισβητούν την απόδοση του μοντέλου της τους τελευταίους μήνες, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης. Σε έναν δημοφιλές πίνακα κατάταξης ειδικών αξιολογητών, το Claude 1 έχει επί του παρόντος υψηλότερη βαθμολογία από τους διαδόχους του Claude 2.0 και τον ενημερωμένο Claude 2.1.
Ο Dario Amodei απέρριψε αυτές τις αξιολογήσεις ως μόνο μια ανθρώπινη αξιολόγηση ενός πεπερασμένου αριθμού εργασιών καταναλωτή. Παραδέχτηκε ότι ενώ το Claude 2 ήταν πιο ασφαλές από τον προκάτοχό του με τρόπο που ικανοποιούσε τους ερευνητές του Anthropic, αυτό είχε το κόστος υψηλότερων «λανθασμένων αρνήσεων» ή απόρριψης προτροπών που το μοντέλο πίστευε ότι πλησίαζε πολύ τα προστατευτικά του όρια.
Η οικογένεια Claude 3 αποδίδει πολύ καλύτερα από τους προκατόχους της στο να μην εξυπηρετεί αυτές τις απορρίψεις, ισχυρίστηκε η Anthropic. Τα αβλαβή μηνύματα που έχουν περιεχόμενο κοντά στα όρια ασφαλείας απορρίπτονται περίπου στο 10% των περιπτώσεων, σε σύγκριση με το 25% για το Claude 2.1. «Τώρα σημειώνουμε πρόοδο προς περισσότερη ισορροπία μεταξύ των δύο, κάτι που αποκομίζει το καλύτερο και από τους δύο κόσμους», είπε ο Amodei. «Είναι πραγματικά δύσκολο να χαράξεις ένα περίπλοκο όριο με τον σωστό τρόπο. Πάντα προσπαθούμε να το κάνουμε αυτό καλύτερα».
Ενώ εταιρείες όπως η Inflection, η Character.AI, ακόμη και η OpenAI έχουν τολμήσει να απευθυνθούν σε χρήστες καταναλωτές, η Anthropic εστιάζει σε επιχειρηματικούς πελάτες. Οι χρήστες του δωρεάν chatbot για καταναλωτές, που ονομάζεται επίσης Claude, θα έχουν πλέον πρόσβαση στο Sonnet, ενώ τα άτομα που θέλουν να δοκιμάσουν το Opus θα πρέπει να εγγραφούν στην επί πληρωμή έκδοσή του με 20 δολάρια ανά μήνα. Αλλά οι εκδόσεις του Claude 3 έγιναν περισσότερο για επαγγελματική χρήση, είπε η Daniela Amodei. Οι πελάτες του Claude περιλαμβάνουν τις εταιρείες τεχνολογίας Gitlab, Notion, Quora και Salesforce (εταιρεία που επενδύει και στην Anthropic), ο χρηματοοικονομικός γίγαντας Bridgewater και ο όμιλος SAP, καθώς και η ερευνητική πύλη επιχειρήσεων LexisNexis, η telco SK Telecom και το Dana-Farber Cancer Institute.
Μεταξύ των πρώτων χρηστών που δοκίμασαν το Claude 3, ο κατασκευαστής λογισμικού παραγωγικότητας Asana βρήκε βελτίωση 42% στον αρχικό χρόνο απόκρισης, όπως δήλωσε ο Eric Pelz, στέλεχος τεχνητής νοημοσύνης. Η εταιρεία λογισμικού Airtable είπε ότι ενσωμάτωσε το Claude 3 Sonnet στο δικό της εργαλείο τεχνητής νοημοσύνης για να βοηθήσει με την ταχύτερη δημιουργία περιεχομένου και τη σύνοψη δεδομένων.
Όσο για το πόσο κόστισε η εκπαίδευση του Claude 3 – πόσοι υπολογιστές και για πόσο χρόνο – οι συνιδρυτές της Anthropic αρνήθηκαν να πουν
Η Anthropic – η οποία συγκέντρωσε πρόσφατα 750 εκατομμύρια δολάρια και πλέον αποτιμάται στα 18,4 δισεκατομμύρια δολάρια, όπως ανέφερε το Forbes – σχεδιάζει να προσθέσει χαρακτηριστικά, όπως ερμηνεία κώδικα, λειτουργίες αναζήτησης και αναφορές πηγών τους επόμενους μήνες. «Θα συνεχίσουμε να κλιμακώνουμε τα μοντέλα μας και να τα κάνουμε πιο έξυπνα, αλλά επίσης θα προσπαθούμε να κάνουμε τα μικρότερα, φθηνότερα μοντέλα πιο έξυπνα και πιο αποτελεσματικά», είπε ο Amodei. “Θα υπάρξουν ενημερώσεις μεγάλες και μικρές καθ’ όλη τη διάρκεια του έτους.”
πηγή: flashnews