Το Phi-3 μας δείχνει τη δύναμη των μικρών AI γλωσσικών μοντέλων

secnews.gr

IT Security News, Gadgets, Tweaks for Geeks and More

Το Phi-3 μας δείχνει τη δύναμη των μικρών AI γλωσσικών μοντέλων
https://www.secnews.gr/535745/to-phi-3-mas-deixnei-th-dynamh-twn-mikrwn-ai-glwssikwn-montelwn/
Apr 24th 2024, 11:16


Την Τρίτη, η Microsoft παρουσίασε το Phi-3-mini, ένα νέο μοντέλο τεχνητής νοημοσύνης που είναι διαθέσιμο δωρεάν και προσφέρει μια ελαφρύτερη, πιο οικονομική επιλογή σε σχέση με τα παραδοσιακά μεγάλα μοντέλα γλώσσας όπως το GPT-4 Turbo της OpenAI.



Με το μικρό του μέγεθος, το Phi-3-mini ενδείκνυται για τοπική χρήση, επιτρέποντας την τροφοδότηση συσκευών όπως τα smartphones με δυνατότητες AI συμβατές με τη δωρεάν έκδοση του ChatGPT, χωρίς την ανάγκη σύνδεσης στο διαδίκτυο.



Διαβάστε περισσότερα: OpenAI: Το AI εργαλείο Voice Engine μιμείται ανθρώπινες φωνές



Στον τομέα της τεχνητής νοημοσύνης (AI), το μέγεθος ενός γλωσσικού μοντέλου καθορίζεται συνήθως από τον αριθμό των παραμέτρων του. Οι παράμετροι, αριθμητικές τιμές ενός νευρωνικού δικτύου, παίζουν κρίσιμο ρόλο στο πώς το μοντέλο επεξεργάζεται και παράγει κείμενο, αποκτώντας γνώση μέσω της εκπαίδευσης σε εκτεταμένα σύνολα δεδομένων και μετατρέποντας τη γνώση αυτή σε ποσοτικοποιημένη μορφή. Ένα μεγαλύτερο πλήθος παραμέτρων επιτρέπει στο μοντέλο να αποτυπώνει περισσότερο σύνθετες δομές και νοήματα της γλώσσας, απαιτώντας ωστόσο περισσότερους υπολογιστικούς πόρους για την εκπαίδευση και λειτουργία του.



Κάποια από τα πιο προηγμένα σημερινά γλωσσικά μοντέλα, όπως το PaLM 2 της Google, διαθέτουν εκατοντάδες δισεκατομμύρια παραμέτρους. Το GPT-4 του OpenAI, το οποίο φέρεται να έχει περισσότερο από ένα τρισεκατομμύριο παραμέτρους, διανέμεται σε οκτώ διαφορετικά μοντέλα, κάθε ένα με 220 δισεκατομμύρια παραμέτρους, σε μια προσέγγιση μίξης ειδικοτήτων. Αμφότερα αυτά τα μοντέλα απαιτούν τη χρήση προηγμένων GPU κέντρων δεδομένων (και συναφή συστημάτων υποστήριξης) για να λειτουργούν αποτελεσματικά.



Αντιθέτως, η Microsoft επικεντρώθηκε στην ανάπτυξη του μικρού μοντέλου Phi-3-mini, το οποίο διαθέτει μόλις 3,8 δισεκατομμύρια παραμέτρους και υποβλήθηκε σε εκπαίδευση με 3,3 τρισεκατομμύρια λέξεις. Αυτό το καθιστά ιδανικό για χρήση με τις GPU των καταναλωτών ή με hardware AI επιτάχυνσης που μπορεί να εντοπιστεί σε smartphones και φορητούς υπολογιστές. Αποτελεί την εξέλιξη δύο προηγούμενων εκδόσεων μικρών γλωσσικών μοντέλων της Microsoft, το Phi-2 που κυκλοφόρησε τον Δεκέμβριο και το Phi-1 που κυκλοφόρησε τον Ιούνιο του 2023.



Το Phi-3-mini διαθέτει ένα παράθυρο περιβάλλοντος 4.000 token, αλλά η Microsoft παρουσίασε επίσης μια έκδοση 128K-token που ονομάζεται "phi-3-mini-128K". Η Microsoft έχει επίσης δημιουργήσει εκδόσεις 7 δισεκατομμυρίων και 14 δισεκατομμυρίων παραμέτρων του Phi-3 που σκοπεύει να κυκλοφορήσει αργότερα και οι οποίες ισχυρίζεται ότι είναι «σημαντικά πιο ικανές» από το phi-3-mini.



Η Microsoft λέει ότι το Phi-3 διαθέτει συνολική απόδοση που "συναγωνίζεται εκείνη των μοντέλων όπως το Mixtral 8x7B και το GPT-3.5", όπως περιγράφεται λεπτομερώς σε ένα έγγραφο με τίτλο "Τεχνική αναφορά Phi-3: Ένα γλωσσικό μοντέλο υψηλής ικανότητας στο τηλέφωνό σας". Το Mixtral 8x7B, από τη γαλλική εταιρεία τεχνητής νοημοσύνης Mistral, χρησιμοποιεί ένα συνδυαστικό μοντέλο ειδικών και το GPT-3.5 τροφοδοτεί τη δωρεάν έκδοση του ChatGPT.



"Παρά το γεγονός ότι τα περισσότερα μοντέλα απαιτούν ακόμα ισχυρό hardware για να λειτουργήσουν σε τοπικές συσκευές, το Phi-3-mini αποτελεί εξαίρεση", αναφέρει ο Willison. "Το συγκεκριμένο μοντέλο μπορεί να λειτουργήσει άνετα με λιγότερο από 8GB μνήμης RAM και είναι ικανό να παράγει αποτελέσματα με αξιοπρεπή ταχύτητα ακόμη και σε απλές CPU. Με άδεια MIT, εξασφαλίζει άριστη λειτουργία σε ένα Raspberry Pi αξίας 55 δολαρίων."



Πώς κατάφερε η Microsoft να αποκτήσει δυνατότητα αντίστοιχη με το GPT-3.5, το οποίο διαθέτει τουλάχιστον 175 δισεκατομμύρια παραμέτρους, σε ένα τόσο συμπαγές μοντέλο; Οι ερευνητές της βρήκαν τη λύση μέσω της επιλογής εξαιρετικά προσεγμένων, υψηλής ποιότητας δεδομένων εκπαίδευσης, που προήλθαν αρχικά από σχολικά εγχειρίδια. «Η καινοτομία μας εστιάζεται ολοκληρωτικά στο σύνολο δεδομένων εκπαίδευσης μας, μια εξελιγμένη εκδοχή εκείνης που χρησιμοποιήθηκε για το phi-2, περιλαμβάνοντας προσεκτικά επιλεγμένα δεδομένα από το διαδίκτυο και συνθετικά δεδομένα», αναφέρει η Microsoft. "Αυτό το μοντέλο έχει επίσης βελτιστοποιηθεί για μεγαλύτερη σταθερότητα και ασφάλεια στην αλληλεπίδραση."



Έχουν ειπωθεί πολλά για τις πιθανές περιβαλλοντικές συνέπειες που αφορούν τα μοντέλα τεχνητής νοημοσύνης και τα κέντρα δεδομένων. Χάρη σε νέες τεχνικές και ερευνητικές προσπάθειες, υπάρχει προοπτική οι ειδικοί στην μηχανική μάθηση να ενισχύσουν την αποδοτικότητα των μικρότερων μοντέλων τεχνητής νοημοσύνης, καταργώντας την ανάγκη για τα μεγαλύτερα, τουλάχιστον σε καθημερινή βάση. Αυτή η προσέγγιση δεν θα οδηγούσε μόνο σε οικονομική εξοικονόμηση στο μακροπρόθεσμο διάστημα αλλά θα μείωνε επίσης σημαντικά τη συνολική κατανάλωση ενέργειας, περιορίζοντας δραστικά το περιβαλλοντικό αποτύπωμα της τεχνητής νοημοσύνης. Μοντέλα όπως το Phi-3 θα μπορούσαν να αποτελέσουν βήμα προς αυτή την κατεύθυνση, εφόσον τα αποτελέσματα των δοκιμών ανταποκρίνονται στις προσδοκίες.



Δείτε επίσης: OpenAI: Σκοπεύει να ιδρύσει γραφείο στο Τόκιο



Το Phi-3 είναι πλέον εύκολα προσβάσιμο στην cloud service platform της Microsoft Azure, προσφέροντας επίσης διαθεσιμότητα μέσω συνεργασιών με την πλατφόρμα μοντέλων μηχανικής εκμάθησης Hugging Face και την Ollama, ένα πλαίσιο που διευκολύνει την τοπική εκτέλεση μοντέλων σε συσκευές Mac και PC.



Πηγή: arstechnica




You are receiving this email because you subscribed to this feed at https://blogtrottr.com

If you no longer wish to receive these emails, you can unsubscribe here:
https://blogtrottr.com/unsubscribe/nfz/3xfHTz
Σχόλια