Výzkum vedený americkou Marylandskou univerzitou ve spolupráci se společností Microsoft testoval 26 jazyků, mezi kterými nechyběla ani čeština. Po prozkoumání několika velkých jazykových modelů, včetně ChatGPT, Google Gemini nebo DeepSeek se ukázalo, že nejlepším jazykem pro zadávání příkazů, takzvaných promptů, je polština, která dosáhla přesnosti až 88 procent.
Na plné čáře porazila angličtinu, která je hlavním tréninkovým jazykem řady modelů, ale i čínštinu, která má ve světě AI obrovský objem dat. Čeština navíc v žebříčku předstihla obě tyto globální velmoci.
"Polština je nejlepším jazykem, který je třeba podněcovat," uvedl na Facebooku polský patentní úřad v reakci na výsledky. "Polská umělá inteligence není tak rozvinutá jako například americká nebo čínská. Boti, kteří pracují v tomto jazyce, ale dělají méně chyb, dokážou lépe analyzovat velké soubory dokumentů."
Polština poráží globální jazyky
Podle vědců jí patří prvenství díky její bohaté gramatické struktuře. Vyniká totiž složitým systémem pádů, skloňování a aspektů, poskytuje tak víc informací o vztazích mezi slovy a snižuje nejednoznačnost. Lépe si poradí se složitými úkoly, zejména při zpracování rozsáhlých textů. Polština přitom patří k nejobtížnějším jazykům, jenže zatímco lidé s ní často bojují, umělá inteligence v ní vidí jasnější význam. Vítězem se stala i navzdory tomu, že množství dat pro trénování modelů je v polštině mnohem menší než v angličtině nebo čínštině.
"Náš experiment přinesl několik překvapivých zjištění. Angličtina si nevedla nejlépe, ačkoli je pro většinu modelů hlavním trénovacím jazykem. Naopak polština se ukázala jako nejpřesnější," píše se ve studii.
Slovanské a románské jazyky vedou
V první desítce žebříčku dominovaly slovanské a románské jazyky, které zřejmě pro svou strukturovanost pomáhají umělým inteligencím lépe chápat kontext a přesněji tak reagovat i na složitější zadání. Na druhém místě skončila francouzština s přesností jen o něco málo nižší než polština, asi 87 procent, bronzová příčka pak patří italštině s 86 procent.
Angličtina, která je nejrozšířenějším jazykem umělé inteligence, skončila až na šestém místě. Zřejmě proto, že obsahuje hodně neformální řeči, slangu, špatné gramatiky, sarkasmu - to vše přispívá k většímu zkreslení, nejednoznačnosti a nepřesnostem. Čínštinu, která dominuje objemem dat, pak najdeme až na chvostu žebříčku, skončila 22. s mírou přesnosti pouhých 62,1 procenta. Předběhla ji i čeština, která obsadila 16. pozici.