Sari la conținut

Traducere automată neuronală

De la Wikipedia, enciclopedia liberă

Traducerea automată neuronală (în engleză neural machine translation, NMT) este o abordare a traducerii automate care utilizează o rețea neurală artificială pentru a prezice probabilitatea unei secvențe de cuvinte, modelând de obicei propoziții întregi într-un singur model integrat.

Este abordarea dominantă astăzi[1]:293[2]:1 și poate produce traduceri comparabile cu traducerile umane atunci când este utilizată pentru limbi de circulație internațională și în anumite condiții specifice.[3] Cu toate acestea, există încă provocări, în special în cazul limbilor pentru care sunt disponibile date de calitate mai redusă,[4][5][1]:293 și în situația schimbării domeniului dintre datele pe care a fost antrenat un sistem și textele pe care ar trebui să le traducă.[1]:293 Sistemele NMT tind, de asemenea, să producă traduceri destul de literale.[5]

Primele abordări

[modificare | modificare sursă]

În 1987, Robert B. Allen a demonstrat utilizarea rețelelor neurale de tip feed-forward pentru a traduce în spaniolă propoziții în engleză generate automat, cu un vocabular limitat la 31 de cuvinte. În acest experiment, dimensiunea straturilor de intrare și de ieșire ale rețelei a fost aleasă în așa fel încât să fie suficient de mare pentru cele mai lungi propoziții în limba sursă și, respectiv, țintă, deoarece rețeaua nu avea niciun mecanism pentru a codifica secvențe de lungime arbitrară într-o reprezentare de dimensiune fixă. În rezumatul său, Allen sugera deja posibilitatea de a folosi modele autoasociative, unul pentru codificarea sursei și altul pentru decodificarea rezultatului.[6]

Lonnie Chrisman a dezvoltat contribuțiile lui Allen în 1991 prin antrenarea rețelelor separate de memorie auto-asociativă recursivă (RAAM) (dezvoltate de Jordan B. Pollack[7]) pentru limba sursei și limba rezultatului. Fiecare dintre rețelele RAAM este antrenată să codifice o propoziție de lungime arbitrară într-o reprezentare ascunsă de dimensiune fixă și să decodeze din nou propoziția originară din acea reprezentare. În plus, cele două rețele sunt antrenate și să partajeze reprezentarea ascunsă; în acest fel, codificatorul sursei poate produce o reprezentare pe care decodificatorul rezultatului să o poată decodifica.[8] Forcada și Ñeco au simplificat această procedură în 1997 pentru a antrena direct un codificator de sursă și un decodificator de rezultat în ceea ce ei au numit o memorie hetero-asociativă recursivă.[9]

Tot în 1997, Castaño și Casacuberta au folosit o rețea neurală recurentă a lui Elman într-o altă problemă de traducere automată cu vocabular și complexitate foarte limitate.[10][11]

Chiar dacă aceste abordări timpurii erau deja similare cu traducerea automată neurală modernă, resursele de calcul ale vremii nu erau suficiente pentru a procesa seturi de date îndeajuns de mari pentru complexitatea computațională a problemei traducerii automate pe textele din lumea reală.[1]:39[12]:2 În schimb, alte metode, cum ar fi traducerea automată statistică, au ajuns să devină tehnologia de vârf din anii 1990 și 2000.

Abordări hibride

[modificare | modificare sursă]

În perioada în care traducerea automată statistică se răspândea, unele lucrări foloseau metode neurale pentru a înlocui diverse părți din traducerea automată statistică în timp ce utilizau în continuare abordarea log-liniară pentru a le îmbina.[1]:39[2]:1 De exemplu, în diverse lucrări, împreună cu alți cercetători, Holger Schwenk a înlocuit modelul obișnuit de limbaj n-gram cu unul neural[13][14] și a estimat probabilitățile de traducere a frazelor folosind o rețea de tip feed-forward.[15]

În 2013 și 2014, traducerea automată neuronală cap-coadă a înregistrat un salt de progres. Kalchbrenner & Blunsom au folosit o rețea neurală convoluțională (CNN) pentru codificarea sursei[16] și atât Cho et al., cât și Sutskever et al. au folosit o rețea neurală recurentă (recurrent neural network, RNN).[17][18] Toți trei foloseau o RNN condiționată de codificarea fixă a sursei ca decodificator pentru a produce traducerea. Aceste modele aveau însă rezultate slabe pe propoziții mai lungi.[19]:107[1]:39[2]:7 Această problemă a fost rezolvată după ce Bahdanau et al. au introdus în arhitectura codificatorului-decodorului conceptul de atenție⁠(d): la fiecare pas de decodare, starea decodorului era utilizată pentru a calcula o reprezentare a sursei care se concentrează pe diferite părți ale sursei și utilizează acea reprezentare în calculul probabilităților pentru următorul simbol.[20] Pornind de la aceste arhitecturi bazate pe RNN, Baidu a lansat „primul sistem NMT la scară largă”[21]:144 în 2015, urmat de Google Neural Machine Translation în 2016.[21]:144[22] Tot din acel an, modelele neurale au devenit opțiunea predominantă în cadrul conferinței principale de traducere automată Workshop on Statistical Machine Translation.[23]

În 2017, Gehring et al. au îmbinat un codificator CNN cu un mecanism de atenție, care a gestionat dependențele de lungă durată din sursă mai bine decât abordările anterioare și a crescut și viteza de traducere, deoarece un codificator CNN este paralelizabil, în timp ce un codificator RNN trebuie să codifice simbol cu simbol, din cauza naturii sale recurente.[24]:230 În același an, Microsoft Translator a lansat traducerea automată neurală online bazată pe inteligență artificială (NMT). DeepL Translator, care la acea vreme se baza pe un codificator CNN, a fost lansat și el în același an, iar mai multe trusturi de presă au susținut că acesta și-ar depăși competitorii în termeni de performanță.[25][26][27] Alte sisteme de traducere automată, cum ar fi Microsoft Translator și SYSTRAN au rețele neuronale integrate în operațiunile lor.

Transformatorul

[modificare | modificare sursă]

O altă arhitectură de rețea care se pretează la paralelizare este transformatorul, care a fost introdus de Vaswani și colab. tot în 2017.[28] La fel ca modelele anterioare, transformatorul încă folosește mecanismul de atenție pentru ponderarea ieșirii codificatorului pentru pașii de decodificare. Cu toate acestea, rețelele de codificator și decodificator ale transformatorului în sine se bazează tot pe atenție, și nu pe recurență sau convoluție: fiecare strat ponderează și transformă ieșirea stratului anterior într-un proces numit auto-atenție. Deoarece mecanismul de atenție nu are nicio noțiune privind ordinea simbolurilor, dar ordinea cuvintelor într-o propoziție este evident relevantă, înglobările de simboluri sunt combinate cu o codificare explicită a poziției lor în propoziție.[2]:15[29]:7 Deoarece atât codificatorul cât și decodificatorul transformatorului sunt lipsite de elemente recurente, ambele pot fi paralelizate în timpul antrenamentului. Cu toate acestea, decodificatorul transformatorului originar este încă auto-regresiv, ceea ce înseamnă că decodificarea trebuie să fie efectuată simbol cu simbol în timpul inferenței.

Modelul de transformator a devenit rapid opțiunea dominantă pentru sistemele de traducere automată[2]:44 și a rămas de departe cea mai utilizată arhitectură la Workshop on Statistical Machine Translation în 2022 și 2023.[30]:35–40[31]:28–31

De obicei, ponderile modelelor NMT sunt inițializate aleatoriu și apoi învățate prin antrenament pe seturi de date paralele. Cu toate acestea, deoarece utilizarea modelelor lingvistice mari (LLM) precum BERT preantrenat pe cantități mari de date monolingve ca punct de plecare pentru învățarea altor sarcini s-a dovedit a avea un mare succes în domeniul PLN mai larg, această paradigmă devine și mai răspândită în NMT. Aceasta este utilă în special pentru limbile cu resurse reduse, unde nu există seturi mari de date paralele.[4]:689–690 Un exemplu în acest sens este modelul mBART, care antrenează mai întâi un transformator pe un set de date multilingv pentru a recupera simboluri mascate în propoziții, apoi ajustează fin codificatorul rezultat în sarcina de traducere.[32]

LLM-uri generative

[modificare | modificare sursă]

În loc de ajustarea fină a unui model lingvistic pre-antrenat pentru sarcina de traducere, modelele generative suficient de mari pot fi și ele solicitate direct să traducă o propoziție în limba dorită. Această abordare a fost testată și evaluată în mod cuprinzător pentru GPT 3.5 în 2023 de Hendy și colab. Ei au descoperit că „sistemele GPT pot produce rezultate de traducere foarte fluente și competitive chiar și în setarea zero-shot, în special pentru traducerile în limbi de circulație internațională”.[33]:22 : 22 WMT23 a evaluat aceeași abordare (dar folosind GPT-4 ) și a constatat că este la același nivel cu tehnologia de vârf atunci când traducea în engleză, dar nu și atunci când traducea în limbi pentru care sunt disponibile mai puține date.[31]:16–17 : 16–17 Acest lucru este plauzibil, având în vedere că modelele GPT sunt instruite în principal pe text în limba engleză.[34]

Comparație cu traducerea automată statistică

[modificare | modificare sursă]

NMT a depășit mai multe provocări prezente în traducerea automată statistică (SMT):

  • Faptul că NMT se bazează complet pe reprezentarea continuă a simbolurilor a rezolvat problemele de dispersie cauzate de cuvinte sau expresii rare. Modelele au putut să se generalizeze mai eficient.[16]:1: 1 [35]:900–901
  • Lungimea limitată a n-gramelor utilizată în modelele de limbaj n-grame ale SMT a provocat o pierdere a contextului. Sistemele NMT nu au această problemă pentru că nu au o întrerupere strictă după un număr fix de simboluri și pentru că acordă atenție alegerii pe care simbolurile trebuie să se concentreze atunci când se generează următorul simbol.[35]:900–901 : 900–901 
  • Instruirea cap-coadă a unui singur model a îmbunătățit performanța traducerii și, de asemenea, a simplificat întregul proces.[necesită citare]
  • Modelele uriașe de n-grame (până la 7-grame) utilizate în SMT au necesitat cantități mari de memorie,[36]:88 în timp ce NMT necesită mai puțină memorie.

Procedura de instruire

[modificare | modificare sursă]

Modelele NMT sunt de obicei antrenate pentru a maximiza probabilitatea de a observa datele de antrenament. Adică, pentru un set de date de propoziții sursă și propozițiile țintă corespunzătoare , scopul este găsirea parametrilor modelului care maximizează suma probabilității fiecărei propoziții țintă din datele de antrenament având în vedere propoziția sursă corespunzătoare:

Extinderea la nivel de simbol oferă:

Deoarece ne interesează doar maximul, putem la fel de bine să căutăm maximul logaritmului (care are avantajul că evită depășirea inferioară de capacitate în virgulă mobilă care s-ar putea întâmpla cu produsul probabilităților scăzute).

Folosind faptul că logaritmul unui produs este suma logaritmilor factorilor și inversarea semnului produce pierderea clasică de entropie încrucișată:

În practică, această minimizare se face iterativ pe subseturi mici (mini-loturi) ale setului de antrenament folosind coborârea gradientului stocastic.

Forțarea "profesorului"

[modificare | modificare sursă]

În timpul inferenței, decodoarele auto-regresive folosesc simbolul generat la pasul anterior ca simbol de intrare. Cu toate acestea, vocabularul simbolurilor țintă este de obicei foarte mare. Deci, la începutul fazei de antrenament, modelele neantrenate vor alege aproape întotdeauna simbolul greșit, iar pașii următori ar trebui apoi să funcționeze cu simboluri de input greșite, ceea ce ar încetini considerabil instruirea. În schimb, forțarea profesorului este folosită în timpul fazei de instruire: modelul („elevul” din metafora de forțare a profesorului) este întotdeauna alimentat cu simbolurile de bază anterioare ca input pentru următorul simbol, indiferent de ceea ce a prezis în pasul anterior.

Traducerea cu ajutorul prompt-urilor în LLM-uri

[modificare | modificare sursă]

În locul utilizării unui sistem NMT care este instruit pe texte paralele, se pot, de asemenea, utiliza prompt-uri într-un LLM generativ pentru a traduce un text. Aceste modele sunt diferite de un sistem NMT codificator-decodor în mai multe moduri:[33]:1

  • Modelele lingvistice generative nu sunt instruite pe sarcina de traducere, cu atât mai puțin pe un set de date paralel. În schimb, ele sunt instruite pe un obiectiv de modelare a limbajului, cum ar fi prezicerea cuvântului următor dintr-o secvență extrasă dintr-un set mare de date sub formă de text. Acest set de date poate conține documente în multe limbi, dar în practică predomină limba engleză.[34] După această pregătire prealabilă, modelele sunt reglate fin pentru o altă sarcină, de obicei pentru a urma instrucțiuni.[37]
  • Deoarece nu sunt instruite pe traducere, ele nu prezintă nicio arhitectură codificator-decodificator. Ele sunt compuse doar dintr-un decodificator al transformatorului.
  • Pentru a fi competitive în sarcina de traducere automată, LLM-urile trebuie să fie mult mai mari decât alte sisteme NMT. De exemplu, GPT-3 are 175 de miliarde de parametri,[38]:5 în timp ce mBART are 680 de milioane,[32]:727, iar transformatorul mare originar are „doar” 213 milioane.[28]:9Aceasta înseamnă că, din punct de vedere computațional, instruirea și utilizarea lor este mai costisitoare.

Într-un LLM generativ, se pot scrie prompturi într-un mod zero-încercări (zero-shot), cerându-i-se direct să traducă un text într-o altă limbă, fără a oferi alte exemple în prompt. Sau se pot include una sau mai multe exemple de traducere în prompt, înainte de a cere traducerea textului în cauză. Acest proces se numește învățare de tip o încercare respectiv, puține încercări. De exemplu, următoarele prompturi au fost folosite de Hendy et al. (2023) pentru traducerea zero-încercări și o încercare:[33]

### Tradu această propoziție din [limba sursă] în [limba rezultat], Sursa:
[propoziția sursă]
### Rezultatul:
Tradu asta în 1. [limba rezultat]:
[sursă încercarea 1]
1. [referință încercarea 1]
Tradu asta în 1. [limba rezultat]:
[intrare]
1.
  1. ^ a b c d e f Koehn, Philipp (). Neural Machine Translation. Cambridge University Press. 
  2. ^ a b c d e Stahlberg, Felix (). „Neural Machine Translation: A Review and Survey”. arXiv:1912.02047v2Accesibil gratuit [cs.CL]. 
  3. ^ Popel, Martin; Tomkova, Marketa; Tomek, Jakub; Kaiser, Łukasz; Uszkoreit, Jakob; Bojar, Ondřej; Žabokrtský, Zdeněk (). „Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals”. Nature Communications. 11 (1): 4381. Bibcode:2020NatCo..11.4381P. doi:10.1038/s41467-020-18073-9. hdl:11346/BIBLIO@id=368112263610994118Accesibil gratuit. ISSN 2041-1723. PMC 7463233Accesibil gratuit. PMID 32873773. 
  4. ^ a b Haddow, Barry; Bawden, Rachel; Miceli Barone, Antonio Valerio; Helcl, Jindřich; Birch, Alexandra (). „Survey of Low-Resource Machine Translation”. Computational Linguistics. 48 (3): 673–732. arXiv:2109.00486Accesibil gratuit. doi:10.1162/coli_a_00446. 
  5. ^ a b Poibeau, Thierry (). Calzolari, Nicoletta; Béchet, Frédéric; Blache, Philippe; Choukri, Khalid; Cieri, Christopher; Declerck, Thierry; Goggi, Sara; Isahara, Hitoshi; Maegaard, Bente, ed. „On "Human Parity" and "Super Human Performance" in Machine Translation Evaluation”. Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association: 6018–6023. 
  6. ^ Allen, Robert B. (). Several Studies on Natural Language and Back-Propagation. IEEE First International Conference on Neural Networks. 2. San Diego. pp. 335–341. Accesat în . 
  7. ^ Chrisman, Lonnie (). „Learning Recursive Distributed Representations for Holistic Computation”. Connection Science. 3 (4): 345–366. doi:10.1080/09540099108946592. ISSN 0954-0091. 
  8. ^ Pollack, Jordan B. (). „Recursive distributed representations”. Artificial Intelligence. 46 (1): 77–105. doi:10.1016/0004-3702(90)90005-K. 
  9. ^ Forcada, Mikel L.; Ñeco, Ramón P. (). „Recursive hetero-associative memories for translation”. Biological and Artificial Computation: From Neuroscience to Technology. Lecture Notes in Computer Science. 1240. pp. 453–462. doi:10.1007/BFb0032504. ISBN 978-3-540-63047-0. 
  10. ^ Castaño, Asunción; Casacuberta, Francisco (). A connectionist approach to machine translation. 5th European Conference on Speech Communication and Technology (Eurospeech 1997). Rhodes, Greece. pp. 91–94. doi:10.21437/Eurospeech.1997-50. 
  11. ^ Castaño, Asunción; Casacuberta, Francisco; Vidal, Enrique (). Machine translation using neural networks and finite-state models. Proceedings of the 7th Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages. St John's College, Santa Fe. 
  12. ^ Yang, Shuoheng; Wang, Yuxin; Chu, Xiaowen (). „A Survey of Deep Learning Techniques for Neural Machine Translation”. arXiv:2002.07526Accesibil gratuit [cs.CL]. 
  13. ^ Schwenk, Holger; Dechelotte, Daniel; Gauvain, Jean-Luc (). Continuous Space Language Models for Statistical Machine Translation. Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. Sydney, Australia. pp. 723–730. 
  14. ^ Schwenk, Holger (). „Contiuous space language models”. Computer Speech and Language. 3 (21): 492–518. doi:10.1016/j.csl.2006.09.003. 
  15. ^ Schwenk, Holger (). Continuous Space Translation Models for Phrase-Based Statistical Machine Translation. Proceedings of COLING 2012: Posters. Mumbai, India. pp. 1071–1080. 
  16. ^ a b Kalchbrenner, Nal; Blunsom, Philip (). „Recurrent Continuous Translation Models”. Proceedings of the Association for Computational Linguistics: 1700–1709. 
  17. ^ Cho, Kyunghyun; van Merriënboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics. pp. 1724–1734. arXiv:1406.1078Accesibil gratuit. doi:10.3115/v1/D14-1179. 
  18. ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (). „Sequence to Sequence Learning with Neural Networks”. Advances in Neural Information Processing Systems. Curran Associates, Inc. 27. arXiv:1409.3215Accesibil gratuit. 
  19. ^ Cho, Kyunghyun; van Merriënboer, Bart; Bahdanau, Dzmitry; Bengio, Yoshua (). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. Doha, Qatar: Association for Computational Linguistics. pp. 103–111. arXiv:1409.1259Accesibil gratuit. doi:10.3115/v1/W14-4012. 
  20. ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (). „Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473Accesibil gratuit [cs.CL]. 
  21. ^ a b Wang, Haifeng; Wu, Hua; He, Zhongjun; Huang, Liang; Church, Kenneth Ward (). „Progress in Machine Translation”. Engineering (în engleză). 18: 143–153. Bibcode:2022Engin..18..143W. doi:10.1016/j.eng.2021.03.023. 
  22. ^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz (). „Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”. arXiv:1609.08144Accesibil gratuit [cs.CL]. 
  23. ^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (). „Findings of the 2016 Conference on Machine Translation” (PDF). ACL 2016 First Conference on Machine Translation (WMT16). The Association for Computational Linguistics: 131–198. Arhivat din original (PDF) la . Accesat în . 
  24. ^ Gehring, Jonas; Auli, Michael; Grangier, David; Dauphin, Yann (). A Convolutional Encoder Model for Neural Machine Translation. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics. pp. 123–135. arXiv:1611.02344Accesibil gratuit. doi:10.18653/v1/P17-1012. 
  25. ^ Coldewey, Devin (). „DeepL schools other online translators with clever machine learning”. TechCrunch. Accesat în . 
  26. ^ Leloup, Damien; Larousserie, David (). „Quel est le meilleur service de traduction en ligne?”. Le Monde. Accesat în . 
  27. ^ Pakalski, Ingo (). „DeepL im Hands On: Neues Tool übersetzt viel besser als Google und Microsoft”. Golem. Accesat în . 
  28. ^ a b Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Gomez, Aidan N.; Kaiser, Łukasz; Polosukhin, Illia (). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017). pp. 5998–6008. 
  29. ^ Tan, Zhixing; Wang, Shuo; Yang, Zonghan; Chen, Gang; Huang, Xuancheng; Sun, Maosong; Liu, Yang (). „Neural Machine Translation: A Review of Methods, Resources, and Tools”. arXiv:2012.15515Accesibil gratuit [cs.CL]. 
  30. ^ Kocmi, Tom; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Gowda, Thamme; Graham, Yvette; Grundkiewicz, Roman; Haddow, Barry; Knowles, Rebecca; Koehn, Philipp; Monz, Christof; Morishita, Makoto; Nagata, Masaaki (). Koehn, Philipp; Barrault, Loïc; Bojar, Ondřej; Bougares, Fethi; Chatterjee, Rajen; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Fraser, Alexander, ed. Findings of the 2022 Conference on Machine Translation (WMT22). Proceedings of the Seventh Conference on Machine Translation (WMT). Abu Dhabi, United Arab Emirates (Hybrid): Association for Computational Linguistics. pp. 1–45. 
  31. ^ a b Kocmi, Tom; Avramidis, Eleftherios; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Freitag, Markus; Gowda, Thamme; Grundkiewicz, Roman; Haddow, Barry; Koehn, Philipp; Marie, Benjamin; Monz, Christof; Morishita, Makoto (). Koehn, Philipp; Haddow, Barry; Kocmi, Tom; Monz, Christof, ed. Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here but Not Quite There Yet. Proceedings of the Eighth Conference on Machine Translation. Singapore: Association for Computational Linguistics. pp. 1–42. doi:10.18653/v1/2023.wmt-1.1Accesibil gratuit. 
  32. ^ a b Liu, Yinhan; Gu, Jiatao; Goyal, Naman; Li, Xian; Edunov, Sergey; Ghazvininejad, Marjan; Lewis, Mike; Zettlemoyer, Luke (). „Multilingual Denoising Pre-training for Neural Machine Translation”. Transactions of the Association for Computational Linguistics. 8: 726–742. arXiv:2001.08210Accesibil gratuit. doi:10.1162/tacl_a_00343. 
  33. ^ a b c Hendy, Amr; Abdelrehim, Mohamed; Sharaf, Amr; Raunak, Vikas; Gabr, Mohamed; Matsushita, Hitokazu; Kim, Young Jin; Afify, Mohamed; Awadalla, Hany (). „How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation”. arXiv:2302.09210Accesibil gratuit [cs.CL]. 
  34. ^ a b „GPT 3 dataset statistics: languages by character count”. OpenAI. . Accesat în . 
  35. ^ a b Russell, Stuart; Norvig, Peter. Artificial Intelligence: A Modern Approach (ed. 4th, global). Pearson. 
  36. ^ Federico, Marcello; Cettolo, Mauro (). Callison-Burch, Chris; Koehn, Philipp; Fordyce, Cameron Shaw; Monz, Christof, ed. „Efficient Handling of N-gram Language Models for Statistical Machine Translation”. Proceedings of the Second Workshop on Statistical Machine Translation. Prague, Czech Republic: Association for Computational Linguistics: 88–95. doi:10.3115/1626355.1626367. 
  37. ^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (). Improving Language Understanding by Generative Pre-Training (PDF) (Raport tehnic). OpenAI. Accesat în . 
  38. ^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared D; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (). „Language Models are Few-Shot Learners”. Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901. 
Eroare la citare: Eticheta <ref> cu numele „Goodfellow2013” definită în <references> nu este utilizată în textul anterior.
  • Atenție (învățare automată)
  • Transformator (model de învățare automată)