Soft Contextual Data Augmentation for Neural Machine Translation Soft Contextual Data Augmentation for Neural Machine Translation Soft Contextual Data Augmentation for Neural Machine Translation زيادة البيانات السياقية الناعمة للترجمة الآلية العصبية Nöral Makina Çeviri üçün Soft Contextual Data Augmentation Меко контекстно увеличаване на данни за неврален машинен превод Name སྤྱིར་བཏང་བའི་ལག་འཁྱེར་ལ་སྤྲོད་ཆས་མཐའ་ཁོར་བའི་ཆ་འཕྲིན་ཡིག་ཆ་རྒྱ་བསྐྱེད་བྱེད་ཀྱི་ཡོད་པ Soft Contextual Data Augmentation for Neural Machine Translation Aumentació de dades contextuals per a la traducció de màquines neurals Měkké kontextové rozšíření dat pro neuronový strojový překlad Blød kontekstuel dataudvidelse til neural maskinoversættelse Soft Contextual Data Augmentation für neuronale maschinelle Übersetzung Μαλακή αύξηση δεδομένων περιβάλλοντος για τη νευρωνική μηχανική μετάφραση Aumento suave de datos contextuales para la traducción automática neuronal Pehme kontekstuaalsete andmete suurendamine neuroaalse masintõlke jaoks افزایش داده های متصل نرم برای ترجمه ماشین عصبی Soft Contextual Data Augmentation for Neural Machine Translation Augmentation souple des données contextuelles pour la traduction automatique neuronale Méadú Bog Sonraí Comhthéacsúla le haghaidh Néar-Aistriúcháin Meaisín KCharselect unicode block name תוספת נתונים רכות בתקשר לתרגום מכונת נוירולית तंत्रिका मशीन अनुवाद के लिए नरम प्रासंगिक डेटा वृद्धि Povećanje mekih kontekstnih podataka za neurološki prevod strojeva Soft Contextual Data Augmentation for Neural Machine Translation Նյարդային մեքենայի թարգմանման համար փափուկ կոնտեքստալ տվյալների աճը Augmentasi Data Konteksual Lembut untuk Translation Mesin Neural Aumento morbido dei dati contestuali per la traduzione automatica neurale ニューラル・マシン・トランスレーションのためのソフト・コンテキスト・データ・オーグメンテーション Softcontextual data Name Нейрондық машинаның аудармасының тегіс контекстік деректерін көшейту 신경기계 번역에 사용되는 소프트 상하문 데이터 확장 Neuralinių mašinų vertimo švelnus kontekstinių duomenų didinimas Name നെയുറല് മെഷീന് പരിഭാഷപ്പെടുത്തുന്നതിനുള്ള സോഫ്റ്റ് കൊണ്ടുള്ള ഡേറ്റാ ആഗ്മെന്റേഷന് Сүүлийн үеийн мэдээллийн мэдээллийн нэмэгдүүлэлт Name Aġġustament ta’ Dejta Kontekswali Soft għal Traduzzjoni ta’ Makkinarju Newrali Zachte contextuele gegevensuitbreiding voor neuronale machinevertaling Comment Miękkie rozszerzenie danych kontekstowych dla neuronowego tłumaczenia maszynowego Aumento de dados contextuais suaves para tradução automática neural Augmentație soft de date contextuale pentru traducerea automată neurală Мягкое расширение контекстных данных для нейронного машинного перевода න්යුරල් මැෂින් භාවිතය සඳහා සාමාන්ය සංවේදනය දත්ත වැඩියුණු Mehko povečanje kontekstualnih podatkov za nevralno strojno prevajanje Horumarinta macluumaadka ee gudaha ah Rritje e butë e të dhënave kontekstuale për përkthimin e makinës nervore Sok Contextual Data Augmentation for Neural Machine Translation Mjuk kontextuell dataökning för neural maskinöversättning Soft Contextual Data Augmentation for Neural Machine Translation புதிய இயந்திரத்தின் மொழிபெயர்ப்புக்கான மாற்று உள்ளடக்க தகவல் கூறுதல் Neural Makina Çaşyrymy üçin Soft Kontekst Maglumaty Uyglamak نئورل ماشین ترجمہ کے لئے سفیٹ کنٹکسٹیول ڈاٹ اگنٹمنٹ Name Kích thước dữ liệu mềm cho việc dịch chuyển máy thần kinh 用神经机器翻译软上下文数增强
Fei Gao, Jinhua Zhu, Lijun Wu, Yingce Xia, Tao Qin, Xueqi Cheng, Wengang Zhou, Tie-Yan Liu
Abstract
While data augmentation is an important trick to boost the accuracy of deep learning methods in computer vision tasks, its study in natural language tasks is still very limited. In this paper, we present a novel data augmentation method for neural machine translation. Different from previous augmentation methods that randomly drop, swap or replace words with other words in a sentence, we softly augment a randomly chosen word in a sentence by its contextual mixture of multiple related words. More accurately, we replace the one-hot representation of a word by a distribution (provided by a language model) over the vocabulary, i.e., replacing the embedding of this word by a weighted combination of multiple semantically similar words. Since the weights of those words depend on the contextual information of the word to be replaced, the newly generated sentences capture much richer information than previous augmentation methods. Experimental results on both small scale and large scale machine translation data sets demonstrate the superiority of our method over strong baselines.Abstract
Terwyl data vergroot is 'n belangrike trik om die presies van diep leer metodes in rekenaar sien taak te vergroot, is sy studie in natuurlike taal taak nog baie beperk. In hierdie papier stel ons 'n roman data augmentasie metode vir neurale masjien vertaling. Verskillende van vorige augmentasie metodes wat willekeurig woorde laat val, verander of vervang met ander woorde in 'n seting, ons sagtig 'n willekeurige gekose woord in 'n seting deur sy contextual gemeng van veelvuldige verwante woorde. More accurate, we replace the one-hot representation of a word by a distribution (provided by a language model) over the vocabulary, i.e. replacing the embedding of this word by a weighted combination of multiple semantically similar words. Omdat die gewigte van dié woorde afhang van die contextual inligting van die woord om te vervang, het die nuwe genereerde setinge baie ryker inligting geneem as vorige vergroot metodes. Eksperimentale resultate op beide klein skaal en groot skaal masjien vertaling data stelle vertoon die superiority van ons metode oor sterke basisline.Abstract
ዳታ ማውጣት የኮምፒዩተር ራእይ ስራ ውስጥ ጥልቅ ትምህርት ማድረግን ለማድረግ ያስፈልጋል፡፡ በዚህ ካላት የጠለቀ መሣሪያን ትርጓሜ ላይ የዳታ አካባቢ ድርጅት እናቀርባለን፡፡ ከአሁን በፊት በአካባቢ አካባቢ ዓይነት በተለየ፣ ቃላትን በንግግር በመለወጥ ወይም በተጨማሪው ቃላት በተለየ ቃላት፣ በአሁኑን በተለየ በአካባቢ ቃላት በተለየ ቃላት እናስጨምርበታለን፡፡ More accurately, we replace the one-hot representation of a word by a distribution (provided by a language model) over the vocabulary, i.e., replacing the embedding of this word by a weighted combination of multiple semantically similar words. እነዚህን ቃሎች ሚዛን ከቀድሞው አካባቢ ድርጊት የሚለውጥ ቃልን በሚጠቀም ምክንያት አዲስ የፍጥረት ቃላት ከመጀመሪያው አካባቢ ድርጊት ይልቅ የበለጠ መረጃ ይያዛሉ፡፡ ትንሽ ስፋት እና ትልቅ መሣሪያን ትርጉም ዳታዎችን በመስመር ላይ የሥርዓታችንን የጥልቅ መሠረት በመስመር ላይ ያሳያል፡፡Abstract
في حين أن زيادة البيانات هي خدعة مهمة لتعزيز دقة طرق التعلم العميق في مهام رؤية الكمبيوتر ، إلا أن دراستها في مهام اللغة الطبيعية لا تزال محدودة للغاية. في هذا البحث ، نقدم طريقة جديدة لزيادة البيانات للترجمة الآلية العصبية ، تختلف عن طرق الزيادة السابقة التي تقوم بإسقاط الكلمات أو تبديلها أو استبدالها عشوائيًا بكلمات أخرى في الجملة ، فنحن نزيد بهدوء كلمة تم اختيارها عشوائيًا في جملة من خلال مزيجها السياقي من عدة كلمات ذات صلة. بشكل أكثر دقة ، نستبدل التمثيل الساخن للكلمة بالتوزيع (المقدم بواسطة نموذج اللغة) على المفردات ، أي استبدال تضمين هذه الكلمة بمجموعة مرجحة من عدة كلمات متشابهة لغويًا. نظرًا لأن أوزان هذه الكلمات تعتمد على المعلومات السياقية للكلمة المراد استبدالها ، فإن الجمل التي تم إنشاؤها حديثًا تلتقط معلومات أكثر ثراءً من طرق الزيادة السابقة. توضح النتائج التجريبية على كل من مجموعات بيانات الترجمة الآلية الصغيرة والكبيرة تفوق طريقتنا على خطوط الأساس القوية.Abstract
Verilər artırmağı bilgisayar görünüş işlərində dərin öyrənmə metodlarının doğruluğunu artırmaq üçün vacib bir sahədir, onun təbiətli dil işlərində öyrənməsi hələ də çox sınırlı. Bu kağızda, nöral maşın çevirilməsi üçün yeni məlumat artırma metodu göstəririk. Əvvəlki augmentasyon metodlarından fərqli olaraq sözləri başqa sözlərlə düşürür, dəyişdirir və ya əvəz edirlər, sözləri müxtəlif müxtəlif sözlərin qarışıqlığı ilə müxtəlif tərzdə seçilmiş sözləri artırırıq. Daha doğrusu, biz sözlərin bir isti ifadəsini (dil model i ilə təklif edilən) dağıtım ilə sözlərin üstündə, t.i., bu sözlərin çəkilməsini çoxlu semantik kimi sözlərin çəkilməsi ilə dəyişdiririk. Bu sözlərin ağırlığı əvəz ediləcək sözün müxtəlif məlumatına bağlı olduğundan, yeni ürəklənmiş cümlələr əvvəlki artırma metodlarından daha çox mal məlumatı alırlar. Küçük ölçüdə və böyük ölçüdə maşın çeviri verilən məlumatların hər ikisinin təcrübə sonuçları bizim metodumuzun üstünlüyünü möhkəm sətirlərin üstünlüyünü göstərir.Abstract
Въпреки че увеличаването на данните е важен трик за повишаване на точността на методите за дълбоко обучение в задачите с компютърно зрение, изучаването му в задачите с естествен език все още е много ограничено. В настоящата статия представяме нов метод за увеличаване на данните за невронен машинен превод. Различни от предишните методи за увеличаване, които случайно изпускат, разменят или заменят думи с други думи в изречение, ние меко увеличаваме произволно избраната дума в изречение чрез контекстуалната смес от множество свързани думи. По-точно заместваме еднократното представяне на дума с разпределение (предоставено от езиков модел) върху речника, т.е. заместваме вграждането на тази дума с претеглена комбинация от множество семантично подобни думи. Тъй като тежестта на тези думи зависи от контекстната информация на думата, която трябва да бъде заменена, новогенерираните изречения улавят много по-богата информация от предишните методи за увеличаване. Експерименталните резултати както в малки, така и в големи масиви от данни за машинен превод демонстрират превъзходството на нашия метод спрямо силните базови линии.Abstract
কম্পিউটারের ভিশন কাজে গভীর শিক্ষার পদ্ধতি বৃদ্ধি করার জন্য তথ্য যোগাযোগের একটি গুরুত্বপূর্ণ কৌশল, কিন্তু প্রাকৃতিক ভাষা এই কাগজটিতে আমরা নিউরেল মেশিন অনুবাদের জন্য একটি নভেল ডাটা অ্যাগামেন্টিং পদ্ধতি উপস্থাপন করি। পূর্ববর্তী অ্যাগমেন্টিং পদ্ধতি থেকে ভিন্ন ভিন্ন ভিন্ন, যা কোন বাক্যে অন্য শব্দের সাথে নির্বাচিত, পরিবর্তন অথবা প্রতিস্থাপন করে, আমরা এক বাক্যে বেছে ন More accurately, we replace the one-hot representation of a word by a distribution (provided by a language model) over the vocabulary, i.e., replacing the embedding of this word by a weighted combination of multiple semantically similar words. যেহেতু এই শব্দগুলোর ওজনের পূর্ববর্তী বাক্যের প্রতিস্থাপনের তথ্যের উপর নির্ভর করে, নতুন বাক্যের সৃষ্টি করা হয়েছে তারা পূর্ববর্তী বা সামান্য পর্যায় এবং বিশাল মেশিন অনুবাদের তথ্যের বিভিন্ন পরীক্ষার ফলাফল প্রদর্শন করে আমাদের শক্তিশালী বেসেলাইনের উপর আমাদেরAbstract
རྩིས་འཁོར་གྱི་མཐོང་སྣང་གནས་ཚུལ་ཡར་རྒྱས་འགྲོ་བ་གྱི་ཐབས་ལམ་གྱི་ངེས་པར་བདེ་སྟབས་བདེ་ཞིག་ཡིན་ནའང་natural སྐད་ཀྱི་བྱ་འགུལ་ལུ་ ད འོག་གི་ཤོག་བུ་འདིའི་ནང་དུ་ང་ཚོས་རང་ཉིད་ཀྱི་ལས་འགུལ་ཆས་ཆ་སྐྱེན་ཐབས་ལམ་ལུགས་སྐྱེན་པའི་བརྗོད་ཡ དམིགས་བསལ་གྱི་སྔོན་མ་ཡིན་པའི་རྒྱུན་རིམ་གྱི་དམིགས་བསལ་བྱ་ཚིག་ལས་ randomly drop, swap or replace words with other words in a sentence, we softly augment a randomly chosen word in a sentence by its contextual mixture of multiple related words. More accurately, we replace the embedding of this word by a weighed combination of multiple semantically similar words. ཐ་སྙད་ཚིག་གི་ཚད་དེ་ཚོ་དག་གི་གནས་ཚུལ་འདི་དག་ཚབ་བཅུག་དགོས་པའི་བརྡ་སྟོན་དང་མཉམ་དུ་རྟེན་ནས། ཚད་ཆུང་དང་ཚད་རྩིས་འཁོར་གྱི་འགྲེལ་སྤྲོད་ཆ་ཆུང་གི་གྲངས་སྒྲིག་འགོད་ཀྱི་ཐབས་ལམ་ལ་མཐོ་རྩོམ་པ་སྟོན་ཞིང་།Abstract
Iako je povećanje podataka važan trik za povećanje preciznosti dubokih metoda učenja u zadatkima kompjuterskog vizije, njegova studija u prirodnim jezičkim zadatkima još uvijek je vrlo ograničena. U ovom papiru predstavljamo novu metodu povećanja podataka za prevod neuralne mašine. Drugačije od prethodnih metoda povećanja koje slučajno padaju, zamijenimo ili zamijenimo riječi drugim riječima u rečenici, meko povećamo slučajno izabranu riječ u rečenici svojom kontekstualnom mješanjem višestrukih povezanih riječi. Upravo bismo zamijenili jednu vruću predstavu riječi distribucijom (pruženim jezičkim modelom) na rečnik, tj. zamijenili integraciju ove riječi težinom kombinacijom višestrukih semantički sličnih riječi. Pošto težina tih riječi ovisi o kontekstualnoj informaciji riječi koje treba zamijeniti, nove proizvedene rečenice hvataju mnogo bogatije informacije nego prethodne metode povećanja. Eksperimentalni rezultati na maloj skali i velikoj skupini podataka o prevodu mašine pokazuju nadvišenost našeg metode nad jakim osnovnim linijama.Abstract
While data augmentation is an important trick to boost the accuracy of deep learning methods in computer vision tasks, its study in natural language tasks is still very limited. En aquest article, presentem un nou mètode d'augmentació de dades per a la traducció neuromàtica. Diferent dels mètodes d'augmentació anteriors que cauen, canvien o substitueixen paraules aleatòriament amb altres paraules d'una frase, augmentem suaument una paraula escollida aleatòriament en una frase amb la seva mistura contextual de múltiples paraules relacionades. De manera més precisa, substituïm la representació d'una paraula amb una distribució (proporcionada per un model de llenguatge) sobre el vocabulari, és a dir, substituïnt l'incorporació d'aquesta paraula per una combinació ponderada de múltiples paraules semànticament similars. Com que els pesos d'aquestes paraules depenen de la informació contextual de la paraula que s'ha de substituir,les frases recentment generades capturen informació molt més rica que els mètodes d'augmentació anteriors. Els resultats experimentals, tant a petita escala com a gran escala, demostren la superioritat del nostre mètode en comparació amb línies de base fortes.Abstract
Zatímco rozšíření dat je důležitým trikem pro zvýšení přesnosti metod hlubokého učení v úlohách počítačového vidění, jeho studium v úlohách přirozeného jazyka je stále velmi omezené. V tomto článku představujeme novou metodu rozšíření dat pro neuronový strojový překlad. Na rozdíl od předchozích metod rozšíření, které náhodně upustí, vyměňují nebo nahrazují slova jinými slovy ve větě, jemně rozšíříme náhodně vybrané slovo ve větě kontextovou směsí více souvisejících slov. Přesněji nahrazujeme jednorázovou reprezentaci slova distribucí (poskytované jazykovým modelem) nad slovní zásobou, tj. nahrazujeme vložení tohoto slova váženou kombinací více sémanticky podobných slov. Vzhledem k tomu, že hmotnost těchto slov závisí na kontextových informacích slova, které mají být nahrazeny, nově generované věty zachycují mnohem bohatší informace než předchozí metody rozšíření. Experimentální výsledky na malých i velkých datových sadách strojového překladu ukazují nadřazenost naší metody nad silnými základními liniemi.Abstract
Mens dataforøgelse er et vigtigt trick til at øge nøjagtigheden af deep learning metoder i computer vision opgaver, dens undersøgelse i natursprog opgaver er stadig meget begrænset. I denne artikel præsenterer vi en ny dataaugmentationsmetode til neural maskinoversættelse. Forskellig fra tidligere forstærkningsmetoder, der tilfældigt taber, bytter eller erstatter ord med andre ord i en sætning, øger vi blidt et tilfældigt valgt ord i en sætning med dens kontekstuelle blanding af flere relaterede ord. Mere præcist erstatter vi en-hot repræsentation af et ord med en fordeling (leveret af en sprogmodel) over ordforrådet, dvs. erstatter indlejringen af dette ord med en vægtet kombination af flere semantisk lignende ord. Da vægten af disse ord afhænger af den kontekstuelle information af det ord, der skal erstattes, fanger de nyligt genererede sætninger meget rigere oplysninger end tidligere augmentation metoder. Eksperimentelle resultater på både små og store maskinoversættelsesdata viser vores metodes overlegenhed i forhold til stærke basislinjer.Abstract
Während Datenaugmentation ein wichtiger Trick ist, um die Genauigkeit von Deep Learning-Methoden in Computer Vision Aufgaben zu erhöhen, ist das Studium in natürlichen Sprachaufgaben noch sehr begrenzt. In diesem Beitrag stellen wir eine neuartige Methode zur Datenaugmentation für neuronale maschinelle Übersetzung vor. Anders als frühere Erweiterungsmethoden, die zufällig Wörter in einem Satz fallen lassen, austauschen oder durch andere Wörter in einem Satz ersetzen, erweitern wir sanft ein zufällig gewähltes Wort in einem Satz durch seine kontextuelle Mischung aus mehreren verwandten Wörtern. Genauer gesagt ersetzen wir die One-Hot-Darstellung eines Wortes durch eine Verteilung (bereitgestellt durch ein Sprachmodell) über dem Vokabular, d.h. die Einbettung dieses Wortes durch eine gewichtete Kombination mehrerer semantisch ähnlicher Wörter. Da die Gewichtung dieser Wörter von den Kontextinformationen des zu ersetzenden Wortes abhängt, erfassen die neu generierten Sätze viel umfangreichere Informationen als frühere Erweiterungsmethoden. Experimentelle Ergebnisse sowohl an kleinen als auch großen maschinellen Übersetzungsdatensätzen belegen die Überlegenheit unserer Methode gegenüber starken Baselines.Abstract
Ενώ η αύξηση δεδομένων είναι ένα σημαντικό κόλπο για την ενίσχυση της ακρίβειας των μεθόδων βαθιάς μάθησης σε εργασίες οπτικού υπολογιστή, η μελέτη της σε εργασίες φυσικής γλώσσας εξακολουθεί να είναι πολύ περιορισμένη. Στην παρούσα εργασία, παρουσιάζουμε μια νέα μέθοδο αύξησης δεδομένων για τη νευρωνική μηχανική μετάφραση. Διαφορετικά από τις προηγούμενες μεθόδους αύξησης που τυχαία ρίχνουν, ανταλλάσσουν ή αντικαθιστούν λέξεις με άλλες λέξεις σε μια πρόταση, αυξάνουμε απαλά μια τυχαία επιλεγμένη λέξη σε μια πρόταση με το περιεκτικό μίγμα πολλών σχετικών λέξεων. Πιο συγκεκριμένα, αντικαθιστούμε τη μία καυτή αναπαράσταση μιας λέξης από μια κατανομή (που παρέχεται από ένα γλωσσικό μοντέλο) πάνω στο λεξιλόγιο, δηλαδή αντικαθιστώντας την ενσωμάτωση αυτής της λέξης από έναν σταθμισμένο συνδυασμό πολλαπλών σημασιολογικά παρόμοιων λέξεων. Δεδομένου ότι τα βάρη αυτών των λέξεων εξαρτώνται από τις πληροφορίες περιβάλλοντος της λέξης που πρόκειται να αντικατασταθεί, οι νέες προτάσεις συλλαμβάνουν πολύ πλουσιότερες πληροφορίες από τις προηγούμενες μεθόδους αύξησης. Πειραματικά αποτελέσματα τόσο σε μικρά όσο και σε μεγάλα σύνολα δεδομένων μηχανικής μετάφρασης καταδεικνύουν την υπεροχή της μεθόδου μας έναντι ισχυρών γραμμών βάσης.Abstract
Si bien el aumento de datos es un truco importante para aumentar la precisión de los métodos de aprendizaje profundo en las tareas de visión artificial, su estudio en tareas de lenguaje natural sigue siendo muy limitado. En este artículo, presentamos un novedoso método de aumento de datos para la traducción automática neuronal. A diferencia de los métodos de aumento anteriores que sueltan, intercambian o reemplazan palabras al azar por otras palabras en una oración, aumentamos suavemente una palabra elegida al azar en una oración por su mezcla contextual de palabras. Más exactamente, sustituimos la representación puntual de una palabra por una distribución (proporcionada por un modelo lingüístico) sobre el vocabulario, es decir, reemplazamos la incrustación de esta palabra por una combinación ponderada de varias palabras semánticamente similares. Dado que los pesos de esas palabras dependen de la información contextual de la palabra que se va a reemplazar, las oraciones recién generadas capturan información mucho más rica que los métodos de aumento anteriores. Los resultados experimentales en conjuntos de datos de traducción automática a pequeña y gran escala demuestran la superioridad de nuestro método sobre bases de referencia sólidas.Abstract
Kuigi andmete suurendamine on oluline trikk sügavõppe meetodite täpsuse suurendamiseks arvutinägemise ülesannetes, on selle õppimine looduskeele ülesannetes endiselt väga piiratud. Käesolevas töös tutvustame uudset andmete suurendamise meetodit neuraalse masintõlke jaoks. Erinevalt varasematest laiendamismeetoditest, mis juhuslikult loobuvad, vahetavad või asendavad sõnu teiste sõnadega lauses, täiendame me pehmelt juhuslikult valitud sõna lauses selle kontekstilise seguga mitmest seotud sõnast. Täpsemalt asendame sõna ühekordse esituse jaotusega (keelemudeli abil) sõnavara kohal, st asendame selle sõna manustamise mitme semantiliselt sarnase sõna kaalutud kombinatsiooniga. Kuna nende sõnade kaal sõltub asendatava sõna kontekstiteabest, hõlmavad äsja loodud laused palju rikkalikumat teavet kui varasemad laiendamismeetodid. Eksperimentaalsed tulemused nii väikesemahuliste kui ka suuremahuliste masintõlke andmekogumite kohta näitavad meie meetodi paremust tugevate lähtejoonte ees.Abstract
در حالی که افزایش داده ها یک حقه مهم برای افزایش دقیق روش یادگیری عمیق در کار دیدن کامپیوتر است، تحقیق آن در کار زبان طبیعی هنوز بسیار محدود است. در این کاغذ، ما روش افزایش داده های نویسی برای ترجمه ماشین عصبی را پیشنهاد می کنیم. متفاوت از روش افزایش قبلی که به صورت تصادفی کلمات را با کلمات دیگر در یک جمله فرو میگذارند، تغییر میدهند یا جایگزینی میدهند، ما به نرمتر کلمات تصادفی را در یک جمله با ترکیب متفاوتی از کلمات متفاوت آن افزایش می دقیقاً ما نمایش یک کلمه گرم را با یک توزیع (توزیع یک مدل زبان) بر روی کلمات جایگزین میکنیم، یعنی جایگزین کردن این کلمات را با یک ترکیب وزن از کلمات چندین سنتی شبیه است. از آنجایی که وزن این کلمات بر اطلاعات متوسط کلمات جایگزینی بستگی دارند، جملههای جدید تولید شدهاند، اطلاعات ثروتمندتر از روشهای افزایش پیشین را میگیرند. نتیجههای تجربه روی مقیاس کوچک و مقیاس بزرگ دادههای ترجمه ماشین را نشان میدهند که بیشتر از روش ما بر خطهای زیر قوی است.Abstract
Vaikka datan lisääminen on tärkeä temppu syväoppimisen menetelmien tarkkuuden parantamiseksi tietokonenäkötehtävissä, sen opiskelu luonnonkielitehtävissä on edelleen hyvin vähäistä. Tässä työssä esitellään uusi datan augmentaatiomenetelmä neurokonekääntämiseen. Toisin kuin aiemmissa lisäysmenetelmissä, joissa satunnaisesti pudotetaan, vaihdetaan tai korvataan sanoja muilla sanoilla lauseessa, lisäämme pehmeästi satunnaisesti valittua sanaa lauseessa sen kontekstuaalisella sekoituksella useita toisiinsa liittyviä sanoja. Tarkemmin sanottuna korvaamme sanan yhden kuuman esittämisen sanaston päälle jakelulla (kielimallin tarjoamalla), eli korvaamme tämän sanan upottamisen useiden semanttisesti samankaltaisten sanojen painotetulla yhdistelmällä. Koska näiden sanojen painot riippuvat korvattavan sanan kontekstitiedoista, uudet lauseet keräävät paljon rikkaampaa tietoa kuin aiemmat lisäykset. Kokeelliset tulokset sekä pienimuotoisista että suurista konekäännöstiedoista osoittavat menetelmämme ylivoimaisuuden vahvoihin lähtölinjoihin nähden.Abstract
Bien que l'augmentation des données soit une astuce importante pour améliorer la précision des méthodes d'apprentissage profond dans les tâches de vision par ordinateur, son étude dans les tâches en langage naturel reste très limitée. Dans cet article, nous présentons une nouvelle méthode d'augmentation de données pour la traduction de machines neuronales. Différentes des méthodes d'augmentation précédentes qui abandonnent, échangent ou remplacent aléatoirement des mots par d'autres mots dans une phrase, nous augmentons doucement un mot choisi au hasard dans une phrase par son mélange contextuel de multiples mots. Plus précisément, nous remplaçons la représentation ponctuelle d'un mot par une distribution (fournie par un modèle linguistique) sur le vocabulaire, c'est-à-dire en remplaçant l'incorporation de ce mot par une combinaison pondérée de plusieurs mots sémantiquement similaires. Puisque le poids de ces mots dépend des informations contextuelles du mot à remplacer, les phrases nouvellement générées capturent des informations beaucoup plus riches que les méthodes d'augmentation précédentes. Les résultats expérimentaux sur des ensembles de données de traduction automatique à petite et grande échelle démontrent la supériorité de notre méthode par rapport à des bases de référence solides.Abstract
Cé gur cleas tábhachtach é méadú sonraí chun cruinneas modhanna domhainfhoghlama a threisiú i dtascanna fís ríomhaireachta, tá a staidéar ar thascanna teanga nádúrtha fós an-teoranta. Sa pháipéar seo, cuirimid i láthair modh méadaithe sonraí núíosacha le haghaidh meaisín néar-aistriúchán.Difriúil ó mhodhanna méadaithe roimhe seo a scaoileann go randamach, a bhabhtálann nó a ionadaíonn focail le focail eile in abairt, cuirimid go bog le focal a roghnaíodh go randamach in abairt trína mheascán comhthéacsúil. de fhocail ghaolmhara iolra. Níos cruinne, cuirimid dáileadh (arna sholáthar ag múnla teanga) thar an stór focal in ionad léiriú aon-te an fhocail, i.e., in ionad leabú an fhocail seo trí mheascán ualaithe d’iolra focail shéimeantacha atá cosúil leo. Ós rud é go mbraitheann meáchain na bhfocal sin ar fhaisnéis chomhthéacsúil an fhocail atá le hathsholáthar, gabhann na habairtí nua-ghinte faisnéis i bhfad níos saibhre ná na modhanna méadaithe roimhe seo. Léiríonn torthaí turgnamhacha ar thacair sonraí aistrithe meaisín ar scála beag agus ar mhórscála araon barr feabhais ár modha thar bhunlínte láidre.Abstract
Waka da ƙaramako da data na zama wani muhimu wa boo'ani da tsari na shiryoyin da za'a sani na ƙari cikin aikin gani na kwamfyuta, sai yana da karatunsa cikin aikin harshen asimi. Ga wannan takardan, Munã halatar da wata hanyor ƙaramako na yanzu wa fassarar mashine na ƙarami. Different from previous augmentation methods that randomly drop, swap or replace words with other words in a sentence, we softly augment a randomly chosen word in a sentence by its contextual mixture of multiple related words. Kayya da hakki, Munã musanya mai hoto ga kalma da rabo (da misalin harshen) kan maganar, misali, musanya mai faɗin wannan magana da aka yi nau'i da komai mai sauri masu daidaita magana masu yawa. Gida masu nauyi na wannan magana sun ƙayyade kan maɓallin maganar da za'a musanya shi, gafukan da aka ƙãga a yanzu, sun kãma data mai yawa daga metoden augutarwa na farko. Mataimakin jarrabãwa na tsakanin tsakiyar da kuma data masu fassarar mashine mai girma, sun nuna kyauta na hanyoyinmu a kan fassarar ƙarami.Abstract
למרות שגידול נתונים הוא טריק חשוב כדי להעלות את מדויקת שיטות הלימוד העמוקים במשימות חזון מחשב, הלימוד שלה במשימות שפת טבעיות עדיין מוגבל מאוד. בעיתון הזה, אנחנו מציגים שיטת גידול נתונים חדשה לתרגום מכונות עצביות. שונה משיטות גידול קודמות שמחליפות או מחליפות מילים באופן אקראי במילים אחרות במשפט, אנו מגדילים באופן רכה מילה שנבחרה באופן אקראי במשפט על ידי תערובת הקונקסטוקלית שלה של מילים רבות קשורות. יותר מדויק, אנחנו מחליפים את היציגה של מילה חד-חם על ידי פיצוח (שנספק על ידי דוגמנית שפה) מעל המילים, כלומר, מחליפים את הקליפת של המילה הזו על ידי שילוב משקל של מילים רבות סמנטית דומות. מאחר שהמשקלים של המילים האלה תלויים במידע הקונטקטי של המילה שנחלף, המשפטים החדשים יוצרים מכילים מידע הרבה יותר עשיר משיטות הגדלה קודמות. תוצאות ניסויים בקנה מידה קטנה וגם בקנה מידה גדולה של נתוני תרגום מכונות מראות את העליון של השיטה שלנו מעל קווי בסיס חזקים.Abstract
जबकि डेटा वृद्धि कंप्यूटर दृष्टि कार्यों में गहरी सीखने के तरीकों की सटीकता को बढ़ावा देने के लिए एक महत्वपूर्ण चाल है, प्राकृतिक भाषा कार्यों में इसका अध्ययन अभी भी बहुत सीमित है। इस पेपर में, हम तंत्रिका मशीन अनुवाद के लिए एक उपन्यास डेटा संवर्धन विधि प्रस्तुत करते हैं। पिछले वृद्धि विधियों से अलग जो यादृच्छिक रूप से एक वाक्य में अन्य शब्दों के साथ शब्दों को छोड़ते हैं, स्वैप करते हैं या प्रतिस्थापित करते हैं, हम धीरे-धीरे कई संबंधित शब्दों के प्रासंगिक मिश्रण द्वारा एक वाक्य में यादृच्छिक रूप से चुने गए शब्द को बढ़ाते हैं। अधिक सटीक रूप से, हम शब्दावली पर एक वितरण (एक भाषा मॉडल द्वारा प्रदान किए गए) द्वारा एक शब्द के एक-गर्म प्रतिनिधित्व को प्रतिस्थापित करते हैं, यानी, इस शब्द के एम्बेडिंग को कई शब्दार्थ समान शब्दों के भारित संयोजन द्वारा प्रतिस्थापित करते हैं। चूंकि उन शब्दों के वजन प्रतिस्थापित किए जाने वाले शब्द की प्रासंगिक जानकारी पर निर्भर करते हैं, इसलिए नए उत्पन्न वाक्य पिछले वृद्धि विधियों की तुलना में बहुत समृद्ध जानकारी पर कब्जा करते हैं। छोटे पैमाने पर और बड़े पैमाने पर मशीन अनुवाद डेटा सेट दोनों पर प्रयोगात्मक परिणाम मजबूत बेसलाइन पर हमारी विधि की श्रेष्ठता का प्रदर्शन करते हैं।Abstract
Iako je povećanje podataka važan trik za poboljšanje preciznosti dubokih metoda učenja u zadatkima računalnog vizije, ispitivanje prirodnog jezika još uvijek je vrlo ograničeno. U ovom papiru predstavljamo novu metodu povećanja podataka za prevod neuralnih strojeva. Drugačije od prethodnih metoda povećanja koje slučajno padaju, zamijenjaju ili zamijenjaju riječi drugim riječima u rečenici, meko povećamo slučajno izabranu riječ u rečenici svojom kontekstalnom mješanjem višestrukih povezanih riječi. Čisto, zamijenimo jednu vruću predstavu riječi distribucijom (pruženim jezičkim modelom) na riječnik, tj. zamijenimo uključenje riječi težinom kombinacijom višestrukih semantički sličnih riječi. Pošto težina tih riječi ovisi o kontekstualnoj informaciji riječi koje treba zamijeniti, nove proizvedene rečenice hvataju mnogo bogatije informacije nego prethodne metode povećanja. Eksperimentalni rezultati na maloj skali i velikoj skali podataka o prevodu strojeva pokazuju nadvišenost naše metode nad jakim osnovnim linijama.Abstract
Míg az adatok nagyobbítása fontos trükk a mélytanulási módszerek pontosságának növelésére a számítógépes látási feladatok során, a természetes nyelvi feladatok tanulmányozása még mindig nagyon korlátozott. Ebben a tanulmányban bemutatunk egy új adatnövelési módszert a neurális gépi fordításhoz. A korábbi kiegészítési módszerektől eltérően, amelyek véletlenszerűen ejtik, cserélnek vagy helyettesítik a szavakat más szavakkal egy mondatban, lágyan bővítjük a véletlenszerűen kiválasztott szót egy mondatban több rokon szó kontextuális keverékével. Pontosabban, egy szó egyforró ábrázolását egy eloszlással helyettesítjük a szókincsen (nyelvi modell által biztosított) vagyis ennek a szónak a beágyazását több szemantikailag hasonló szó súlyozott kombinációjával. Mivel ezek a szavak súlya a helyettesítendő szó kontextuális információjától függ, az újonnan létrehozott mondatok sokkal gazdagabb információt kapnak, mint a korábbi kiegészítési módszerek. A kisméretű és nagyméretű gépi fordítási adatkészletek kísérleti eredményei azt mutatják, hogy módszerünk felsőbbrendű az erős alapvonalakkal szemben.Abstract
Մինչդեռ տվյալների աճը կարևոր հնարք է խորը սովորելու մեթոդների ճշմարտությունը բարձրացնելու համակարգչային տեսողության խնդիրներում, նրա ուսումնասիրությունը բնական լեզվի խնդիրներում դեռևս շատ սահմանափակ է: Այս աշխատանքում մենք ներկայացնում ենք նոր տվյալների աճի մեթոդ նյարդային մեքենայի թարգմանման համար: Ի տարբերություն նախորդ աճի մեթոդներից, որոնք պատահականորեն ընկնում են, փոխարինում կամ փոխարինում են բառերը նախադասության այլ բառերով, մենք հանկարծակի աճում ենք պատահականորեն ընտրված բառը նախադասության մեջ բազմաթիվ կապված բառերի կոնտեքստալ խա More accurately, we replace the one-hot representation of a word by a distribution (provided by a language model) over the vocabulary, i.e., replacing the embedding of this word by a weighted combination of multiple semantically similar words. Քանի որ այդ բառերի կշիռը կախված է փոխարինվող բառի կոնտեքստալ ինֆորմացիայից, նորից ստեղծված նախադասությունները շատ ավելի հարուստ ինֆորմացիա են ներառում, քան նախորդ աճի մեթոդները: Experimental results on both small scale and large scale machine translation data sets demonstrate the superiority of our method over strong baselines.Abstract
Sementara peningkatan data adalah trik penting untuk meningkatkan akurasi metode belajar dalam tugas penglihatan komputer, penelitiannya dalam tugas bahasa alami masih sangat terbatas. Dalam kertas ini, kami mempersembahkan metode peningkatan data baru untuk terjemahan mesin saraf. Berbeda dari metode peningkatan sebelumnya yang secara acak menjatuhkan, bertukar atau menggantikan kata dengan kata lain dalam kalimat, kami perlahan meningkatkan kata yang secara acak dipilih dalam kalimat dengan campuran kontekstual dari kata-kata berkaitan berbilang. Lebih akurat, kita menggantikan satu-hot representation dari sebuah kata dengan distribusi (disediakan oleh model bahasa) di atas vocabulari, i.e., menggantikan penerbangan kata ini dengan kombinasi berat dari berbilang kata yang sama secara semantis. Karena berat kata-kata tersebut tergantung pada informasi kontekstual kata yang akan diganti, kalimat yang baru dihasilkan mengumpulkan informasi yang jauh lebih kaya dari metode peningkatan sebelumnya. Hasil eksperimen pada skala kecil dan skala besar set data terjemahan mesin menunjukkan superioritas metode kita dibanding garis dasar yang kuat.Abstract
Mentre l'aumento dei dati è un trucco importante per aumentare l'accuratezza dei metodi di deep learning nelle attività di computer vision, il suo studio in attività di linguaggio naturale è ancora molto limitato. In questo articolo, presentiamo un nuovo metodo di aumento dei dati per la traduzione automatica neurale. Diversamente dai metodi di aumento precedenti che rilasciano casualmente, scambiano o sostituiscono parole con altre parole in una frase, aumentiamo dolcemente una parola scelta casualmente in una frase con la sua miscela contestuale di più parole correlate. Più precisamente, sostituiamo la rappresentazione a caldo di una parola con una distribuzione (fornita da un modello linguistico) sul vocabolario, cioè sostituendo l'incorporazione di questa parola con una combinazione ponderata di più parole semanticamente simili. Poiché il peso di queste parole dipende dalle informazioni contestuali della parola da sostituire, le frasi appena generate catturano informazioni molto più ricche rispetto ai metodi di aumento precedenti. I risultati sperimentali su set di dati di traduzione automatica su piccola scala e su larga scala dimostrano la superiorità del nostro metodo rispetto a linee di base solide.Abstract
データ拡張は、コンピュータビジョン課題における深層学習方法の精度を高めるための重要なコツであるが、自然言語課題におけるその研究は依然として非常に限られている。 本稿では、神経機械翻訳のための新規のデータ拡張法を提示する。文中の単語をランダムにドロップしたり、スワップしたり、他の単語と置き換えたりする以前の拡張法とは異なり、複数の関連する単語の文脈的混合によって、文中のランダムに選択された単語を柔らかく拡張する。 より正確には、私たちは単語のワンホット表現を語彙上の分布(言語モデルによって提供される)によって置き換えます。すなわち、この単語の埋め込みを複数の意味的に類似した単語の重み付けされた組み合わせによって置き換えます。 これらの単語の重みは置換される単語の文脈情報に依存するため、新たに生成された文章は、以前の拡張方法よりもはるかに豊富な情報を取り込む。 小規模および大規模な機械翻訳データセットの両方の実験結果は、強力なベースラインに対する当社の方法の優位性を示しています。Abstract
Mungkin ngubah data kebuturan sing klok dadi nggawe layang-ingkang karo nganggep kuwi tindakan apik sing nyimpen ning manung komputer, sapa nguasai sakjane kanggo langgambar obah-ingkang dadi. Nanging mapun iki, kita mulai sistem anyir bagian nggambar dadi apakno kanggo tarjamahan jarang, ingkang alam-jarang. politenessoffpolite"), and when there is a change ("assertive malay text-editor-action Menu item to Open 'Search for Open Files' dialogAbstract
თუმცა მონაცემები აზექტირება მნიშვნელოვანი ტრიქონია, რომ კომპიუტერის ხედავალების კომპიუტერის სისწავლეობის მართლას უფრო მნიშვნელოვანელოვანელოვანელოვან ჩვენ ამ წიგნაში ნეიროლური მანქანის გაგრძელებისთვის პრომენტური მონაცემების აგგენტაციის მეტი ჩვენ ჩვენ ჩვენ აჩვენებთ. წინა აგგენტიკაციის მეტიდან განსხვავებულია, რომელიც შემთხვევაში სიტყვების შეცვლა, შეცვლა ან შეცვლა სიტყვებით სხვა სიტყვებით, ჩვენ შემთხვევაში გამოიყენებული სიტყვების შეცვლა შემთხვევ უფრო დარწმუნებული, ჩვენ ერთი-დოლე სიტყვის გამოყენება სიტყვის გამოყენება (სიტყვის მოდელის გამოყენებული) სიტყვის, მაგალითად, ამ სიტყვის გამოყენება მრავალ სემონტიკურად მსგავსი სიტყვის გამო ამ სიტყვების სიმაღლეების სიმაღლეების სიმაღლეების სიმაღლეების სიმაღლეების შესახებ შეცვლელი სიტყვების შესახებ, ახალი შექმნილი სიტყვები უფრო დიდი ინფორმაცია, ვიდ ექსპერიმენტიური შედეგი პატარა მანქანის და დიდი მანქანის გაგრძელების მონაცემების შესაძლებლობა ჩვენი მეტიოს უფრო მეტი ძალიან ფესტური ხაზებიAbstract
Деректерді көбейту - компьютердің көрініс тапсырмаларындағы тәртіптердің дұрыстығын көбейту үшін маңызды тәжірибесі, оның тәуелді тіл тапсырмаларындағы зерттеу әлі қа Бұл қағазда, невралдық компьютердің аудармасының романдық деректерді өзгерту әдісін таңдаймыз. Алдыңғы ауыстыру әдістерінен кездейсоқ сөздерді сөздерді басқа сөздермен алмастыру, ауыстыру не алмастыру әдістерінен айырмашылық, біз сөздерді кездейсоқ таңдалған сөзді бірнеше сөздерге көмектесу әд Ең дұрыс, біз сөздің бір жылу кескінін сөздің үлестірімін (тіл үлгісі бойынша келтірілген) сөздерді сөздердің үстінен ауыстырып, мысалы, осы сөзді бірнеше семантикалық ұқсас сөздердің бірнеше тең біріктіріміз Бұл сөздердің маңыздығы алмастырылатын сөздің мәліметіне тәуелді, жаңа құрылған сөздердің мәліметі алдыңғы көптегендіру әдістерінен көп баяны мәліметті алады. Шағын масштабтағы және үлкен масштабтағы аудару деректер жиындарының эксперименталдық нәтижелері біздің әдіміздің күшті негізгі жолдарының үстінен қараAbstract
데이터 강화는 컴퓨터 시각 임무에서 깊이 있는 학습 방법의 정확성을 높이는 중요한 기교이지만 자연 언어 임무에서의 연구는 여전히 매우 제한적이다.본고에서 우리는 신경기계 번역에 사용되는 새로운 데이터 강화 방법을 제시했다.이전의 확대 방법과 달리 우리는 한 문장에서 단어를 무작위로 삭제, 교체 또는 교체하고 여러 개의 관련 단어의 상하문을 혼합하여 무작위로 선택한 단어를 부드럽게 확대한다.더 정확히 말하면, 우리는 단어의 인기 표시인 여러 개의 의미가 비슷한 단어의 가중 조합으로 단어의 삽입을 대체한다.이 단어들의 중요성은 단어를 바꾸려는 상하문 정보에 달려 있기 때문에 새로 생성된 문장은 이전의 확대 방법보다 포획된 정보가 훨씬 풍부하다.소규모와 대규모 기계번역 데이터 집합에서의 실험 결과에 의하면 우리의 방법은 강기선보다 우수하다는 것을 알 수 있다.Abstract
While data augmentation is an important trick to boost the accuracy of deep learning methods in computer vision tasks, its study in natural language tasks is still very limited. Šiame dokumente pristatome naują duomenų didinimo metodą nerviniam mašinų vertimui. Skirtingai nuo ankstesnių padidinimo metodų, kurie atsitiktinai išmeta, keičia arba pakeičia žodžius kitais žodžiais sakinyje, mes švelniai padidiname atsitiktinai pasirinktą žodį sakinyje jo kontekstiniu kelių susijusių žodžių mišiniu. Tiksliau, mes pakeičiame vienkartinį žodžio atvaizdavimą platinimu (pateikiamu kalbos modeliu) per žodyną, t. y. pakeičiame šio žodžio įterpimą svertiniu kelių semantiškai panaši ų žodžių deriniu. Kadangi šių žodžių svoris priklauso nuo žodžio, kuris turi būti pakeistas, kontekstinės informacijos, naujuose sakiniuose pateikiama daug richer information than previous augmentation methods. Eksperimentiniai tiek mažo masto, tiek didelio masto mašinų vertimo duomenų rinkiniai rodo, kad mūsų metodas yra pranašesnis už tvirtas bazines linijas.Abstract
Иако зголемувањето на податоците е важен трик за зголемување на точноста на методите на длабоко учење во задачите на компјутерската визија, нејзиното учење на природните јазични задачи е сé уште многу ограничено. Во овој весник, претставуваме нов метод за зголемување на податоците за превод на невралните машини. Различно од претходните методи на зголемување кои случајно фрлаат, заменуваат или заменуваат зборови со други зборови во реченица, ние меко го зголемуваме случајно избраниот збор во реченица со нејзината контекстна мешавина на повеќе поврзани зборови. Поточно, го заменуваме едножешкото претставување на збор со дистрибуција (обезбедена од јазички модел) над речникот, односно заменувањето на овој збор со тежирана комбинација на повеќе семантично слични зборови. Since the weights of those words depend on the contextual information of the word to be replaced,the newly generated sentences capture much richer information than previous augmentation methods. Експерименталните резултати на мал и голем степен на машински преведувачки податоци ја покажуваат супериорноста на нашиот метод над силните основни линии.Abstract
കമ്പ്യൂട്ടര് ദര്ശനത്തിന്റെ ജോലികളില് ആഴത്തില് പഠിക്കുന്ന രീതികള് വളര്ത്തുവാന് വേണ്ടി വിവരങ്ങള് കൂട്ടുവാന് പ്രധാനപ്പ ഈ പത്രത്തില്, ന്യൂറല് മെഷീന് പരിഭാഷയ്ക്കുള്ള ഒരു നോവല് ഡേറ്റാ ആഗ്രഹിക്കുന്ന രീതിയില് കൊണ്ടുവരുന് ഒരു വാക്കില് വാക്കുകള് മാറ്റുകയോ മറ്റു വാക്കുകളോടൊപ്പം മാറ്റുകയോ ചെയ്യുന്ന മുമ്പുള്ള കൂട്ടിചേര്ക്കുന്ന മാര്ഗങ്ങളില് നിന്നും വ്യത്യസ്തമ ഒരു വാക്കിന്റെ ഒരു ചൂട് പ്രതിനിധിയെ വിതരണം (ഭാഷ മോഡല് ഉപയോഗിച്ചു) വാക്കിന്റെ മാറ്റം മാറ്റുന്നു. ഈ വാക്കിന്റെ അകത്തേക്ക് മാറ്റുന്നതിനായി ഒരു വാക്ക ആ വാക്കുകളുടെ തൂക്കങ്ങള് മാറ്റുവാനുള്ള വാക്കിന്റെ ഉന്നതമായ വിവരങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നതിനാല്, പുതിയ വാക്കുകള് മുമ്പു ചെറിയ സ്കേലിലും വലിയ മെഷീന് പരിശോധന വിവരങ്ങളുടെയും പരീക്ഷണ ഫലങ്ങള് നമ്മുടെ രീതിയില് ശക്തിയുള്ള അടിസ്ഥാനങ്ങളില് നിന്Abstract
Хэдийгээр өгөгдлийн нэмэлт нь компьютерийн харах үйл ажиллагаанд гүн гүнзгий суралцах аргачлалын тодорхойлолтыг нэмэгдүүлэх чухал заль юм. Байгалийн хэлний үйл ажиллагаанд судалгаа маш хязгаа Энэ цаасан дээр бид мэдрэлийн машин хөгжүүлэх шинэ мэдээллийн нэмэлт аргыг тайлбарлаж байна. Өмнөх нэмэгдүүлэлтийн аргаас өөр өөр өөр хэлбэрээр үгийг бусад үгийг өөрчлөх, өөрчлөх эсвэл өөр хэлбэрээр шилжүүлэх арга замаар бид хэлбэрээр санамсаргүй сонгогдсон үгийг олон холбоотой үгийг нэмэгдүүлнэ Илүү тодорхой, бид нэг үгийг хэл загвараар хуваалцах (хэл загвараар хангагдсан) үг дээр орлуулж, яг л энэ үгийг хэлбэртэй хэлбэрээр жинтэй хэлбэрээр орлуулж байна. Тэдгээр үгнүүдийн хэмжээ нь өмнөх нэмэлт аргаас илүү баян мэдээлэл хамаарна. Бага хэмжээний болон том хэмжээний машины орчуулалтын өгөгдлийн хэмжээний туршилтын үр дүн нь бидний аргыг хүчтэй суурь шугам дээр илүү өндөр үзүүлдэг.Abstract
Sementara peningkatan data adalah trik penting untuk meningkatkan ketepatan kaedah belajar dalam tugas penglihatan komputer, kajiannya dalam tugas bahasa semulajadi masih sangat terbatas. Dalam kertas ini, kami memperkenalkan kaedah peningkatan data baru untuk terjemahan mesin saraf. Berbeza dari kaedah peningkatan sebelumnya yang secara rawak menjatuhkan, tukar atau menggantikan perkataan dengan perkataan lain dalam kalimat, kami perlahan menambah perkataan yang dipilih secara rawak dalam kalimat dengan campuran kontekstual perkataan berkaitan berbilang. Lebih tepat, kita menggantikan perwakilan satu-panas perkataan dengan distribusi (disediakan oleh model bahasa) di atas vokbulari, iaitu menggantikan penyampilan perkataan ini dengan kombinasi berat berbilang perkataan yang sama secara semantik. Oleh kerana berat perkataan tersebut bergantung pada maklumat kontekstual perkataan yang akan digantikan, kalimat yang baru dicipta merebut maklumat yang lebih kaya daripada kaedah peningkatan sebelumnya. Experimental results on both small scale and large scale machine translation data sets demonstrate the superiority of our method over strong baselines.Abstract
Filwaqt li ż-żieda fid-dejta hija trik importanti biex tissaħħaħ il-preċiżjoni tal-metodi ta’ tagħlim profond fil-kompiti tal-viżjoni tal-kompjuter, l-istudju tagħha fil-kompiti tal-lingwa naturali għadu limitat ħafna. F’dan id-dokument, qed nippreżentaw metodu ġdid ta’ żieda fid-dejta għat-traduzzjoni tal-magni newrali. Differenti mill-metodi ta’ żieda preċedenti li b’mod każwali jaqgħu, jaqilbu jew jissostitwixxu kliem bi kliem ieħor f’sentenza, a ħna bil-mod iżidu kelma magħżula b’mod każwali f’sentenza bit-taħlita kuntestwali tagħha ta’ kliem relatat multiplu. B’mod aktar preċi ż, nisostitwixxu r-rappreżentazzjoni ta’ kelma waħda sħuna b’distribuzzjoni (ipprovduta minn mudell lingwistiku) fuq il-vokabulari, jiġifieri, nisostitwixxu l-inkorporazzjoni ta’ din il-kelma b’kombinazzjoni peżata ta’ kliem multiplu semantikament simili. Minħabba li l-piżijiet ta’ dawk il-kliem jiddependu fuq l-informazzjoni kuntestwali tal-kelma li għandha tiġi sostitwita, is-sentenzi ġġenerati ġodda jaqbdu informazzjoni ħafna aktar rikka minn metodi ta’ żieda preċedenti. Riżultati esperimentali kemm fuq skala żgħira kif ukoll fuq skala kbira settijiet ta’ dejta dwar it-traduzzjoni tal-magni juru s-superjorità tal-metodu tagħna fuq linji bażi b’saħħithom.Abstract
Hoewel data augmentatie een belangrijke truc is om de nauwkeurigheid van deep learning methoden in computer vision taken te verhogen, is de studie in natuurlijke taaltaken nog steeds zeer beperkt. In dit artikel presenteren we een nieuwe data augmentatie methode voor neurale machinevertaling. Anders dan eerdere augmentatiemethoden die willekeurig woorden laten vallen, ruilen of vervangen door andere woorden in een zin, vergroten we zachtjes een willekeurig gekozen woord in een zin door zijn contextuele mix van meerdere verwante woorden. Sterker nog, we vervangen de one-hot representatie van een woord door een distributie (geleverd door een taalmodel) over de woordenschat, d.w.z. de inbedding van dit woord door een gewogen combinatie van meerdere semantisch vergelijkbare woorden. Aangezien de gewichten van die woorden afhankelijk zijn van de contextuele informatie van het te vervangen woord, vangen de nieuw gegenereerde zinnen veel rijkere informatie op dan eerdere augmentatiemethoden. Experimentele resultaten op zowel kleinschalige als grootschalige machinevertaaldatasets tonen de superioriteit van onze methode ten opzichte van sterke baselines aan.Abstract
Mens dataaugmentasjonen er ein viktig trik for å styra nøyaktigheten av dype læringsmetodar i datavisingsoppgåver, er studien i naturspråksoppgåver fortsatt svært begrenset. I denne papiret presenterer vi ein roman data-augmentasjonsmetode for omsetjing av neuralmaskin. Forskjellig frå førre augmentasjonsmetoder som tilfeldig slepp, bytt eller bytt ut ord med andre ord i eit setning, så auker vi ein tilfeldig vald ord i eit setning med den kontekstlege mixturen av fleire relaterte ord. Meir nøyaktig erstattar vi den éin varme representasjonen av eit ord med eit fordeling (oppgjeven av eit språk- modell) over ordboka, dvs. byter ut innbygginga av dette ordet med ein vekt kombinasjon av fleire semantisk liknande ord. Sidan vekten av desse ordene er avhengig av kontekstinformasjonen om ordet som skal erstattast, får dei nye oppretta setningane mykje rikre informasjon enn førre augmentasjonsmetodar. Eksperimentale resultat på både små skala og stor skala maskineomsetjingsdata viser overhøgda av metoden vårt over sterke baselinjer.Abstract
Podczas gdy powiększanie danych jest ważną sztuczką zwiększającą dokładność metod głębokiego uczenia się w zadaniach wizji komputerowej, jej badanie w zadaniach języka naturalnego jest nadal bardzo ograniczone. W artykule przedstawiamy nową metodę powiększania danych dla neuronowego tłumaczenia maszynowego. W odróżnieniu od poprzednich metod powiększania, które losowo upuszczają, zamieniają lub zastępują słowa innymi słowami w zdaniu, delikatnie powiększamy losowo wybrane słowo w zdaniu o kontekstową mieszankę wielu powiązanych słów. Dokładniej, zastępujemy jednostronną reprezentację słowa dystrybucją (dostarczoną przez model językowy) nad słownictwem, czyli zastępując osadzenie tego słowa ważoną kombinacją wielu semantycznie podobnych słów. Ponieważ waga tych słów zależy od informacji kontekstowych słowa, które mają zostać zastąpione, nowo wygenerowane zdania przechwytują znacznie bogatsze informacje niż poprzednie metody powiększania. Wyniki eksperymentalne zarówno na małą skalę, jak i dużą skalę zestawów danych tłumaczeń maszynowych pokazują przewagę naszej metody nad silnymi liniami bazowymi.Abstract
Embora o aumento de dados seja um truque importante para aumentar a precisão dos métodos de aprendizado profundo em tarefas de visão computacional, seu estudo em tarefas de linguagem natural ainda é muito limitado. Neste artigo, apresentamos um novo método de aumento de dados para tradução automática neural. de várias palavras relacionadas. Mais precisamente, substituímos a representação one-hot de uma palavra por uma distribuição (fornecida por um modelo de linguagem) sobre o vocabulário, ou seja, substituindo a incorporação dessa palavra por uma combinação ponderada de várias palavras semanticamente semelhantes. Como os pesos dessas palavras dependem da informação contextual da palavra a ser substituída, as sentenças recém-geradas capturam informações muito mais ricas do que os métodos de aumento anteriores. Resultados experimentais em conjuntos de dados de tradução automática de pequena e grande escala demonstram a superioridade do nosso método sobre linhas de base fortes.Abstract
În timp ce mărirea datelor este un truc important pentru a spori acuratețea metodelor de învățare profundă în sarcinile de viziune computerizată, studiul său în sarcinile de limbaj natural este încă foarte limitat. În această lucrare, prezentăm o metodă nouă de augmentare a datelor pentru traducerea automată neurală. Diferit de metodele anterioare de augmentare care lasă aleatoriu, schimbă sau înlocuiesc cuvintele cu alte cuvinte dintr-o propoziție, mărim ușor un cuvânt ales aleatoriu dintr-o propoziție prin amestecul contextual al mai multor cuvinte asociate. Mai precis, înlocuim reprezentarea unui cuvânt cu o distribuție (furnizată de un model lingvistic) peste vocabular, adică înlocuind încorporarea acestui cuvânt cu o combinație ponderată de mai multe cuvinte semantic similare. Deoarece greutatea acestor cuvinte depinde de informațiile contextuale ale cuvântului care urmează să fie înlocuit, propozițiile nou generate captează informații mult mai bogate decât metodele anterioare de augmentare. Rezultatele experimentale atât pe seturi de date de traducere automată la scară mică, cât și pe scară largă demonstrează superioritatea metodei noastre față de liniile de bază puternice.Abstract
В то время как увеличение данных является важным трюком для повышения точности методов глубокого обучения в задачах компьютерного зрения, его изучение в задачах естественного языка все еще очень ограничено. В этой статье мы представляем новый метод дополнения данных для нейронного машинного перевода. В отличие от предыдущих методов дополнения, которые случайным образом отбрасывают, меняют местами или заменяют слова другими словами в предложении, мы мягко дополняем случайно выбранное слово в предложении его контекстуальной смесью нескольких родственных слов. Точнее, мы заменяем однозначное представление слова на распределение (обеспечиваемое языковой моделью) по словарю, т.е. заменяем вложение этого слова взвешенной комбинацией множества семантически схожих слов. Поскольку вес этих слов зависит от контекстуальной информации слова, подлежащего замене, вновь сгенерированные предложения захватывают гораздо более богатую информацию, чем предыдущие методы дополнения. Экспериментальные результаты на малом и большом наборах данных машинного перевода демонстрируют превосходство нашего метода над сильными базовыми линиями.Abstract
දත්ත විශාලනය වැඩ කරන්න වැඩක් වැඩක් වෙන්නේ පරිගණකය දර්ශනය වැඩේ ගොඩක් ඉගෙන ගන්න ප්රයෝජනය විධානයක් වැඩ කරන්න, ඒක මේ පත්තරේ අපි න්යූරාල් මැෂින් වාර්තාව සඳහා නියම දත්ත විශාලනයක් පෙන්වන්නේ. වෙනස් විදියට පසුගින් විශාල විදියට වෙනස් විදියට වෙනස් විදියට වචනයක් වෙනුවෙන් විදියට වෙනස් වෙනුවෙන් විදියට වෙනස් වචනයක් ව වැඩිය හරියට, අපි වචනයක් විතරයෙන් (භාෂාවක් මොඩේලර් වලින්) භාෂාවක් වලින් ප්රතිනිස්ථාපනය කරනවා, ඉතින්, මේ වචනය සම්බන්ධයෙන් විතරය මේ වචන වර්තනයේ වර්තනය අවශ්ය විදිහට පස්සේ පස්සේ ප්රතිස්ථාපනය කරන්න පුළුවන් තොරතුරු වෙනුවෙන්, අලුත් ප්රතිස්ථ පුංචි ප්රමාණය සහ ලොකු ප්රමාණයේ මැෂින් වාර්තාව දත්ත සැට් එක්ක පරීක්ෂණ ප්රතික්රියාත්මක විදිAbstract
Medtem ko je povečanje podatkov pomemben trik za povečanje natančnosti metod globokega učenja pri nalogah računalniškega vida, je njegovo študij pri nalogah naravnega jezika še vedno zelo omejeno. V prispevku predstavljamo novo metodo povečanja podatkov za nevronsko strojno prevajanje. Z razliko od prejšnjih metod povečanja, ki naključno spuščajo, zamenjajo ali zamenjajo besede z drugimi besedami v stavku, mehko povečujemo naključno izbrano besedo v stavku z njeno kontekstualno mešanico več sorodnih besed. Natančneje, enovročo predstavitev besede zamenjamo z distribucijo (ki jo zagotavlja jezikovni model) nad besediščem, tj. zamenjamo vdelavo te besede s ponderirano kombinacijo več semantično podobnih besed. Ker je teža teh besed odvisna od kontekstnih informacij besede, ki jo je treba nadomestiti, novi stavki zajemajo veliko bogatejše informacije kot prejšnje metode povečanja. Eksperimentalni rezultati na manjših in velikih naborih podatkov strojnega prevajanja kažejo, da je naša metoda boljša od močnih osnovnih vrst.Abstract
Inta lagu jiro koritaanka macluumaadku waa dhaqdhaqaaq muhiim ah in loo kordhiyo saxda waxbarashada aad u dheer ee lagu sameeyo tusaalaha kambiyuutarka, waxbarashada hawlaha afka asalka ah weli waa mid aad u xadan. Warqadan waxan ku qornaa qaab la kordhiyo macluumaadka warqada ah oo lagu turjumo mashiinka neurada ah. Isku duwan qaababka hore oo ku saabsan furitaanka, ku bedela ama ku bedela hadal kale oo ku qoran hadal kale, waxaynu si fudud ugu kordhinaa hadal la doortay oo ku qoran hadal ku saabsan hadal badan. Si saxda ah, waxaynu u beddelinaynaa isku qiimo ah hadalka, qaybinta (sida muusikada afka) oo ku qoran hadalka, taas oo ah beddelka ku qoran qoraalka hadalka oo isku mid ah. Sida uu miisaanka erayadaas waxay ku xiran tahay macluumaadka joogtada ah ee hadalka lagu beddelo, xukunka cusub ee dhashay waxay qabsan yihiin macluumaad aad u hodan badan oo ka sii badan qaababka hore. Imtixaanka ku saabsan qiyaastii yar iyo kooxda turjumidda mashiinka oo waaweyn waxay muujiyaan mid ka sarreeya qaababkayaga oo ka sareeya saldhigyada xoogga badan.Abstract
While data augmentation is an important trick to boost the accuracy of deep learning methods in computer vision tasks, its study in natural language tasks is still very limited. Në këtë letër, ne paraqesim një metodë të re të rritjes së të dhënave për përkthimin e makinave nervore. Ndryshe nga metodat e mëparshme të rritjes që në mënyrë të rastësishme lëshojnë, shkëmbejnë apo zëvendësojnë fjalët me fjalë të tjera në një fjalë, ne lehtë shtojmë një fjalë të zgjedhur në mënyrë të rastësishme në një fjalë me përzierjen e saj kontekstuale të fjalëve të shumta të lidhura. Më saktësisht, ne zëvendësojmë përfaqësimin e një fjale me një shpërndarje (furnizuar nga një model gjuhësh) mbi fjalorin, pra, duke zëvendësuar përfshirjen e këtij fjale me një kombinim të peshuar të fjalëve të shumta semantikisht të ngjashme. Meqenëse pesha e këtyre fjalëve varet nga informacioni kontekstual i fjalës që duhet zëvendësuar, fjalët e sapo gjeneruara përfshijnë informacion shumë më të pasur se metodat e mëparshme të rritjes. Rezultatet eksperimentale në shkallë të vogël dhe në shkallë të madhe të të dhënave të përkthimit të makinave tregojnë superioritetin e metodës sonë ndaj linjave bazë të forta.Abstract
Iako je povećanje podataka važan trik za povećanje tačnosti dubokih metoda učenja u zadatkima kompjuterskog vizije, njegova studija u prirodnim jezičkim zadatkima još uvek je vrlo ograničena. U ovom papiru predstavljamo novu metodu povećanja podataka za prevod neuralne mašine. Drugačije od prethodnih metoda povećanja koje slučajno padaju, zamjenjuju ili zamjenjuju reči drugim rečima u rečenici, meko povećamo slučajno izabranu reč u rečenici svojom kontekstualnom mješanjem višestrukih povezanih reči. Upravo bismo zamijenili jednu vruću predstavu riječi distribucijom (pruženim jezičkim modelom) preko rečnika, tj. zamijenili integraciju ove riječi težinom kombinacijom višestrukih semantički sličnih riječi. Pošto težina tih reèi zavisi od kontekstualne informacije reèi koje treba zameniti, nove proizvedene rečenice uhvate mnogo bogatije informacije nego prethodne metode povećanja. Eksperimentalni rezultati na maloj skali i velikoj skali podataka o prevodu mašine pokazuju nadvišenost naše metode nad jakim osnovnim linijama.Abstract
Även om dataförstärkning är ett viktigt trick för att öka noggrannheten i djupinlärningsmetoder i datorseende uppgifter, är dess studier i naturliga språkuppgifter fortfarande mycket begränsad. I denna uppsats presenterar vi en ny dataförstärkningsmetod för neural maskinöversättning. Till skillnad från tidigare förstärkningsmetoder som slumpmässigt släpper, byter eller ersätter ord med andra ord i en mening, ökar vi mjukt ett slumpmässigt valt ord i en mening genom dess kontextuella blandning av flera relaterade ord. Mer exakt ersätter vi en het representation av ett ord med en distribution (tillhandahålls av en språkmodell) över ordförrådet, dvs ersätta inbäddningen av detta ord med en viktad kombination av flera semantiskt liknande ord. Eftersom vikten av dessa ord beror på den kontextuella informationen av ordet som ska ersättas, fångar de nygenererade meningarna mycket rikare information än tidigare augmentationsmetoder. Experimentella resultat på både småskaliga och storskaliga maskinöversättningsdata visar att vår metod är överlägset jämfört med starka baslinjer.Abstract
Wakati kuongeza taarifa ni mpango wa muhimu wa kuongeza uhakika wa njia za kujifunza za kina katika kazi za maono ya kompyuta, utafiti wake katika kazi za lugha za asili bado ni mdogo sana. Katika karatasi hii, tunaweka mbinu ya kuongeza taarifa za riwaya kwa ajili ya kutafsiri mashine ya ubongo. Tofauti na njia za kukuza zilizopita ambazo hazipungua, kubadilisha au kubadilisha maneno mengine kwa hukumu, tunaongeza neno lililochaguliwa kwa urahisi katika hukumu kwa mchanganyiko wa maneno kadhaa yanayohusiana. Kwa sahihi zaidi, tunabadilisha uwakilishaji wa neno moja kwa moja kwa usambazaji (inayotolewa na muundo wa lugha) juu ya maneno, yaani, kubadilisha upande wa neno hili kwa muunganiko wa maneno kadhaa yanayofanana na maneno yanayofanana. Tangu mizani ya maneno hayo yanategemea taarifa za sasa za neno hilo la kubadilishwa, hukumu mpya zilizozaliwa zinachukua taarifa za utajiri zaidi ya njia zilizopita za kuongeza. Matokeo ya majaribio yanayotokana na kiwango kidogo na seti za tafsiri za mashine za kiasi kikubwa zinaonyesha ukubwa wa njia yetu juu ya misingi yenye nguvu.Abstract
கணினியில் கணினி காட்சி பணிகளில் உள்ள ஆழமான கற்றல் முறைமையை அதிகரிக்க தரவு சேர்ப்பது முக்கியமான சூழ்ச்சியாகும் போது, அதன் படிப்ப இந்த காகிதத்தில், நாம் புதிய தகவல் கூட்டுதல் முறைமையை கொண்டு வருகிறோம் புதிய இயந்திரத் மொழிபெயர்ப் குறிப்பில்லாத வாக்கியத்தில் உள்ள முந்தைய கூட்டுதல் முறைமைகளிலிருந்து வேறு வார்த்தைகளை மாற்றி, மாற்று அல்லது மற்ற வார்த்தைகளுடன் மாற்றும், மேலும் சரியாக, நாம் ஒரு வார்த்தையை பங்கீடு (ஒரு மொழி மாதிரி வழங்கிய) மாற்றுகிறோம் சொல்வளத்தின் மேல், அதாவது, இந்த வார்த்தைன் வெளியீட்டை மாற்றுகிறது, அந்த வார்த்தைகளின் எடைகள் மாற்றப்பட வேண்டிய தற்போதைய தகவலை சார்ந்து இருக்கும் போது, புதிய உருவாக்கப்பட்ட வாக்கியங்கள் முந்தைய முற சிறிய அளவு மற்றும் பெரிய அளவு இயந்திர மொழிபெயர்ப்பு தரவு அமைப்புகளில் சோதனையின் முடிவுகள் வலிமையான அடிப்படைக்கோடுகளினAbstract
Maglumat ýetişdirmesi kompýuter görnüş görevlerinde gaty derin öwrenme metodlarynyň dogrudygyny bejermek üçin wajyp bir zat, onuň tebigy diller işinde öwrenmesi häzir ýok. Bu kagyzda, biz neural maşynyň terjimesi üçin roman maglumaty ekleýän yöntemi görkeýäris. Öňki sözleriň üýtgetmek, tertiblemek, üýtgetmek ýa sözleriň başga sözleriyle üýtgetmek üçin üýtgeşik däldir. Biz sözleriň arasynda saýlanan sözleriň çarpyşygyna görä tertibleýän sözleriň içine üýtgeşik. Dahili dogry, biz sözleriň bir süýji suratyny sözleriň üstine (bir dil model i bilen berilen) sözleriň i çine gollaşdyrylygyny birnäçe semantik sebäpli üýtgeýän bir tertibine alýarys. Şol sözlerin ağırlygy öňki ýerleşdirilip gelen sözlerin durum maglumatyna bağlı bolanyndan soňra täze döredilen sözler öňki ýerleşdirilip modalaryndan köp baý maglumaty alýarlar. Kiçi ölçekli we uly ölçekli maşynyň terjime maglumatynyň üstünligini görkez.Abstract
اگرچہ ڈاٹا افزایش ایک اہم ٹریک ہے کہ کمپیوٹر دیز کے کاموں میں عمیق سیکھنے کے طریقے کی دقیق دکھائے، اس کا تحقیق طبیعی زبان کے کاموں میں بھی بہت محدود ہے. اس کاغذ میں ہم نے نئورل ماشین ترجمہ کے لئے ایک نئی ڈیٹ اضافہ کا طریقہ پیش کیا ہے۔ اگلے افزایش طریقے سے متفاوت ہیں جو کلمات کو کسی کلمات میں دوسرے کلمات کے ذریعہ ڈوبتے ہیں، سوچتے ہیں یا بدل دیتے ہیں، ہم نرم طریقے سے ایک کلمات کو ایک کلمات میں انتخاب کئے جاتے ہیں اس کے متوسط کلمات کی مخلوط طریقے سے. اس سے زیادہ دقیق، ہم ایک کلمہ کی ایک گرم نمونش کو ایک کلمہ کے ذریعہ تقسیم (زبان نمونڈل کے ذریعہ) کے ذریعہ، یعنی اس کلمہ کے پیدا کرنے کو ایک گرم نمونڈ کے ذریعہ تغییر دیتے ہیں، یعنی ایک گرم نمونڈ کے مطابق ایک گرم نمونڈ کے ذری ان کلمات کی وزن اس بات کے عوض ہونے کے متوسط معلومات پر مضبوط ہے، جو نئی پیدا ہوئی کلمات پہلے اضافہ کی طریقے سے بہت ثروت معلومات لیتے ہیں. تھوڑے اسکیل اور بڑے اسکیل ماشین ترجمہ ڈیٹ سٹ پر آزمائش کا نتیجہ دکھاتا ہے کہ ہمارے طریقے کی زیادتی مضبوط بنسٹ لین پر ہے.Abstract
Kompyuterning tashkilotlaridagi juda qiziqarli o'rganish usullarning imkoniyatini oshirish uchun maʼlumot yozuvchi muhim harakat narsalar bo'lganda, bu ta'limning tabiiy tillar vazifalari juda chegara. Bu hujjatda, biz neyrolik mashinasi tarjima qilish uchun novel maʼlumot yordamida qoʻshish usulini koʻrsatimiz. @ info: whatsthis Ko'proq, biz bir so'zni ajratish (tillar model i tomonidan foydalanish) bilan bir so'zni almashtiramiz, balki bu so'zning chegarasini bir necha semantik huddi so'zlarning bir qanchalik bir qanchalik bir xil bir necha bir xil bir necha so'zlarni almashtirish mumkin. Bu so'zlarning oʻlchamini almashtirish uchun so'zlarning davomida maʼlumotga ishlatadi, yangi maxfiy soʻzlar oldin tashqi usullardan ko'proq maʼlumotni qabul qiladi. NameAbstract
Trong khi việc gia tăng dữ liệu là một mẹo quan trọng để tăng độ chính xác của các phương pháp học sâu trong các công việc tầm nhìn máy tính, nghiên cứu về ngôn ngữ tự nhiên vẫn còn rất ít. Trong tờ giấy này, chúng tôi giới thiệu một phương pháp gia tăng dữ liệu mới cho dịch thuật cỗ máy thần kinh. Khác với các phương pháp bơm trưởng trước ngẫu nhiên thả, thay đổi hoặc thay thế từ với những từ khác trong một câu, chúng tôi ít khi tăng thêm một từ được chọn ngẫu nhiên trong một câu bằng hỗn hợp với các từ liên quan nhiều chữ. Một cách chính xác hơn, chúng ta thay thế các mô tả một nóng của một từ bằng cách phân phối (cung cấp bởi một mô hình ngôn ngữ) trên các từ, tức là thay thế sự nhúng vào từ này bằng một sự kết hợp bằng nhiều từ theo ngữ nghĩa khác nhau. Do trọng lượng của những từ đó phụ thuộc vào các thông tin ngữ cảnh của từ cần thay thế, câu mới tạo ra sẽ thu thập thông tin nhiều hơn các phương pháp gia tăng trước. Kết quả thí nghiệm trên cả các đơn vị dịch thuật nhỏ và trên quy mô lớn cho thấy phương pháp vượt trội hơn các nền tảng vững chắc.Abstract
虽数增于深学计算机视准确性之要术,其于自然语言犹有限矣。 本文中,设神经机器翻译数增强之法。 与前随机删除,换句中单词增法不同,余因数相关单词上下文混合来软增强句中随机所择单词。 更确言,以词汇表上之布(语言模样)代单词之一热,即以数语义相似者单词加权合代单词嵌。 此单词权重在易单词之上下文,故新句之获,富于前术也。 小规大机器翻译数集之实验结果表明,吾法优于强基线。- Anthology ID:
- P19-1555
- Volume:
- Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics
- Month:
- July
- Year:
- 2019
- Address:
- Florence, Italy
- Venue:
- ACL
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 5539–5544
- Language:
- URL:
- https://aclanthology.org/P19-1555
- DOI:
- 10.18653/v1/P19-1555
- Bibkey:
- Cite (ACL):
- Fei Gao, Jinhua Zhu, Lijun Wu, Yingce Xia, Tao Qin, Xueqi Cheng, Wengang Zhou, and Tie-Yan Liu. 2019. Soft Contextual Data Augmentation for Neural Machine Translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5539–5544, Florence, Italy. Association for Computational Linguistics.
- Cite (Informal):
- Soft Contextual Data Augmentation for Neural Machine Translation (Gao et al., ACL 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/P19-1555.pdf
- Code
- teslacool/SCA
- Terminologies:
Export citation
@inproceedings{gao-etal-2019-soft, title = "Soft Contextual Data Augmentation for Neural Machine Translation", author = "Gao, Fei and Zhu, Jinhua and Wu, Lijun and Xia, Yingce and Qin, Tao and Cheng, Xueqi and Zhou, Wengang and Liu, Tie-Yan", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1555", doi = "10.18653/v1/P19-1555", pages = "5539--5544", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="gao-etal-2019-soft"> <titleInfo> <title>Soft Contextual Data Augmentation for Neural Machine Translation</title> </titleInfo> <name type="personal"> <namePart type="given">Fei</namePart> <namePart type="family">Gao</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Jinhua</namePart> <namePart type="family">Zhu</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Lijun</namePart> <namePart type="family">Wu</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Yingce</namePart> <namePart type="family">Xia</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Tao</namePart> <namePart type="family">Qin</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Xueqi</namePart> <namePart type="family">Cheng</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Wengang</namePart> <namePart type="family">Zhou</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Tie-Yan</namePart> <namePart type="family">Liu</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-07</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Florence, Italy</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">gao-etal-2019-soft</identifier> <identifier type="doi">10.18653/v1/P19-1555</identifier> <location> <url>https://aclanthology.org/P19-1555</url> </location> <part> <date>2019-07</date> <extent unit="page"> <start>5539</start> <end>5544</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Soft Contextual Data Augmentation for Neural Machine Translation %A Gao, Fei %A Zhu, Jinhua %A Wu, Lijun %A Xia, Yingce %A Qin, Tao %A Cheng, Xueqi %A Zhou, Wengang %A Liu, Tie-Yan %S Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics %D 2019 %8 July %I Association for Computational Linguistics %C Florence, Italy %F gao-etal-2019-soft %R 10.18653/v1/P19-1555 %U https://aclanthology.org/P19-1555 %U https://doi.org/10.18653/v1/P19-1555 %P 5539-5544
Markdown (Informal)
[Soft Contextual Data Augmentation for Neural Machine Translation](https://aclanthology.org/P19-1555) (Gao et al., ACL 2019)
- Soft Contextual Data Augmentation for Neural Machine Translation (Gao et al., ACL 2019)
ACL
- Fei Gao, Jinhua Zhu, Lijun Wu, Yingce Xia, Tao Qin, Xueqi Cheng, Wengang Zhou, and Tie-Yan Liu. 2019. Soft Contextual Data Augmentation for Neural Machine Translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5539–5544, Florence, Italy. Association for Computational Linguistics.