Latent Variable Model for Multi-modal Translation Laat veranderlike Model vir Multi modal Vertaling ምርጫዎች نموذج المتغير الكامن للترجمة متعددة الوسائط Çoxlu modal tercümə üçün son dəyişiklik Modeli Модел на латентни променливи за мултимодален превод বহুমোডাল অনুবাদের জন্য সম্প্রতি পরিবর্তন মোডেল འཕྲལ་མ་དབྱིབས་བསྒྱུར་རུང་བའི་མ་དབྱིབས་བཟོས་ཅན Posljednji Variable Model za multimodalni prevod Model Latent Variable for Multi modal Translation Latentní proměnný model pro multimodální překlad Latent Variable Model for Multi-modal Oversættelse Latentes Variablenmodell für multimodale Übersetzung Υπόδειγμα μεταβλητής για πολυμορφική μετάφραση Modelo de variables latentes para traducción multimodal Mitmeliigilise tõlke latentmuutuja mudel مدل تغییر اخیر برای ترجمههای چند مدل Monimodaalisen käännöksen latenttimuuttujamalli Modèle de variable latente pour la traduction multimodale Samhail Athraitheach Folaigh don Aistriúchán Ilmhódúil @ action מודל משתנה מאוחר לתרגום רב מודל बहु-मोडल अनुवाद के लिए अव्यक्त चर मॉडल Posljednji Variable Model za multimodalni prevod Latent Variable Model for Multi-Modális Fordítás Latent Variable Model for Multi-modal Translation Model Variable Terkini untuk Translation Multi modal Modello variabile latente per la traduzione multimodale マルチモーダル翻訳の潜在変数モデル File მრავალური მოდელური განსაგულისხმების შემდეგ მოდელი Көп модельді аудару үшін кейінгі айнымалы үлгі 다중모드 번역의 잠재 변수 모델 Daugiamodalio vertimo naujausias kintamojo modelis Последен модел на променливи за мултимодален превод Multi- മോഡല് പരിഭാഷപ്പെടുത്തുന്നതിനുള്ള അവസാന മോഡല് Олон моделийн орчуулалтын дараагийн өөрчлөлтийн загвар Model Pembolehubah Terkini untuk Terjemahan Multi modal Latent Variable Model for Multi-modal Translation Latent variabel model voor multimodale vertaling Siste variabel modell for fleire modal omsetjing Latent Variable Model dla tłumaczenia multimodalnego Modelo de variável latente para tradução multimodal Model variabil lateral pentru traducerea multimodală Скрытая модель переменной для мультимодального перевода ගොඩක් මෝඩාල් පරිවර්තනය සඳහා පරණ වෙනස් මොඩේල් Latentni model spremenljivk za večmodalni prevod Latent Variable Model for Multi-modal Translation Model i ndryshueshëm i fundit për përkthimin multimodal Poslednji Variable Model za multimodalni prevod Latent Variable Model for Multi-modal Translation Modala inayobadilika hivi karibuni kwa Tafsiri ya Kimulti பல- மாற்று மொழிபெயர்ப்புக்கு சமீபத்தில் மாறிய மாதிரி Birnäçe modal terjime üçin soňky üýtgewli nusga Multi modal Translation for Latent Variable Model Name Mô hình biến dạng trễ cho dịch đa phương 多模态转者潜于变量模
Abstract
In this work, we propose to model the interaction between visual and textual features for multi-modal neural machine translation (MMT) through a latent variable model. This latent variable can be seen as a multi-modal stochastic embedding of an image and its description in a foreign language. It is used in a target-language decoder and also to predict image features. Importantly, our model formulation utilises visual and textual inputs during training but does not require that images be available at test time. We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). Finally, we show improvements due to (i) predicting image features in addition to only conditioning on them, (ii) imposing a constraint on the KL term to promote models with non-negligible mutual information between inputs and latent variable, and (iii) by training on additional target-language image descriptions (i.e. synthetic data).Abstract
In hierdie werk voorstel ons om die interaksie tussen visuele en tekstuele funksies vir multimodale neurale masjien vertaling (MMT) te model deur 'n latente veranderlike model. Hierdie latente veranderlike kan wees gesien as 'n multimodaal stochastic inbêding van' n beeld en sy beskrywing in 'n vreemde taal. Dit word gebruik in 'n doel-taal dekoder en ook om beeldfunksies te voorskou. Ons model formasie gebruik visuele en tekstuule inprop tydens opvoering, maar nie nodig dat beelde beskikbaar word op toets tyd nie. Ons wys dat ons latente veranderlike MMT formasie beter betekeurig oor sterke basisline, insluitend 'n multi-taak leer toegang (Elliott en Kadar, 2017) en 'n voorwaardige variasionale auto-kodering toegang (Toyama et al., 2016). Eindelik, ons wys verbeteringe vanweë (i) voorskou beeldfunksies in bygewing tot slegs voorwaarding op hulle, (ii) om 'n beperking op die KL term te plaas om modele te promoteer met nie- negligbare gemeenskaplike inligting tussen inputs en latent e veranderlike, en (iii) deur onderwerp op addisionele doel- taal beeldbeskrywings (bv. sintetiese data).Abstract
በዚህ ስራ፣ ለብዙ-ሞዴል የናቡኤል ሚሽን ትርጓሜ (MMT) በተለየ ሚዲያ እና የጽሑፍ ምርጫዎች መካከል ግንኙነትን ማሳየት እናቆማለን፡፡ ይህ አዲስ ዶሴ ፍጠር በአካባቢ ቋንቋ አቀማመጥ እና የምስል ምርጫዎችን ለመቀበል ይጠቀማል፡፡ በጭራሽ ግንኙነት፣ ሞዴል ምሳሌ በተማሪዎች ጊዜ የራእይ እና የጽሑፍ ጥያቄዎችን ይጠቅማል ነገር ግን ምስሎችን በሞከሩ ጊዜ እንዲገኙ አያስፈልጋቸውም፡፡ የቀድሞው የMMT መልዕክታችን በብዙ ሥርዓት ትምህርት ትምህርት (ኤሊዮት እና ካዳር, 2017) እና የተለየ መልዕክት የራሱ የኮድ አካባቢ ሥርዓት (ቶያማ እና አል 2016) በማድረግ አካባቢ እንዲያሳየው ነው፡፡ በመጨረሻው፣ (I) የምስል ምስል ምርጫዎች ብቻ ሲቀበል በመቀበል፣ (i i) በተጨማሪው የቋንቋ-ቋንቋ ምስል ጽሑፎችን በማሳመር እና በሚያሳውቅ የውይይይት መረጃዎችን በማሳወቅ በKL ቃል ላይ ግድ ያደርጋል፡፡Abstract
في هذا العمل ، نقترح نمذجة التفاعل بين الميزات المرئية والنصية للترجمة الآلية العصبية متعددة الوسائط (MMT) من خلال نموذج متغير كامن. يمكن النظر إلى هذا المتغير الكامن على أنه دمج عشوائي متعدد الوسائط لصورة ووصفها بلغة أجنبية. يتم استخدامه في وحدة فك ترميز اللغة المستهدفة وأيضًا للتنبؤ بميزات الصورة. الأهم من ذلك ، أن صياغة النموذج لدينا تستخدم المدخلات المرئية والنصية أثناء التدريب ولكنها لا تتطلب أن تكون الصور متاحة في وقت الاختبار. نوضح أن صياغة MMT المتغيرة الكامنة لدينا تتحسن بشكل كبير عبر خطوط الأساس القوية ، بما في ذلك نهج التعلم متعدد المهام (Elliott and Kadar ، 2017) ونهج التشفير التلقائي المتغير الشرطي (Toyama et al. ، 2016). أخيرًا ، نعرض تحسينات بسبب (1) توقع ميزات الصورة بالإضافة إلى التكييف عليها فقط ، (2) فرض قيود على مصطلح KL للترويج للنماذج ذات المعلومات المتبادلة غير المهملة بين المدخلات والمتغير الكامن ، و (3) من خلال التدريب على أوصاف إضافية للصور للغة المستهدفة (مثل البيانات التركيبية).Abstract
Bu işdə, çoxlu modal nöral maşına çevirilməsi (MMT) üçün görsel və textual özelliklərin arasındakı müxtəlif modellərlə örtünməyi təklif edirik. Bu latent dəyişiklik şəkillərin çoxlu modal stochastik in şas ı və təfsiləsini daşqalaq dildə görünər. Bu məqsəd dil kodlayıcısında və şəkillərin özelliklərini də öyrənmək üçün istifadə edilir. Önemli olaraq, modellərimizin formülasyonu təhsil sırasında görsel və textual inputlər istifadə edir, amma görüntülərimiz sınama vaxtında faydalanmasını istəmirlər. Biz küçük dəyişiklik MMT formülatımızın çoxlu iş öyrənmə metodumu (Elliott və Kadar, 2017) və müxtəlif variasiyonlu avtomatik kodlayıcı metodumu (Toyama et al., 2016). Sonunda, i) görüntü xüsusiyyətlərini ancaq onlar üzərində kondiciyonların əlavə etdiyi tədbirləri göstəririk, (ii) modellərin giriş və sonrakı dəyişikliklərin arasındakı tədbirli məlumatları və (iii) əlavə məqsəd dillərin görüntüsünü təhsil etmək üçün KL term in in ə müəyyən edilir.Abstract
В тази работа предлагаме да се моделира взаимодействието между визуални и текстови характеристики за мултимодален невронен машинен превод (ММТ) чрез латентен променлив модел. Тази латентна променлива може да се разглежда като мултимодално стохастично вграждане на изображение и неговото описание на чужд език. Той се използва в декодер на целеви езици и също така за предсказване на характеристиките на изображението. Важно е, че нашата формулировка на модела използва визуални и текстови входове по време на обучението, но не изисква изображенията да бъдат достъпни по време на теста. Показваме, че нашата латентна променлива формулировка на ММТ се подобрява значително в сравнение със силните базови линии, включително подхода за многозадачно обучение (Елиът и Кадар, 2017) и подхода за условно вариационно автоматично кодиране (Тояма и др., 2016). И накрая, показваме подобрения, дължащи се на (i) предсказване на характеристиките на изображението в допълнение към само обусловяването им, (ii) налагане на ограничение върху термина KL за популяризиране на модели с незаменима взаимна информация между входовете и латентната променлива, и (iii) чрез обучение по допълнителни описания на изображенията на целевия език (т.е. синтетични данни).Abstract
এই কাজে আমরা প্রস্তাব করি যে দৃশ্য এবং টেক্সটুয়াল বৈশিষ্ট্যাবলী অনুবাদের জন্য দৃশ্যমান এবং টেক্সটুয়াল বৈশিষ্ট্যের মধ্যে প্রতিযোগিতা ম এই সাম্প্রতিক ভেরিয়েলটি একটি ছবির বিভিন্ন স্টোকাস্টিক হিসেবে দেখা যাবে এবং এর বর্ণনা বিদেশী ভাষায়। এটি টার্গেট ভাষার ডেকোডারে ব্যবহার করা হয় এবং ছবির বৈশিষ্ট্য প্রদর্শন করার জন্য। গুরুত্বপূর্ণ, আমাদের মডেল ফর্মুলেশন প্রশিক্ষণের সময় দৃশ্যমান এবং টেক্সচুয়াল ইনপুট ব্যবহার করে কিন্তু পরীক্ষার সময়ে ছবি প্ আমরা দেখাচ্ছি যে আমাদের সাম্প্রতিক বিভিন্ন এমএমটি বিভিন্ন ভিন্ন ভিন্ন ভিন্ন ভিন্ন ভিন্ন ভিন্ন ভিন্ন ভিন্ন ভাবে উন্নত হয়েছে, যার মধ্যে রয়েছে বহুকাজের শ শেষ পর্যন্ত, আমরা তাদের উপর শুধুমাত্র অবস্থানের বিষয়বস্তুর পরিবর্তে চিত্রের বৈশিষ্ট্য প্রদর্শন করি (I) ভবিষ্যৎের কারণে উন্নতি প্রদর্শন করি, (i i) ইনপুট এবং সাম্প্রতিক ভিন্ন ভিন্ন ভিন্ন ভিন্ন ভিন্ন ভিন্Abstract
In this work, we propose to model the interaction between visual and textual features for multi modal neural machine translation (MMT) through a latent variable model. མཐའ་མཇུག་གི་འགྱུར་ཅན་འདི་རྣམས་བརྙན་རིས་ཞིག་དང་དེའི་འགྲེལ་བཤད་འདི་ཕྱི་སྐད་ཡིག དེ་ནི་དམིགས་ཡུལ་གྱི་སྐད་རིགས་དམིགས་འཛུགས་ཀྱི་ལག་ལེན་བྱེད་པ་དང་གཟུགས་རིས་ཁྱད་ཆོས གལ་སྲིད་ཆེན་རེད། ང་ཚོའི་མ་དབྱིབས་རྩོམ་པ་ལ་མཐོང་ནུས་དང་ཐིག་ཡིག We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). Finally, we show improvements due to (i) predicting image features in addition to only conditioning on them, (ii) imposing a constraint on the KL term to promote models with non-negligible mutual information between inputs and latent variable, and (iii) by training on additional target-language image descriptions (i.e. synthetic data).Abstract
U ovom poslu predlažemo da modeliramo interakciju između vizuelnih i tekstualnih karakteristika za multimodalni prevod neuralnih strojeva (MMT) kroz latentni varijantni model. Ova latentna varijanta se može smatrati multimodalnim stokastičnim uključenjem slike i opisa na stranom jeziku. Koristi se u dekoderu ciljanih jezika i predviđati karakteristike slika. Važno je, naša formulacija modela koristi vizuelne i tekstualne ulaze tijekom treninga, ali ne zahtijeva da slike budu dostupne na vrijeme testa. Pokazujemo da se naša latentna promjena MMT formulacija značajno poboljšava nad jakim osnovnim linijama, uključujući pristup multi task učenja (Elliott i Kadar, 2017) i uvjetni variacionalni autokodirani pristup (Toyama et al., 2016). Na kraju, pokazujemo poboljšanja zbog i) predviđanja karakteristika slika dodatno samo uvjetima na njih, ii) uložavanjem ograničenja na term in KL-a kako bi promovirali modele sa neozanemaljivim zajedničkim informacijama između ulaganja i poslednjih promjena, i iii) vježbama dodatnim opisima slika na ciljevima (tj. sintetičkih podataka).Abstract
En aquesta feina, proposem modelar l'interacció entre característiques visuals i textuals per a la traducció de màquines neurals multimodals (MMT) a través d'un model variable latent. Aquesta variable latent es pot veure com una incorporació estàstica multi modal d'una imatge i la seva descripció en un llenguatge estranger. Es utilitza en un decodificador de llenguatge alvo i també per predir les característiques d'imatge. El que és important és que la nostra formulació model utilitza entrades visuals i textuals durant l'entrenament però no requereix que les imatges siguin disponibles en el moment de la prova. Mostrem que la nostra formulació latent variable MMT millora considerablement sobre línies de base fortes, incloent un enfocament d'aprenentatge multitasca (Elliott i Kadar, 2017) i un enfocament condicional de variació autocodificador (Toyama et al., 2016). Finalment, demostram millors degut a (i) predir les característiques d'imatge a més de només condicionar-les, (ii) impondre una restricció al term e KL per promoure models amb informació mutua no insignificant entre les entrades i la variable latent, i (iii) entrenant en descripcions adicionals d'imatges en llenguatge alvo (i.e. dades sintètiques).Abstract
V této práci navrhujeme modelovat interakci mezi vizuálními a textovými prvky pro multimodální neuronový strojový překlad (MMT) pomocí latentního proměnného modelu. Tato latentní proměnná může být považována za multimodální stochastické vložení obrazu a jeho popisu v cizím jazyce. Používá se v dekodéru cílového jazyka a také k předpovědi obrazových vlastností. Důležité je, že naše formulace modelu využívá vizuální a textové vstupy během tréninku, ale nevyžaduje, aby byly obrázky dostupné v době testu. Ukazujeme, že naše formulace latentních proměnných MMT se výrazně zlepšuje nad silnými základními liniemi, včetně přístupu k víceúlohovému učení (Elliott a Kadar, 2017) a přístupu k podmíněnému variačnímu autokodéru (Toyama et al., 2016). Nakonec ukazujeme zlepšení v důsledku (i) predikce obrazových vlastností kromě jejich pouze podmínění, (ii) omezení pojmu KL na propagaci modelů s nezanedbatelnými vzájemnými informacemi mezi vstupy a latentní proměnnou a (iii) školení na dalších popisů obrazů v cílovém jazyce (tj. syntetických dat).Abstract
I dette arbejde foreslår vi at modellere samspillet mellem visuelle og tekstlige funktioner til multimodal neural maskinoversættelse (MMT) gennem en latent variabel model. Denne latente variabel kan ses som en multimodal stokastisk indlejring af et billede og dets beskrivelse på et fremmedsprog. Det bruges i en målsproget dekoder og også til at forudsige billedfunktioner. Det er vigtigt, at vores modelformulering bruger visuelle og tekstlige input under træningen, men kræver ikke, at billeder er tilgængelige på testtidspunktet. Vi viser, at vores latente variabel MMT formulering forbedres betydeligt i forhold til stærke basislinjer, herunder en multi-task learning tilgang (Elliott og Kadar, 2017) og en betinget variabel auto-encoder tilgang (Toyama et al., 2016). Endelig viser vi forbedringer som følge af (i) at forudsige billedfunktioner ud over kun at betinge dem, (ii) at pålægge KL begrænsning for at fremme modeller med ikke ubetydelig gensidig information mellem input og latent variabel, og (iii) at træne i yderligere billedbeskrivelser på målsproget (dvs. syntetiske data).Abstract
In dieser Arbeit schlagen wir vor, die Interaktion zwischen visuellen und textuellen Merkmalen für multimodale neuronale maschinelle Übersetzung (MMT) mittels eines latenten Variablenmodells zu modellieren. Diese latente Variable kann als multimodale stochastische Einbettung eines Bildes und seiner Beschreibung in einer Fremdsprache betrachtet werden. Es wird in einem zielsprachigen Decoder und auch zur Vorhersage von Bildmerkmalen verwendet. Wichtig ist, dass unsere Modellformulierung visuelle und textuelle Eingaben während des Trainings nutzt, aber keine Bilder zum Testzeitpunkt zur Verfügung stellt. Wir zeigen, dass sich unsere latente Variablen MMT-Formulierung gegenüber starken Baselines deutlich verbessert, einschließlich eines Multi-Task-Lernansatzes (Elliott und Kadar, 2017) und eines bedingten Variations-Auto-Encoder-Ansatzes (Toyama et al., 2016). Schließlich zeigen wir Verbesserungen durch (i) Vorhersage von Bildmerkmalen zusätzlich zu deren Konditionierung, (ii) Beschränkung auf den KL-Begriff, Modelle mit nicht vernachlässigbarer gegenseitiger Information zwischen Eingaben und latenter Variable zu fördern, und (iii) Training auf zusätzliche zielsprachliche Bildbeschreibungen (d.h. synthetische Daten).Abstract
Στην παρούσα εργασία, προτείνουμε να μοντελοποιηθεί η αλληλεπίδραση μεταξύ οπτικών και κειμένων χαρακτηριστικών για την πολυμορφική νευρωνική μηχανική μετάφραση (ΜΤ) μέσω ενός λανθάνοντος μεταβλητού μοντέλου. Αυτή η λανθάνουσα μεταβλητή μπορεί να θεωρηθεί ως μια πολυπροπική stochastic ενσωμάτωση μιας εικόνας και της περιγραφής της σε μια ξένη γλώσσα. Χρησιμοποιείται σε αποκωδικοποιητή γλώσσας στόχου και επίσης για την πρόβλεψη χαρακτηριστικών εικόνας. Σημαντικό είναι ότι το μοντέλο μας χρησιμοποιεί οπτικές και γραπτές εισόδους κατά τη διάρκεια της εκπαίδευσης, αλλά δεν απαιτεί να είναι διαθέσιμες οι εικόνες κατά τη διάρκεια της δοκιμής. Δείχνουμε ότι η διατύπωση λανθάνουσας μεταβλητής βελτιώνεται σημαντικά σε σχέση με ισχυρές γραμμές βάσης, συμπεριλαμβανομένης μιας προσέγγισης μάθησης πολλαπλών εργασιών (Έλιοτ και Καντάρ, 2017) και μιας προσέγγισης μεταβλητών αυτόματου κωδικοποιητή υπό όρους (κ.α., 2016). Τέλος, παρουσιάζουμε βελτιώσεις που οφείλονται (i) στην πρόβλεψη χαρακτηριστικών εικόνας εκτός από τον μόνο όρο σε αυτά, (ii) στην επιβολή περιορισμού στον όρο KL για την προώθηση μοντέλων με μη αμελητέα αμοιβαία πληροφόρηση μεταξύ εισόδων και λανθάνουσας μεταβλητής, και (iii) στην εκπαίδευση σε πρόσθετες περιγραφές εικόνων της γλώσσας στόχου (δηλαδή συνθετικά δεδομένα).Abstract
En este trabajo, proponemos modelar la interacción entre las características visuales y textuales para la traducción automática neuronal (MMT) multimodal a través de un modelo de variable latente. Esta variable latente puede verse como una incrustación estocástica multimodal de una imagen y su descripción en un idioma extranjero. Se utiliza en un decodificador de idioma de destino y también para predecir características de la imagen. Es importante destacar que la formulación de nuestro modelo utiliza entradas visuales y textuales durante el entrenamiento, pero no requiere que las imágenes estén disponibles en el momento del examen. Demostramos que nuestra formulación de MMT variable latente mejora considerablemente en comparación con líneas de base sólidas, incluido un enfoque de aprendizaje multitarea (Elliott y Kadar, 2017) y un enfoque de autocodificador variacional condicional (Toyama et al., 2016). Finalmente, mostramos mejoras debido a (i) la predicción de las características de la imagen además de solo condicionarlas, (ii) la imposición de una restricción al término KL para promover modelos con información mutua no despreciable entre las entradas y la variable latente, y (iii) mediante la capacitación en descripciones de imágenes adicionales en el idioma de destino (es decir, datos sintéticos).Abstract
Käesolevas töös teeme ettepaneku modelleerida visuaalsete ja tekstiliste funktsioonide interaktsiooni multimodaalse neuraalse masintõlke (MMT) läbi latentse muutujamudeli. Seda latentset muutujat võib vaadelda kui multimodaalset stohhastilist pildi ja selle kirjelduse manustamist võõrkeeles. Seda kasutatakse sihtkeele dekooderis ja ka pildi funktsioonide prognoosimiseks. Oluline on see, et meie mudeli koostis kasutab koolituse ajal visuaalseid ja tekstilisi sisendeid, kuid ei nõua, et pildid oleksid testimise ajal kättesaadavad. Näitame, et meie latentne muutuv MMT-vorm paraneb oluliselt tugevate lähtejoontega võrreldes, sealhulgas mitme ülesandega õppimise lähenemine (Elliott ja Kadar, 2017) ja tingimuslik variatsiooniline automaatkodeerija lähenemine (Toyama et al., 2016). Lõpuks näitame parandusi, mis tulenevad i) pildiomaduste prognoosimisest lisaks ainult nende tingimustele, (ii) KL terminile piirangu kehtestamisest, et edendada mudeleid, millel on sisendite ja latentsete muutujate vahel mittetaoluline vastastikune teave, ning (iii) täiendavate sihtkeele pildiomaduste (st sünteetiliste andmete) koolitamisest.Abstract
در این کار، ما پیشنهاد میکنیم که با یک مدل متغیر latent تعامل بین ویژههای دیده و متن برای ترجمه ماشینهای عصبیهای متعدد (MMT) را مدل کنیم. این تغییر latent میتواند به عنوان تغییر یک تصویر و توصییرش در زبان خارجی چندین modal stochastic ببیند. برای پیشبینی ویژههای تصویر استفاده میشود. مهم است که فرمول مدل ما در زمان آموزش، وارداتهای دیده و متن را استفاده میکند اما نیازی ندارد که تصاویر در زمان آزمایش موجود باشند. ما نشان می دهیم که فرمول متغیر متغیر MMT ما به طور کلی بر خطوط پایینهای قوی بهتر میشود، شامل یک روش یادگیری چندین کار (Elliott and Kadar, 2017) و روشهای متغیر اتوکیدکنندهای (Toyama et al., 2016). بالاخره، ما به سبب پیشبینی ویژههای تصویر علاوه بر تنها شرایط بر آنها، پیشبینیها را نشان میدهیم, (i i) تنظیم کردن روی کلمه KL برای توسعه مدلها با اطلاعات متفاوتی غیرقابل توجه بین ورودها و تغییرات اخیر، و (iii) با توسعههای توضیح تصویر زیادی از زبان هدف (یعنی دادههای متفاوتAbstract
Tässä työssä ehdotetaan visuaalisten ja tekstillisten ominaisuuksien vuorovaikutuksen mallintamista multimodaalisessa neurokonekäännöksessä (MMT) latenttimallin avulla. Tämä piilevä muuttuja voidaan nähdä multimodaalisena stokastisena upotuksena kuvasta ja sen kuvauksesta vieraalla kielellä. Sitä käytetään kohdekielen dekooderissa ja myös kuvan ominaisuuksien ennustamiseen. Tärkeää on, että malliformulaatiomme hyödyntää visuaalisia ja tekstuaalisia syötteitä harjoittelun aikana, mutta ei vaadi kuvien saatavuutta testiaikana. Osoitamme, että latentti muuttuja MMT-formulaatiomme paranee huomattavasti vahvoihin lähtölinjoihin verrattuna, mukaan lukien monitehtäväoppimisen lähestymistapa (Elliott ja Kadar, 2017) ja ehdollinen variaatioautomaattinen koodausmenetelmä (Toyama et al., 2016). Lopuksi näytämme parannuksia, jotka johtuvat (i) kuvan ominaisuuksien ennustamisesta niiden ehdollistamisen lisäksi, (ii) pakottamisesta KL-termiin edistämään malleja, joissa on merkityksetön keskinäistä tietoa syötteiden ja piilevän muuttujan välillä, ja (iii) kouluttamalla lisäkielen kuvakuvauksia (synteettistä tietoa).Abstract
Dans ce travail, nous proposons de modéliser l'interaction entre les caractéristiques visuelles et textuelles pour la traduction automatique neuronale (MMT) multimodale au moyen d'un modèle de variable latente. Cette variable latente peut être considérée comme une intégration stochastique multimodale d'une image et de sa description dans une langue étrangère. Il est utilisé dans un décodeur de langue cible et également pour prédire les caractéristiques de l'image. Il est important de noter que notre formulation de modèle utilise des entrées visuelles et textuelles pendant la formation, mais n'exige pas que les images soient disponibles au moment du test. Nous montrons que notre formulation MMT à variable latente s'améliore considérablement par rapport aux bases de référence solides, y compris une approche d'apprentissage multitâche (Elliott et Kadar, 2017) et une approche d'auto-encodeur variationnel conditionnel (Toyama et al., 2016). Enfin, nous montrons des améliorations dues (i) à la prédiction des caractéristiques de l'image en plus de leur conditionnement uniquement, (ii) à l'imposition d'une contrainte au terme KL pour promouvoir des modèles avec des informations mutuelles non négligeables entre les entrées et la variable latente, et (iii) à la formation sur des descriptions d'images supplémentaires dans la langue cible (c'est-à-dire des données synthétiques).Abstract
Sa saothar seo, tá sé beartaithe againn an t-idirghníomhú idir gnéithe amhairc agus téacsúla d’aistriúchán meaisín néareolaíoch ilmhódúil (MMT) a shamhaltú trí mhúnla athróg folaigh. Is féidir an athróg folaigh seo a fheiceáil mar leabú stochastic ilmhódúil ar íomhá agus ar a cur síos i dteanga iasachta. Úsáidtear é i ndíchódóir sprioctheanga agus freisin chun gnéithe íomhá a thuar. Is é an rud is tábhachtaí ná go n-úsáideann ár bhfoirmiú samhalta ionchuir amhairc agus téacs le linn na hoiliúna ach ní éilíonn sé go mbeadh íomhánna ar fáil ag am tástála. Léirímid go dtagann feabhas mór ar ár bhfoirmiú athróg folaigh MMT thar bhunlínte láidre, lena n-áirítear cur chuige foghlama il-tasc (Elliott agus Kadar, 2017) agus cur chuige uath-ionchódóra athraitheach coinníollach (Toyama et al., 2016). Ar deireadh, léirímid feabhsuithe mar gheall ar (i) gnéithe íomhá a thuar sa bhreis ar riochtú amháin orthu, (ii) srian a chur ar an téarma KL chun samhlacha a chur chun cinn le faisnéis fhrithpháirteach neamh-dhiomaibhseach idir ionchuir agus athróg folaigh, agus (iii) trí oiliúint ar chur síos breise íomhá sprioctheanga (i.e. sonraí sintéiseacha).Abstract
Daga wannan aikin, Munã kwaɗayin ka motsa interaction tsakanin fassarar masu gani da matsayi wa fassarar masu motsi na masu motsi na masu motsi na ƙarƙashin neural (MMT) kan wani motsi na daban-daban. @ action: button Yana amfani da cikin kodi-harshe na aimakin kuma don ya yi bayani ga zauren zane. Kima muhimu, diƙatan misalinmu na amfani da inputi masu gani da matsayi idan an yi amfani da shi a lokacin da aka amfani da shi, kuma bai ƙayyade ba da zane za'a iya sami da lokaci na jarraba. We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). Baƙari, Munã nũna mafiya kyau ko da (i) kaya gane wasu fassarai na zane ko da tsari kawai a kansu, (ii) za'a lazimta a kan muhalli KL dõmin ya promote motel wanda bã ya shagala da zane-zane tsakanin inputi da masu variant na ƙarani, kuma (i) da yin amfani da zane-zane-zane na ƙaranci (misali, data na haɗi).Abstract
בעבודה הזו, אנו מציעים לדוגמא את האינטראקציה בין תכונות ויזואליות והטקסטליות לתרגום מכונות עצביות רבות מודליות (MMT) דרך דוגמא משתנה מוסתרת. השתנה הסתורית הזו ניתן לראות כתוכנית סטוקאסטית מורכבת של תמונה ותיאור שלה בשפה זרה. הוא משתמש בתיקון שפת המטרה וגם כדי לחזות תכונות תמונה. חשוב ביותר, התצורת המודל שלנו משתמשת בכניסות ויזואליות ורקסטוליות במהלך האימונים, אך לא דורשת שתמונות יהיו זמינות בזמן הבדיקה. אנחנו מראים ששינוי MMT השתנה המוסתר שלנו משתפר באופן משמעותי על קווי בסיס חזקים, כולל גישה ללמוד במשימות רבות (Elliott and Kadar, 2017) ו גישה קודם אוטומטי שונה בתנאי (Toyama et al., 2016). Finally, we show improvements due to (i) predicting image features in addition to only conditioning on them, (ii) imposing a constraint on the KL term to promote models with non-negligible mutual information between inputs and latent variable, and (iii) by training on additional target-language image descriptions (i.e. synthetic data).Abstract
इस काम में, हम एक अव्यक्त चर मॉडल के माध्यम से बहु-मोडल न्यूरल मशीन अनुवाद (एमएमटी) के लिए दृश्य और पाठ्य सुविधाओं के बीच बातचीत को मॉडल करने का प्रस्ताव करते हैं। इस अव्यक्त चर को एक छवि के बहु-मोडल स्टोकेस्टिक एम्बेडिंग और एक विदेशी भाषा में इसके विवरण के रूप में देखा जा सकता है। इसका उपयोग लक्ष्य-भाषा विकोडक में किया जाता है और छवि सुविधाओं की भविष्यवाणी करने के लिए भी किया जाता है। महत्वपूर्ण रूप से, हमारा मॉडल सूत्रीकरण प्रशिक्षण के दौरान दृश्य और पाठ्य इनपुट का उपयोग करता है, लेकिन इसके लिए आवश्यक नहीं है कि छवियां परीक्षण समय पर उपलब्ध हों। हम दिखाते हैं कि हमारे अव्यक्त चर एमएमटी सूत्रीकरण मजबूत बेसलाइन पर काफी सुधार करता है, जिसमें एक बहु-कार्य सीखने का दृष्टिकोण (इलियट और कादर, 2017) और एक सशर्त भिन्नता ऑटो-एनकोडर दृष्टिकोण (टोयामा एट अल। अंत में, हम (i) उन पर केवल कंडीशनिंग के अलावा छवि सुविधाओं की भविष्यवाणी करने के कारण सुधार दिखाते हैं, (ii) इनपुट और अव्यक्त चर के बीच गैर-नगण्य पारस्परिक जानकारी वाले मॉडल को बढ़ावा देने के लिए केएल शब्द पर एक बाधा लागू करते हैं, और (iii) अतिरिक्त लक्ष्य-भाषा छवि विवरण (यानी सिंथेटिक डेटा) पर प्रशिक्षण द्वारा।Abstract
U ovom poslu predlažemo da modeliramo interakciju između vizuelnih i tekstualnih karakteristika za multimodalni prevod neuralnih strojeva (MMT) kroz latentni varijačni model. Ova latentna promjena se može smatrati multimodalnim stokastičnim uključenjem slike i opisa na stranom jeziku. Koristi se u dekoderu ciljnog jezika i predviđati karakteristike slike. Važno je, naša formulacija modela koristi vizuelne i tekstualne ulaze tijekom treninga, ali ne zahtijeva da slike budu dostupne u vrijeme testa. Pokazujemo da se naša latentna promjena MMT formulacija značajno poboljšava nad jakim osnovnim linijama, uključujući pristup učenja multizadataka (Elliott i Kadar, 2017) i uvjetni variacionalni pristup autokodiranja (Toyama et al., 2016). Napokon, pokazujemo poboljšanja zbog i) predviđanja karakteristika slika dodatno samo uvjetima na njih, ii) uložavanjem ograničenja na term in KL-a kako bi promovirali modele sa neozanemaljivim zajedničkim informacijama između ulaganja i poslednjih promjena, i iii) vježbama dodatnim opisima slika (tj. sintetičkih podataka).Abstract
Ebben a munkában azt javasoljuk, hogy a multimodális neurális gépi fordítás (MMT) vizuális és szöveges jellemzői közötti interakciót egy látens változó modell segítségével modellezzük. Ez a látens változó egy kép multimodális sztochasztikus beágyazásaként tekinthető idegen nyelvű leírásaként. A célnyelvű dekódolóban használják, valamint a képfunkciók előrejelzésére is. Fontos, hogy modellformációnk vizuális és szöveges bemeneteket használ az edzés során, de nem igényli, hogy a képek a tesztidőben elérhetők legyenek. Megmutatjuk, hogy a látens változó MMT formulációnk jelentősen javul az erős alapvonalakhoz képest, beleértve a többfeladatos tanulási megközelítést (Elliott és Kadar, 2017) és a feltételes variációs auto-encoder megközelítést (Toyama et al., 2016). Végezetül javulást mutatunk (i) a képfunkciók előrejelzése mellett, hogy csak kondicionáljuk őket, (ii) korlátozzuk a KL kifejezést a bemenetek és a látens változó közötti nem elhanyagolható kölcsönös információkkal rendelkező modellek előmozdítására, és (iii) további célnyelvű képfunkciók (azaz szintetikus adatok) képzésével.Abstract
Այս աշխատանքի ընթացքում մենք առաջարկում ենք մոդելավորել բազմամոդային նյարդային մեքենայի (ՄՄԹ) փոխազդեցությունը տեսողական և տեքստային հատկությունների միջև թաքնված փոփոխականի մոդելի միջոցով: Այս թաքնված փոփոխականը կարելի է դիտարկել որպես մի պատկերի բազմամոդալ ստոշաստիկ ներառում և դրա նկարագրությունը օտար լեզվով: Այն օգտագործվում է նպատակային լեզվի դեկոդերի մեջ, ինչպես նաև պատկերի հատկանիշների կանխատեսման համար: Ամեն կարևոր է, որ մեր մոդելը օգտագործում է տեսողական և տեքստալ ներմուծքներ ուսուցման ընթացքում, բայց չի պահանջում, որ պատկերները հասանելի լինեն թեստերի ժամանակ: Մենք ցույց ենք տալիս, որ մեր թաքնված փոփոխական ՄՄԹ ձևադրությունը մեծ բարելավում է ուժեղ հիմնական գծերում, ներառյալ բազմախնդիրների ուսումնասիրության մոտեցումը (Էլիոտ և Կադար 2017 թվականին) և պայմանավոր փոփոխական ավտոկոդերի մոտեցումը (Toyama et al., 2016 թ Վերջապես, մենք ցույց ենք տալիս բարելավումներ՝ i) պատկերի առանձնահատկությունների կանխատեսման պատճառով միայն նրանց վրա պայմանավորված պայմանավորման համար, i) հնարավորություն է տալիս ՔԼ տերմին պայմանավորելու համար, որպեսզի խրախուսենք մոդելներ, որոնք ունեն ոչ աննշան փոխադարձ տեղեկատվություն ներմուծների և թաքնված փոփոխականների միջևAbstract
Dalam pekerjaan ini, kami mengusulkan untuk model interaksi antara karakteristik visual dan tekstual untuk terjemahan mesin saraf multi modal (MMT) melalui model variabel latent. Variabel latent ini dapat dilihat sebagai pembangunan stokastik multi modal dari gambar dan deskripsinya dalam bahasa asing. Ini digunakan dalam dekoder bahasa-sasaran dan juga untuk memprediksi fitur gambar. Yang penting, formulasi model kami menggunakan input visual dan tekstual selama latihan tapi tidak membutuhkan bahwa gambar tersedia pada waktu tes. Kami menunjukkan bahwa formulasi variabel MMT latent kami meningkat jauh di atas garis dasar yang kuat, termasuk pendekatan belajar multi-tugas (Elliott dan Kadar, 2017) dan pendekatan variasional auto-encoder syarat (Toyama et al., 2016). Akhirnya, kami menunjukkan peningkatan karena (i) memprediksi fitur gambar selain hanya kondisi pada mereka, (ii) memaksa batas pada istilah KL untuk mempromosikan model dengan informasi reciproc yang tidak neglisibel antara masukan dan variabel latent, dan (iii) melatih pada deskripsi gambar bahasa-sasaran tambahan (i.e. data sintetis).Abstract
In questo lavoro, proponiamo di modellare l'interazione tra caratteristiche visive e testuali per la traduzione automatica neurale multimodale (MMT) attraverso un modello variabile latente. Questa variabile latente può essere vista come un incorporamento stocastico multimodale di un'immagine e la sua descrizione in una lingua straniera. Viene utilizzato in un decoder in lingua di destinazione e anche per prevedere le caratteristiche dell'immagine. È importante sottolineare che la nostra formulazione del modello utilizza input visivi e testuali durante l'allenamento, ma non richiede che le immagini siano disponibili al momento del test. Mostriamo che la nostra formulazione MMT variabile latente migliora notevolmente rispetto a linee di base forti, tra cui un approccio di apprendimento multi-task (Elliott e Kadar, 2017) e un approccio condizionale variazionale auto-encoder (Toyama et al., 2016). Infine, mostriamo miglioramenti dovuti (i) alla previsione delle caratteristiche dell'immagine oltre a condizionarle, (ii) all'imposizione di un vincolo al termine KL per promuovere modelli con informazioni reciproche non trascurabili tra input e variabile latente, e (iii) alla formazione su ulteriori descrizioni delle immagini in lingua di destinazione (cioè dati sintetici).Abstract
本研究では,潜在変数モデルを通じてマルチモーダルニューラルマシン翻訳( MMT )の視覚的特徴とテキスト的特徴の相互作用をモデル化することを提案した. この潜在変数は、画像のマルチモーダル確率的埋め込みと外国語での説明と見なすことができる。 ターゲット言語のデコーダで使用され、画像の特徴を予測するためにも使用されます。 重要なことに、当社のモデルの定式化は、トレーニング中に視覚的およびテキスト的な入力を利用しますが、テスト時に画像を利用できる必要はありません。 我々の潜在的可変MMT製剤は、マルチタスク学習アプローチ( Elliott and Kadar, 2017 )および条件付き変動型オートエンコーダーアプローチ( Toyama et al., 2016 )を含む、強力なベースラインを超えて大幅に改善されることを示している。 最後に、(i)画像特徴の予測に加えて、それらに条件を付けること、(ii) KL用語に制約を課して、入力と潜在的な変数の間に無視できない相互情報を持つモデルを促進すること、(iii)追加のターゲット言語の画像記述(すなわち、合成データ)に関するトレーニングによる改善を示します。Abstract
string" in "context_BAR_stringLink change Digawe Nyong ngomong, ngerti model sing iso nggambar tarjamahan lan gambar textual Awak dhéwé menehi tanggal sing paling-sistem SMT dumadhi nggawe barang-sistem sing ngawe barang nggawe barang nggawe sawar banter text-tool-actionAbstract
ამ სამუშაოში ჩვენ მინდომებით ვიზუალური და ტექსტულური ფუნქციების მოდელური მონაცემებისთვის მრავალური ნეიროლური მაქსინის გარგუმარებისთვის (MMT) მოდელური მო ეს ლეტენტიური ცვლილები შეიძლება იყოს მრავალური მოდიალური სტაქტიური დაყენება გამოსახულების და მისი გამოსახულება შორის ენაში. ეს მომხმარებულია სიტყვის დეკოდირებში და ასევე გამოსახულებლად გამოყენება. მნიშვნელოვანია, ჩვენი მოდელური ფორმულაცია ვიზუალური და ტექსტულური მონაცემების გამოყენებაში, მაგრამ არ გვჭირდება, რომ გამოყენებები ტექსტის დროში იყოს ჩვენ გამოჩვენებთ, რომ ჩვენი ლეტენტიური ცვლილები MMT ფორმაცია ძალიან ძალიან ფესური ხაზების შესაძლებლობად უფრო მეტი დავიწყება, როგორც მრავალური დასწავლების გასწავლობა (Elliott და Kadar, 2017) და შესაძლებელი გარიაცი საბოლოოდ, ჩვენ ჩვენ ჩვენ ჩვენ ჩვენ ჩვენ აჩვენებთ i) გამოსახულების ფუნქციების დამატებით მხოლოდ კონდიციონციონციონციების დამატებით, ii) კონდიციონციონციონციონციონციონციების მოდულების შესახებ მოდელების შესახებ, რომლებიც არ შეუძლებელიაAbstract
Бұл жұмыс ішінде біз көп модельді невралдық компьютердің аудармасының (MMT) арқылы келесі айнымалы үлгісімен визуалдық мен мәтіннің қасиеттері арасындағы қатынастығын үлгілеу үшін ұ Кескінді және оның сипаттамасы сыртқы тілде көп модалдық стохаттық ендіру ретінде көрсетіледі. Бұл мақсатты тілді декодерде қолданылады, сондай-ақ кескінің мүмкіндіктерін алдын алау үшін қолданылады. Мүмкін емес, біздің үлгі формулациямыз оқыту кезінде визуалды және мәтіндік кірістерін қолданады, бірақ кескіндерді тексеру кезінде қол жеткізу керек емес. Көп тапсырмаларды оқыту арқылы (Elliott және Kadar, 2017) және шарт айнымалы автокодер арқылы (Toyama et al., 2016) дегенді көрсету үшін, MMT формулациямыз күшті негізгі сызықтардан өте жақсартылады. Соңында, кескінің қасиеттерін тек шарттарына қосымша, i) деген кескіннің қасиеттері үшін жақсартылығын көрсету үшін, ii) кескіннің қасиеттері мен соңғы айнымалылығының арасындағы үлгілерді көмектесу үшін, мәліметтерді көмектесу үшін KL терминіне шектеу үшін, кескінніңAbstract
이 작업에서 우리는 다중모드신경기계번역(MMT)의 시각과 텍스트 특징 간의 상호작용 모델을 잠재적 변수 모델을 통해 제안한다.이 잠재적인 변수는 다중모드가 무작위로 삽입된 이미지와 묘사된 외국어로 볼 수 있다.이것은 목표 언어 디코더에 사용되며, 이미지 특징을 예측하는 데도 사용된다.중요한 것은 우리의 모델 공식은 훈련 기간에 시각과 텍스트 입력을 사용하지만 테스트할 때 이미지를 제공하지 않는다는 것이다.우리의 잠재 변수인 MMT 공식은 다중 임무 학습 방법(Elliott와 Kadar, 2017)과 조건 변분 자동 인코더 방법(Toyama 등, 2016)을 포함하여 강기선 아래에서 현저하게 개선되었다고 밝혔다.마지막으로 우리는 (i) 예측 이미지 특징과 그것만 조절하고 (ii) KL항에 제약을 가해 입력과 잠재적 변수 사이에 무시할 수 없는 상호 정보를 가진 모델을 추진하고 (iii)가 추가 목표 언어의 이미지 설명(즉 합성 데이터)을 훈련함으로써 개선된 것을 보여 주었다.Abstract
Šiame darbe siūlome modeliuoti vaizdinių ir tekstinių savybių tarpusavio sąveiką daugiarūšio nervinių mašinų vertimui (MMT) naudojant latentinį kintamąjį model į. Šis latentinis kintamasis gali būti laikomas daugiarūšio vaizdo stochastiniu įdėjimu ir jo aprašymu užsienio kalba. Jis naudojamas tikslinės kalbos dekoderiui ir vaizdo savybėms prognozuoti. Svarbu, kad mokymo metu mūsų modelio formuluotėje naudojami vizualieji ir tekstiniai įvedimai, tačiau nereikalaujama, kad vaizdai būtų prieinami bandymo metu. Mes rodome, kad mūsų latentiška kintamoji MMT formuluotė gerokai pagerėja remiantis tvirtais baziniais principais, įskaitant daugiafunkcinio mokymosi metodą (Elliott ir Kadar, 2017 m.) ir sąlyginį kintamąjį automatinio kodavimo metodą (Toyama et al., 2016 m.). Galiausiai rodome patobulinimus dėl i) numatomų vaizdo charakteristikų be tik jų sąlygų, ii) KL termino apribojimo skatinant modelius, turinčius nereikšmingą abipusę informaciją tarp įvedimų ir latent in i ų kintamųjų, ir iii) rengiant papildomus tikslinės kalbos vaizdo aprašymus (t. y. sintetinius duomenis).Abstract
Во оваа работа, предлагаме да се моделира интеракцијата помеѓу визуелните и текстуалните карактеристики за мултимодалниот нервен превод (ММТ) преку лантен променлив модел. Оваа лантна променлива може да се гледа како мултимодална стохастична вградба на слика и нејзиниот опис на странски јазик. Истиот се користи во декодерот на јазикот на метата и исто така за предвидување на карактеристиките на сликата. Важно е, нашата формулација на моделот користи визуелни и текстуални влози за време на обуката, но не бара слики да бидат достапни во време на тестот. We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). Конечно, покажуваме подобрувања поради (i) предвидувањето на карактеристиките на сликата, покрај само условувањето на нив, (ii) наметнување ограничување на терминот на КЛ за промовирање на модели со незабележувачки взаемни информации помеѓу влозите и лантните променливи, и (iii) обука на дополнителни описи на сликите на јазикот на целта (т.еAbstract
ഈ പ്രവര്ത്തനത്തില്, നമ്മുടെ പ്രൊദ്ദേശിപ്പിക്കുന്നത് കാഴ്ചകള്ക്കും ടെക്സ്കൂളിലുമുള്ള വിശേഷതകള് ഈ അവസാനത്തെ മാറ്റങ്ങള് ഒരു ചിത്രത്തിന്റെ അകത്തേക്ക് കയറ്റുന്നതിനും അതിന്റെ വിവരണവും വിദേശ ഭാഷയില് കാണാന് കഴിയും. ലക്ഷ്യഭാഷയുടെ ഡെക്കോഡെരില് ഇത് ഉപയോഗിക്കുന്നു. ചിത്രം പ്രവചിക്കാനും. പ്രധാനപ്പെട്ടത്, നമ്മുടെ മോഡല് ഫോര്മുലേഷന് പരിശീലന സമയത്ത് കാഴ്ചകളും ടെക്സ്കൂള് ഇന്പുട്ടുകളും ഉപയോഗിക്കുന്നു. പക്ഷ We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). അവസാനം (i) ഇമേജ് പ്രവചിക്കുന്നതിന് കൂടാതെ മുന്നറിയിപ്പ് കാണിക്കുന്നു (i) അവയുടെ മേല് മാത്രമേ നിശ്ചയിക്കുന്നുള്ളൂ, (ii) കെഎല് വാക്കുകളില് ഒരു നിയന്ത്രണമുണ്ടാക്കുന്നു. ഇന്പുട്ടുകള്Abstract
Энэ ажлын тулд бид олон моделийн мэдрэлийн механикийн хөрөнгө оруулалтын (MMT) харилцааны хоорондын харилцааны загварыг загварчлахыг санал болгодог. Энэ ширээний өөрчлөлт зураг болон түүний тодорхойлолтыг гадаад хэл дээр олон модалын stochastic болгож харагдаж болно. Энэ нь зорилготой хэл загварчлагч дээр хэрэглэгддэг, мөн зурагтай өөрчлөлтийг таамаглах хэрэгтэй. Маш чухал нь бидний загварын томъёо нь сургалтын үед үзүүлэлтийн болон текстурын ингээд ашигладаг, гэхдээ шалгалтын үед зураг хэрэглэх хэрэггүй. Бид өнгөрсөн өөрчлөлтийн MMT томъёо нь маш хүчтэй үндсэн шугам дээр илүү сайжруулж, олон ажлын суралцах арга зам (Elliott, Kadar, 2017) болон нөхцөл өөрчлөлтийн автокодлогч арга зам (Toyama et al., 2016). Эцэст нь, бид зөвхөн нөхцөл байдлыг нэмэхэд i) хэлбэрийн хувьцааны шинжлэх ухааны шалтгаан дээр сайжруулагдсан, ii) хэлбэрийн дүрслэлүүд болон хамгийн сүүлийн хувьцааны хоорондын харилцааны мэдээллийг дэмжихийн тулд загварыг KL-н томъёог хязгаарлах, мөн iii) хэлбэрийнAbstract
Dalam kerja ini, kami cadangkan untuk modelkan interaksi antara ciri-ciri visual dan teks untuk terjemahan mesin saraf multi modal (MMT) melalui model pembolehubah tersembunyi. Pembolehubah tersembunyi ini boleh dilihat sebagai penyembelihan stokastik multi modal imej dan keterangannya dalam bahasa asing. Ia digunakan dalam penyahkod bahasa sasaran dan juga untuk meramalkan ciri-ciri imej. Yang penting, bentuk model kami menggunakan input visual dan teks semasa latihan tetapi tidak memerlukan imej tersedia pada masa ujian. Kami menunjukkan bahawa formulasi pembolehubah MMT yang tersembunyi kami meningkat jauh di atas garis dasar yang kuat, termasuk pendekatan pembelajaran multi-tugas (Elliott dan Kadar, 2017) dan pendekatan auto-pengekod variasi syarat (Toyama et al., 2016). Akhirnya, kami menunjukkan peningkatan disebabkan (i) meramalkan ciri-ciri imej selain daripada hanya berkundisi pada mereka, (ii) memaksa keterangan pada term a KL untuk mempromosikan model dengan maklumat yang sama antara input dan pembolehubah yang tersembunyi yang tidak terlepas, dan (iii) melatih pada deskripsi imej bahasa-sasaran tambahan (iaitu data sintetik).Abstract
F’dan ix-xogħol, qed nipproponu li nimmudellaw l-interazzjoni bejn il-karatteristiċi viżivi u tessili għat-traduzzjoni ta’ magni newrali multimodali (MMT) permezz ta’ mudell varjabbli moħbi. Din il-varjabbli moħbija tista’ titqies bħala inkorporazzjoni stokastika multimodali ta’ immaġni u d-deskrizzjoni tagħha f’lingwa barranija. Jintuża f’dekoder tal-lingwa fil-mira u wkoll biex jipprevedi l-karatteristiċi tal-immaġni. B’mod importanti, il-formulazzjoni tal-mudell tagħna tuża inputs viżwali u testwali matul it-taħriġ iżda ma teħtieġx li l-immaġni jkunu disponibbli fil-ħin tat-test. Aħna nuru li l-formulazzjoni varjabbli moħbija tagħna tal-MMT titjieb konsiderevolment fuq linji bażi b’saħħithom, inkluż approċċ ta’ tagħlim b’ħafna kompiti (Elliott u Kadar, 2017) u approċċ ta’ awto-kodifikatur varjazzjonali kondizzjonali (Toyama et al., 2016). Fl-a ħħar nett, nagħmlu titjib minħabba (i) it-tbassir tal-karatteristiċi tal-immaġni minbarra l-kundizzjonar biss fuqhom, (ii) l-impożizzjoni ta’ restrizzjoni fuq it-terminu KL biex jiġu promossi mudelli b’informazzjoni reċiproka mhux negliġibbli bejn l-inputs u l-varjabbli moħbija, u (iii) bit-taħriġ dwar deskrizzjonijiet addizzjonali tal-immaġni fil-lingwa fil-mira (jiġifieri dejta sintetika).Abstract
In dit werk stellen we voor om de interactie tussen visuele en tekstuele kenmerken voor multimodale neurale machinevertaling (MMT) te modelleren via een latent variabele model. Deze latente variabele kan worden gezien als een multimodale stochastische inbedding van een beeld en de beschrijving ervan in een vreemde taal. Het wordt gebruikt in een doeltaaldecoder en ook om beeldkenmerken te voorspellen. Belangrijk is dat onze modelformulering gebruik maakt van visuele en tekstuele inputs tijdens de training, maar vereist niet dat beelden beschikbaar zijn op het testmoment. We laten zien dat onze latente variabele MMT formulering aanzienlijk verbetert ten opzichte van sterke baselines, waaronder een multi-task leerbenadering (Elliott en Kadar, 2017) en een voorwaardelijke variatie auto-encoder benadering (Toyama et al., 2016). Tot slot laten we verbeteringen zien door (i) het voorspellen van beeldkenmerken naast het alleen conditioneren ervan, (ii) het opleggen van een beperking op de KL-term om modellen te promoten met niet-verwaarloosbare wederzijdse informatie tussen inputs en latente variabele, en (iii) door training op aanvullende beeldbeschrijvingen in de doeltaal (d.w.z. synthetische data).Abstract
I denne arbeida foreslår vi å modellere interaksjonen mellom visuelle og tekstuelle funksjonar for fleire modal neuralmaskinsomsetjing (MMT) gjennom ein latent variabel modell. Denne latente variabelen kan verta sett som ein fleire modal stokastisk innbygging av eit bilete og beskriving i eit fremd språk. Dette blir brukt i eit målspråk-dekoder og også for å foregå biletfunksjonar. Det er viktig at modelleformasjonen vårt brukar visuelle og tekstinndata under opplæring, men treng ikkje at bilete er tilgjengelege ved testtid. Vi viser at vår latent variabel MMT-formasjon forbetrar mykje over sterke baselinjer, inkludert ein tilnærming med fleire oppgåver (Elliott og Kadar, 2017) og ein variabel automatisk koderingstilnærming (Toyama et al., 2016). I slutt viser vi forbetringar på grunn av i) forhåndsvising av biletfunksjonar i tillegg til berre kondicionasjon på dei, ii) legg e in begrensning på KL- uttrykket for å promotera modeller med ikkje-neglig mellom inndata og latere variabel, og iii) ved å opplæra fleire målspråkkskildringar (t.d. syntetiske data).Abstract
W niniejszej pracy proponujemy modelowanie interakcji pomiędzy cechami wizualnymi i tekstowymi dla multimodalnego neuronowego tłumaczenia maszynowego (MMT) za pomocą modelu zmiennej utajonej. Ta skryta zmienna może być postrzegana jako multimodalne stochastyczne osadzenie obrazu i jego opisu w języku obcym. Jest on używany w dekoderze języka docelowego, a także do przewidywania cech obrazu. Co ważne, nasza formuła modelu wykorzystuje dane wizualne i tekstowe podczas treningu, ale nie wymaga, aby obrazy były dostępne w czasie testu. Pokazujemy, że nasza formuła ukrytej zmiennej MMT znacznie poprawia się nad silnymi liniami bazowymi, w tym wielozadaniowe podejście do uczenia się (Elliott i Kadar, 2017) oraz warunkowe podejście do automatycznego kodowania wariancji (Toyama et al., 2016). Wreszcie pokazujemy ulepszenia wynikające z (i) przewidywania cech obrazu oprócz tylko ich uwarunkowania, (ii) nakładania ograniczeń na termin KL w celu promowania modeli o nieznacznej wzajemnej informacji między wejściami a zmienną utajoną oraz (iii) poprzez szkolenie z dodatkowymi opisami obrazów języka docelowego (tj. danych syntetycznych).Abstract
Neste trabalho, propomos modelar a interação entre recursos visuais e textuais para tradução automática neural multimodal (MMT) por meio de um modelo de variável latente. Essa variável latente pode ser vista como uma incorporação estocástica multimodal de uma imagem e sua descrição em uma língua estrangeira. Ele é usado em um decodificador de idioma de destino e também para prever recursos de imagem. É importante ressaltar que nossa formulação de modelo utiliza entradas visuais e textuais durante o treinamento, mas não exige que as imagens estejam disponíveis no momento do teste. Mostramos que nossa formulação MMT de variável latente melhora consideravelmente em linhas de base fortes, incluindo uma abordagem de aprendizado multitarefa (Elliott e Kadar, 2017) e uma abordagem de autocodificador variacional condicional (Toyama et al., 2016). Por fim, mostramos melhorias devido a (i) prever características da imagem além de apenas condicioná-las, (ii) impor uma restrição ao termo KL para promover modelos com informações mútuas não desprezíveis entre entradas e variável latente, e (iii) treinando em descrições adicionais de imagens no idioma de destino (ou seja, dados sintéticos).Abstract
În această lucrare, propunem modelarea interacțiunii dintre caracteristicile vizuale și textuale pentru traducerea automată neurală multimodală (MMT) printr-un model variabil latent. Această variabilă latentă poate fi văzută ca o încorporare stocastică multimodală a unei imagini și a descrierii sale într-o limbă străină. Este folosit într-un decodor de limbă țintă și, de asemenea, pentru a prezice caracteristicile imaginii. Este important ca formularea modelului nostru utilizează intrări vizuale și textuale în timpul antrenamentului, dar nu necesită ca imaginile să fie disponibile în timpul testului. Vom arăta că formula noastră MMT variabilă latentă se îmbunătățește considerabil față de liniile de bază puternice, inclusiv o abordare de învățare multi-task (Elliott și Kadar, 2017) și o abordare condiționată variațională auto-encoder (Toyama et al., 2016). În cele din urmă, prezentăm îmbunătățiri datorate (i) prezicerii caracteristicilor imaginii pe lângă condiționarea lor, (ii) impunerii unei constrângeri asupra termenului KL pentru a promova modele cu informații reciproce non-neglijabile între intrări și variabila latentă și (iii) instruirii privind descrieri suplimentare ale imaginilor în limba țintă (adică date sintetice).Abstract
В данной работе предлагается моделировать взаимодействие визуальных и текстовых признаков для мультимодального нейронного машинного перевода (ММТ) через латентную переменную модель. Эта скрытая переменная может рассматриваться как мультимодальное стохастическое вложение изображения и его описание на иностранном языке. Используется в декодере целевого языка, а также для прогнозирования особенностей изображения. Важно отметить, что в нашей модели используются визуальные и текстовые входные данные во время обучения, но не требуется, чтобы изображения были доступны во время тестирования. Мы показываем, что наша формулировка латентной переменной MMT значительно улучшается по сравнению с сильными базовыми линиями, включая подход многозадачного обучения (Elliott and Kadar, 2017) и подход условного вариационного автокодирования (Toyama et al., 2016). Наконец, мы показываем улучшения благодаря (i) прогнозированию признаков изображения в дополнение к только их кондиционированию, (ii) наложению ограничения на термин KL для продвижения моделей с не ничтожно малой взаимной информацией между входами и скрытой переменной, и (iii) обучению дополнительным описаниям изображений на целевом языке (т.е. синтетическим данным).Abstract
මේ වැඩේ අපි ප්රයෝජනය කරනවා විශේෂ වෙනස් මොඩියෝල් න්යූරාල් මැෂින් වාර්ථාව (MMT) වලින් වෙනස් මොඩියේලන් වලින් මෙම පින්තූරයක් සහ පින්තූරයක් විශේෂ භාෂාවක් වලින් මෙම වෙනස් වෙනස් විදිහට බලන්න පුළුවන්. ඒක ඉලක්ක-භාෂාව සංකේතකයෙන් භාවිතා කරනවා සහ පින්තූර සුළුවන් අනතුරු කරන්න. වැදගත්, අපේ මොඩේල් සූදානම් ප්රයෝජනය ප්රයෝජනය සහ පාළුවන් ප්රයෝජනය ප්රයෝජනය කරනවා නමුත් පින්තූ අපි පෙන්වන්නේ අපේ ලේටින් වෙනස් MMT සංවිධානයක් බලාපොරොත්තු ප්රධාන ප්රධානයක් වඩා වැඩි වැඩි වෙනවා කියලා, බොහොම වැඩි වැඩි විදියට ඉගෙන ගන්න ප අන්තිමේදී, අපි පින්තූර සැකසුම් සඳහා පින්තූර සැකසුම් සඳහා පෙන්වන්න පුළුවන් පෙන්වන්න පුළුවන් පෙන්වන්න පුළුවන් පෙන්වන්න පුළුවන් පෙන්වන්න පුළුවන් පුළුවන් විතරAbstract
V tem delu predlagamo modeliranje interakcije med vizualnimi in besedilnimi značilnostmi za multimodalni nevronski strojni prevod (MMT) s pomočjo latentnega modela spremenljivk. Ta latentna spremenljivka se lahko obravnava kot multimodalna stohastična vdelava slike in njenega opisa v tujem jeziku. Uporablja se v dekoderju ciljnega jezika in tudi za napovedovanje značilnosti slike. Pomembno je, da naša formulacija modela med vadbo uporablja vizualne in besedilne vnose, vendar ne zahteva, da so slike na voljo v času preskusa. Pokazali smo, da se naša latentna variabilna formulacija MMT znatno izboljša v primerjavi z močnimi osnovnimi linijami, vključno s pristopom večopravilnega učenja (Elliott in Kadar, 2017) in pristopom pogojnega variacijskega samokodiranja (Toyama et al., 2016). Nazadnje smo prikazali izboljšave zaradi (i) napovedovanja značilnosti slike poleg samo pogojevanja nanje, (ii) uvedbe omejitve izraza KL za promocijo modelov z nezanemarljivimi medsebojnimi informacijami med vhodnimi in latentnimi spremenljivkami ter (iii) usposabljanja o dodatnih opisih slik v ciljnem jeziku (tj. sintetičnimi podatki).Abstract
Markaas waxan shaqada, waxaynu soo jeedaynaa in aan sameyno isku xiriirka muuqashada iyo dhaqanka u dhexeeya tusaale u bedela. Muuqashadan ugu dambeeya waxaa looga muujin karaa mid ku qoran sawir kala duduwan iyo tilmaankeeda af qalaad. Waxaa lagu isticmaalaa kaararka luqada goalka ah iyo sidoo kale in lagu sii sheego aqoonta sawirka. Si muhiim ah, qaabilaadda modellkayagu wuxuu isticmaalaa wax arag iyo qoraal ah marka lagu baranayo, laakiin uma baahna in sawirku helo waqtiga imtixaanka. Waxaynu muujinnaa in horumarintayada ugu dambeeyay ee MMT uu si weyn ugu bedelay saldhigyada xoogga leh, kuwaas oo ku jira qaabab waxbarasho badan (Elliott iyo Kadar, 2017) iyo qaab ka bedela qoraal ah oo u bedela qoraalka iskuulka ah (Toyama et al., 2016). Finally, we show improvements due to (i) predicting image features in addition to only conditioning on them, (ii) imposing a constraint on the KL term to promote models with non-negligible mutual information between inputs and latent variable, and (iii) by training on additional target-language image descriptions (i.e. synthetic data).Abstract
Në këtë punë, propozojmë të modelojmë ndërveprimin midis karakteristikave vizuale dhe tekstuale për përkthimin e makinës nervore multimodale (MMT) nëpërmjet një modeli të ndryshueshëm të fshehtë. Ky ndryshues latent mund të shihet si një përfshirje stokastike multimodale e një imazhi dhe përshkrimi i saj në një gjuhë të huaj. Përdoret në një dekoder gjuhës-objektiv dhe gjithashtu për të parashikuar karakteristikat e imazhit. Më e rëndësishme është që formulimi ynë i modelit përdor hyrjet vizuale dhe tekstuale gjatë trajnimit por nuk kërkon që imazhet të jenë në dispozicion në kohën e testit. We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). Më në fund, ne tregojmë përmirësime për shkak të (i) parashikimit të karakteristikave të imazhit përveç kushtëzimit të tyre, (ii) vendosjes së një kufizimi në term in KL për të nxitur modele me informacion të ndërsjelltë jo të pakujdesshëm midis hyrjeve dhe ndryshuesve të fshehtë dhe (iii) duke trajnuar përshkrimet shtesë të imazhit në gjuhën e objektivit (pra të dhënat sintetike).Abstract
U ovom poslu predlažemo da modeliramo interakciju između vizuelnih i tekstualnih karakteristika za multimodalni prevod neuralnih strojeva (MMT) kroz latentni varijabilni model. Ova latentna varijanta se može videti kao multimodalna stokastična uključenja slike i opisa na stranom jeziku. Koristi se u dekodiranju jezika cilja i predviđati karakteristike slika. Važno je, naša formulacija modela koristi vizuelne i tekstualne ulaznice tokom treninga, ali ne zahteva da slike budu dostupne na vrijeme testa. Pokazujemo da se naša latentna promjena MMT formulacija značajno poboljšava nad jakim osnovnim linijama, uključujući pristup multi task učenja (Elliott i Kadar, 2017) i uvjetni variacionalni autokodirani pristup (Toyama et al., 2016). Konačno pokazujemo poboljšanja zbog i) predviđanja karakteristika slika, dodatno samo kondicioniranja na njih, ii) nameštajući ograničenje na term in KL-a da promoviramo modele sa neozanemaljivim zajedničkim informacijama između ulaganja i poslednjih promjena, i iii) vežbama dodatnim opisima slika na ciljevima (tj. sintetičkih podataka).Abstract
I detta arbete föreslår vi att modellera interaktionen mellan visuella och textmässiga funktioner för multimodal neural maskinöversättning (MMT) genom en latent variabel modell. Denna latenta variabel kan ses som en multimodal stokastisk inbäddning av en bild och dess beskrivning på ett främmande språk. Den används i en målspråksdekodare och även för att förutsäga bildfunktioner. Viktigt är att vår modellformulering använder visuella och textmässiga input under träning men kräver inte att bilder är tillgängliga vid testtillfället. Vi visar att vår latenta variabel MMT formulering förbättras avsevärt jämfört med starka baslinjer, inklusive en multi-task learning approach (Elliott och Kadar, 2017) och en villkorad variationell auto-encoder approach (Toyama et al., 2016). Slutligen visar vi förbättringar på grund av (i) förutsägelse av bildfunktioner utöver att endast konditionera dem, (ii) införande av en begränsning på KL-termen för att främja modeller med icke försumbar ömsesidig information mellan indata och latent variabel, och (iii) utbildning i ytterligare målspråk bildbeskrivningar (dvs syntetiska data).Abstract
Katika kazi hii, tunapendekeza kuonyesha mahusiano kati ya vipindi vya kuona na viungo vya maandiko kwa ajili ya kutafsiri mashine kadhaa ya ubongo (MMT) kupitia modeli ya mabadiliko ya hivi karibuni. Mabadiliko haya ya hivi karibuni yanaweza kuonekana kama kitendo kinachotengenezwa kwa picha na maelezo yake kwa lugha ya kigeni. Imetumiwa kwa lugha ya lengo na pia kutabiri picha. Kimuhimu, utengenezaji wa modeli wetu unatumia vitu vya kuona na viungo vya maandishi wakati wa mafunzo lakini haihitaji picha zinazopatikana wakati wa jaribio. We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). Mwisho, tunaonyesha maendeleo kutokana na (I) kutabiri vipengele vya picha pamoja na hali pekee juu yao, (i i) kuweka vikwazo juu ya neno la KL ili kukuza mifano yenye taarifa zisizo na maana ya kijinga kati ya input na mabadiliko ya hivi karibuni, na (iii) kwa mafunzo ya maelezo ya picha za kuongezea lugha ya lengo (yaani takwimu za pamoja).Abstract
இந்த வேலையில், நாம் பார்வையும் உரையுடைய தன்மைகளுக்கும் இடையே உள்ள இடைவெளிப்பாட்டை மாற்ற விரும்புகிறோம். பல மாதிரி மாறிய மாதிரி இந்த சமீபத்தில் மாறிகள் பிம்பத்தின் உள்ளடக்கம் மற்றும் அதன் விவரம் வெளிநாட்டு மொழியில் பல- மாறிகளாக பார்க்கலாம். இலக்கு- மொழி குறியீட்டில் பயன்படுத்தப்படுகிறது மற்றும் பிம்பத்தின் குணங்களை முன்காட்டுகிறது. முக்கியமானது, எங்கள் மாதிரி வடிவமைப்பு பயிற்சியில் பார்வையும் உருவாக்குதலையும் பயன்படுத்துகிறது, ஆனால் சோதனையில் பிம நமது சமீபத்தில் MMT வடிவமைப்பு வலிமை அடிக்கோடுகளை மேலும் மேம்படுத்துகிறது என்பதை நாம் காண்பிக்கிறோம். பல பணி கற்றுக்கொள்ளும் வழிமுறையையும் (எலிலட்டும் க இறுதியில், நாம் (i) பிம்பங்களை முன்னேற்றுதல் காரணமாக காண்பிக்கிறோம் அவர்கள் மீது மட்டும் நிபந்தனைக்கூடிய பிம்பங்களுக்குச் சேர்த்து, (ii) உள்ளீடுகள் மற்றும் சமீபத்தில் மாறிகளுக்கும் இடையேAbstract
Bu işde, çoklu modal nöral makine çevirisi (MMT) için görüntüli ve metin özellikleri arasındaki etkileşimi örneklendirmeyi teklif ediyoruz. Bu geçen üýtgeşikleri suratyň we taýdan dili içinde görkezilip biler. Bu ýer bir maksady dil kodçysynda ullanylýar we surat üpjüňlerini çaklamak üçin ullanylýar. Mümkin däl, biziň nusgamyz görsel we metin girdilerini okuw wagtynda ulanýar, ýöne suratlaryň testiň wagtynda mejbur bolmagyny gerek däl. Biz son değişkenimiz MMT formülasyonumuz güçlü tabanlıklar üzerinde önemli şekilde gelişen bir çoklu görev öğrenme metodumu (Elliott ve Kadar, 2017) ve şartlı değişkenli ototik kodlayıcı yaklaşımı (Toyama et al., 2016). Soňunda, we görkezilýän surat üýtgewleri diňe şartlar bilen birleşdirmek üçin (i) töwereklerinden gelişmeleri görkezýäris, (ii) giriş we soňky üýtgewler arasynda märeler ýok maglumatlary terjime etmek üçin KL termyna süýtgetmek üçin döwletleri görkezýäris we (iii) golaý hedef-dil surat tasvir etmek üçin (i.e. syntetik maglumatlar).Abstract
ہم اس کام میں ایک لاٹینٹ ویرائیٹ موڈل کے ذریعہ سے بینال اور متکسل فوکیلوں کے درمیان تخلیق کی مدل کرنے کی پیشنهاد کرتے ہیں. یہ لاٹینٹ ویرائیٹ کو ایک تصویر اور اس کی توصیف خارجی زبان میں multi modal stochastic بنا کر دیکھ سکتا ہے. یہ ایک موجود زبان ڈیکوڈر میں استعمال کیا جاتا ہے اور تصویر ویژگی کی پیش بینی کے لئے بھی۔ اہم بات ہے کہ ہماری مدل فرمولٹ ٹرینگ کے وقت visual اور textual inputs کو استعمال کرتا ہے لیکن اس کی ضرورت نہیں ہے کہ تصاویر آزمائش کے وقت موجود ہوں. ہم دکھاتے ہیں کہ ہماری لاٹینٹی ویرئیٹ MMT فرمول مضبوط بنسس لینوں پر بہت زیادہ بہتر ہوتی ہے، ایک multi-task learning approach (Elliott and Kadar, 2017) اور ایک conditional variational auto-encoder approach (Toyama et al., 2016). آخر میں ہم صرف ان پر کنڈیسینگ کے علاوہ (i) تصویر کے فرضیوں کی پیش بینی کی وجہ سے بہترین طریقے کو دکھاتے ہیں (ii) ان کے اندر ماڈلوں اور لٹینٹ ویرائیج کے درمیان غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غیر غAbstract
Bu ishda biz bir necha modal neural tarjima (MMT) bilan bir xil variable modeli orqali koʻrinish va matn xossalarining orasidagi interfektni modellashni tahlil qilamiz. Name Name Muhimlik bo'lsa, modelimiz taʼminlovchi vaqtda visual va matn tarkibini ishlatiladi, lekin sinov vaqtda rasmlar mavjud boʻlishi kerak emas. We show that our latent variable MMT formulation improves considerably over strong baselines, including a multi-task learning approach (Elliott and Kadar, 2017) and a conditional variational auto-encoder approach (Toyama et al., 2016). Oxirgi, biz (I) rasm xossalarini faqat holatda qoʻshish uchun o'zgarishni ko'rsatumiz, (i i) o'zida qoʻshimcha foydalanuvchi rasm taʼrifi (m. m. syntetik maʼlumoti) yordamida foydalanuvchi modellarni foydalanish uchun KL soʻzligini amalga oshirish kerak.Abstract
Trong công việc này, chúng tôi đề nghị mô hình giao tiếp giữa các tính năng hình ảnh và kết cấu cho dịch máy thần kinh đa phương (MMT) thông qua một mô hình biến phụ. Sự biến cố tiềm ẩn này có thể được xem như là sự nhúng chéo ảnh và mô tả nó bằng ngôn ngữ ngoại quốc. Nó được dùng trong một bộ giải mã ngôn ngữ đích và cũng để dự đoán các tính năng ảnh. Điều quan trọng là, công trình mô hình của chúng ta sử dụng nội dung thị giác và kết cấu trong thời gian huấn luyện, nhưng không yêu cầu ảnh có sẵn ở thời điểm thử nghiệm. Chúng tôi cho thấy rằng công thức sản xuất MMT tiềm năng của chúng tôi cải thiện đáng kể trên những con đường nền vững chắc, bao gồm cả một phương pháp học tập đa nhiệm vụ (Elliott và Kadar, Ngực) và một phương pháp tự mã hóa ký hiệu khác nhau (Toyama et al., 206). Cuối cùng, chúng tôi có những cải tiến nhờ vào khả năng dự đoán hình ảnh ngoài việc chỉ đi ều chỉnh hình ảnh, thứ hai là sự hạn chế của chế chế chữ viết Cộng để phát triển các mô hình có thông tin lẫn nhau không ít đáng kể giữa nội dung và biến số tiềm năng, và thứ hai là sự huấn luyện về mô tả ảnh ngôn ngữ đích (tức là dữ liệu tổng hợp).Abstract
于是潜于变量模多模态神经机器翻译(MMT)视文本之建模。 此变量可以为图像及外语中多模态随机嵌入。 其用于言解码器,亦用于占象。 要在模形公式在训练之间,用视文本输入,但不要在测试时供图像。 吾明潜变量MMT公式比强基线有显改善,兼多任务学术(ElliottKadar,2017)变分自编码器(Toyama等,2016)。 (i)以限其象,(ii)加约束于KL,以趣输潜变量之间有不可忽之相信,及(iii)以他语言图像言之(合为数)训练之。- Anthology ID:
- P19-1642
- Volume:
- Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics
- Month:
- July
- Year:
- 2019
- Address:
- Florence, Italy
- Venue:
- ACL
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 6392–6405
- Language:
- URL:
- https://aclanthology.org/P19-1642
- DOI:
- 10.18653/v1/P19-1642
- Bibkey:
- Cite (ACL):
- Iacer Calixto, Miguel Rios, and Wilker Aziz. 2019. Latent Variable Model for Multi-modal Translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6392–6405, Florence, Italy. Association for Computational Linguistics.
- Cite (Informal):
- Latent Variable Model for Multi-modal Translation (Calixto et al., ACL 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/P19-1642.pdf
- Code
- iacercalixto/variational_mmt
- Data
- Flickr30k
- Terminologies:
Export citation
@inproceedings{calixto-etal-2019-latent, title = "Latent Variable Model for Multi-modal Translation", author = "Calixto, Iacer and Rios, Miguel and Aziz, Wilker", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1642", doi = "10.18653/v1/P19-1642", pages = "6392--6405", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="calixto-etal-2019-latent"> <titleInfo> <title>Latent Variable Model for Multi-modal Translation</title> </titleInfo> <name type="personal"> <namePart type="given">Iacer</namePart> <namePart type="family">Calixto</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Miguel</namePart> <namePart type="family">Rios</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Wilker</namePart> <namePart type="family">Aziz</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-07</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Florence, Italy</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">calixto-etal-2019-latent</identifier> <identifier type="doi">10.18653/v1/P19-1642</identifier> <location> <url>https://aclanthology.org/P19-1642</url> </location> <part> <date>2019-07</date> <extent unit="page"> <start>6392</start> <end>6405</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Latent Variable Model for Multi-modal Translation %A Calixto, Iacer %A Rios, Miguel %A Aziz, Wilker %S Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics %D 2019 %8 July %I Association for Computational Linguistics %C Florence, Italy %F calixto-etal-2019-latent %R 10.18653/v1/P19-1642 %U https://aclanthology.org/P19-1642 %U https://doi.org/10.18653/v1/P19-1642 %P 6392-6405
Markdown (Informal)
[Latent Variable Model for Multi-modal Translation](https://aclanthology.org/P19-1642) (Calixto et al., ACL 2019)
- Latent Variable Model for Multi-modal Translation (Calixto et al., ACL 2019)
ACL
- Iacer Calixto, Miguel Rios, and Wilker Aziz. 2019. Latent Variable Model for Multi-modal Translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6392–6405, Florence, Italy. Association for Computational Linguistics.