Compositional Generalization in Image Captioning Comment ምስሉን በሌላ ስም አስቀምጥ التعميم التركيبي في التسمية التوضيحية للصورة 勉饳洠䉡얟泄뇄鿄넊 Композиционно генериране в надписите на изображенията Compositional Generalization in Image Captioning Disc Image Kompozicionalna generalizacija u snimanju slika Generalització compositiva en la captació d'imatges Kompoziční zobecnění v titulcích obrázků Sammensætningsgeneralisering i billedtekster Compositionale Generalisierung in Bildbeschriftungen Σύνθετη γενίκευση στην λεζάντα εικόνας Generalización composicional en la subtitulación de imágenes Kompositsiooni generaliseerimine pildi pealdises Name Komposiittinen yleistäminen kuvatekstissä Généralisation de la composition dans le sous-titrage d'images Ginearálú Comhshuíomh i gceannteideal Íomhánna KCharselect unicode block name Compositional Generalization in Image Captioning छवि कैप्शनिंग में रचनात्मक सामान्यीकरण Kompozicionalna generalizacija u snimanju slika Kompozicionális általánosítás a kép feliratozásában Compositional Generalization in Image Captioning Generalisasi Komposisi dalam Captioning Gambar Generalizzazione compositiva nella didascalia delle immagini 画像キャプションの構成的一般化 General Name Кескін айдарында композиционалық жалпы 이미지 자막 중의 합성 범화 Comment Генерализација на композицијата во капитацијата на сликите Image captioning Зурагийн зураг зурагт бүтээмж Jeneralisasi Komposisi dalam Capsyen Imej Ġeneralizzazzjoni Kompożittiva fit-Tkabbir tal-Immaġni Samenstelling generaliseren in afbeeldingsbijschriften Komposisjonell generering i biletet Uogólnianie kompozycji w napisach obrazów Generalização composicional em legendas de imagens Generalizare compozițională în textarea imaginilor Композиционное обобщение в подписях изображений Name Sestavljena generalizacija v napisovanju slik Composition Generalization in Image Captioning Compositional Generalization in Image Captioning Kompozicionalna generalizacija u snimanju slika Sammansättningsgeneralisering i bildtextning Umoja wa Makusanyiko katika Kuchapisha Picha பிம்பத்தை பிடிப்பதில் பொதுவான பொதுவான உருவாக்கம் Resim Käpşenlerde Ýygymy تصویر کاپیٹینگ میں کمپیوٹینال جینرالیزی Name Tổng hợp chế độ ảnh 图像字幕中构图泛化
Mitja Nikolaus, Mostafa Abdou, Matthew Lamm, Rahul Aralikatte, Desmond Elliott
Abstract
Image captioning models are usually evaluated on their ability to describe a held-out set of images, not on their ability to generalize to unseen concepts. We study the problem of compositional generalization, which measures how well a model composes unseen combinations of concepts when describing images. State-of-the-art image captioning models show poor generalization performance on this task. We propose a multi-task model to address the poor performance, that combines caption generation and imagesentence ranking, and uses a decoding mechanism that re-ranks the captions according their similarity to the image. This model is substantially better at generalizing to unseen combinations of concepts compared to state-of-the-art captioning models.Abstract
Beeldtitelsmodelle word gewoonlik evalueer op hul moontlikheid om 'n gehou-uit stel beelde te beskrywe, nie op hul moontlikheid om generaliseer te ontsien koncepte nie. Ons ondersoek die probleem van samenskaplike generellisering, wat maak hoe goed 'n model maak onverskyn kombinasies van konsepte wanneer beelde beskryf word. State-of-the-art beeldtitelsmodele vertoon arme generalisering prestasie op hierdie taak. Ons voorstel 'n multi-taak model om die arme prestasie te adres, wat die opskriftegenerasie en beeld-seting rangering kombineer, en gebruik 'n dekoding mekanisme wat die opskrifte herrangeer volgens hulle gelykenis aan die beeld. Hierdie model is beter by generellisering na onverskyn kombinasies van konsepte vergelyk met state-of-the-art captioning models.Abstract
Image captioning models are usually evaluated on their ability to describe a held-out set of images, not on their ability to generalize to unseen concepts. የምናስተምር የአካባቢ ትርጉም ጉዳይ እናስተምራለን፤ ምሳሌ እንዴት ያበዛል የሳቱትን ጉዳይ እናሳውቃለን፡፡ የ-የ-አርእስት ምስል ማሳየት ምሳሌዎች በዚህ ስራ ላይ የድሀ አቀማመጥ ማድረግ ያሳያል፡፡ የድህነትን ትውልድ እና የምስል ክፍል ማቀናቀል እና የተመሳሰለውን የክፍለ መልዕክት እና ምስሉን በሚያሳየው መልዕክት ላይ የተመሳሰለውን የድህነትን ስርዓት ለመቀናቀል እና በአካባቢው ማሰሪያ የሚጠቅመውን አካል እናስጠጋለን፡፡ ይህ ሞዴል ከ-አርራሲ አካባቢ እና ምሳሌዎችን ከመተካከል ጋር የተሳካ የሳውሩን ጉዳይ በመፍጠር ይሻላል፡፡Abstract
عادةً ما يتم تقييم نماذج التعليق على الصور بناءً على قدرتها على وصف مجموعة من الصور المعلقة ، وليس بناءً على قدرتها على التعميم على المفاهيم غير المرئية. ندرس مشكلة التعميم التركيبي ، والتي تقيس مدى جودة تكوين النموذج لمجموعات غير مرئية من المفاهيم عند وصف الصور. تُظهر نماذج تعليقات الصور الحديثة أداءً ضعيفًا في التعميم في هذه المهمة. نقترح نموذجًا متعدد المهام لمعالجة الأداء الضعيف ، والذي يجمع بين إنشاء التسمية التوضيحية وترتيب الصورة - الجملة ، ويستخدم آلية فك التشفير التي تعيد ترتيب التسميات التوضيحية وفقًا لتشابهها مع الصورة. هذا النموذج أفضل بشكل كبير في التعميم على مجموعات غير مرئية من المفاهيم مقارنةً بأحدث نماذج التسميات التوضيحية.Abstract
Görüntü başlıqları modelləri genel olaraq görüntüləri görmədikləri fikirlərə generalizə etmək bacarıqlarına görə müəyyən edilir. Biz birləşdirilmiş generalizasiyanın problemini öyrənirik, bu modellərin görüntüləri tanımlayarkən görünmədiyimiz məsələlərin birləşdirilməsini təmin edir. İstiqamət şəkillərin başlıqları modelləri bu işdə zəif generalizasiya performansını göstərər. Biz çoxlu işlər modelini yoxsulluqları çəkmək üçün təklif edirik. Bu, surat nəslini və surat sözləri dərəcələrini birləşdirir və surat kimi başlıqlarını yenidən dərəcə verən kodlama mehanizmini istifadə edir. Bu model müəyyən edilməyən fikirlərin kombinasyonlarına qarşılaşdığı qədər daha yaxşıdır.Abstract
Моделите за надписване на изображения обикновено се оценяват по способността им да описват задържан набор от изображения, а не по способността им да обобщават до невидими понятия. Изследваме проблема с композиционното обобщаване, което измерва колко добре един модел композира невидими комбинации от концепции при описване на изображения. Моделите за надписване на изображения показват лошо обобщаване на тази задача. Предлагаме многофункционален модел за справяне с лошото представяне, който съчетава генериране на надписи и класиране на изображение-изречение и използва декодиращ механизъм, който пренарежда надписите според приликата им с изображението. Този модел е значително по-добър в обобщаването до невидими комбинации от концепции в сравнение с най-съвременните модели за надписване.Abstract
ছবির ক্যাপ্টেশন মডেল সাধারণত অদৃশ্য ধারণার ক্ষমতা তাদের বর্ণনা করার ক্ষমতা নিয়ে মূল্যায়ন করা হচ্ছে। আমরা একত্রিত জেনারেলিজেশনের সমস্যা গবেষণা করছি, যেখানে একটি মডেল কতটা অদৃশ্য ধারণার সংযুক্ত করা হয়েছে যখন ছবি বর্ণনা করা হয়। State-of-the-art image captioning models show poor generalization performance on this task. আমরা দারিদ্র কার্যক্রমের কথা বলার জন্য একটি বহুক্ষেত্র মডেল প্রস্তাব করছি, যা শিরোনামের প্রজন্ম এবং ছবির বাক্য রেঙ্কিং সংযুক্ত করে এবং একটি কোডিং মেক্সি এই মডেলটি অনেক ভালো যাচ্ছে যে অদৃশ্য ধারণার সাথে তুলনা করা হচ্ছে তার সাথে তুলনা করা শিল্প-শিল্পের ক্যাপ্টেশন মডেল।Abstract
བརྙན་རིས་འགྲེལ་བཤད་ཀྱི་མིག་ཆས་རྒྱུན་ལྡན་གྱིས་ཁོང་ཚོའི་ཆོས་ཉིད་དུ་འཚར་ཡོད་པའི་བརྙན་རིས ང་ཚོས་རྣམ་གྲངས་ཀྱི་སྤྱི་ཚོགས་ཀྱི་དཀའ་ངལ་ལེན་གྱི་དཀའ་ཕྱོགས་གནད་དོན་དག་གིས་རྣམ་པ་ཞིག་ལ་སྒྲིག་མེད་པའི་བརྗོད་ State-of-the-art image caption models show poor general performance on this task. འུ་ཅག་གིས་གསལ་བ་ཡིན་པའི་ལས་འགུལ་གྱི་མ་དཔེ་གཞི་གཅིག་གནང་བ་ནི་ཞལ་འཛུགས་ཡོད་མེད་སྟོན་གྱི་ཡོད། མ་དབྱིབས་འདི་ནི་གྲངས་སུ་མེད་པའི་མཐུན་སྒྲིག་དང་མཐུན་པ་ཁག་ཆེ་མཐུན་ཡོད་པ་དང་མཐུན་སྒྲིག་ཡོད་པAbstract
Modeli snimanja slika obično se procjenjuju o njihovoj sposobnosti opisati određeni set slika, a ne o njihovoj sposobnosti generalizacije na nevidljive koncept. Proučavamo problem kompozicionalne generalizacije, koji mjeri kako dobro model sastoji nevidljive kombinacije koncepta kada opisuje slike. Modeli nacionalne slike pokazuju siromašnu generalizaciju na ovom zadatku. Predlažemo multizadatačni model da se obratimo lošim izvedbama, koji kombinira generaciju naslova i redovnu re čenicu za slike, i koristi mehanizam dekodiranja koji ponovno reagira kapcije prema njihovoj sličnosti sliki. Ovaj model je značajno bolji u generalizaciji nevidljivih kombinacija koncepta u usporedbi s modelima stanja umjetnosti.Abstract
Els models de captionització d'imatges normalment s'evaluen sobre la seva habilitat de descriure un conjunt d'imatges, no sobre la seva habilitat de generalitzar-se a conceptes invisibles. We study the problem of compositional generalization, which measures how well a model composes unseen combinations of concepts when describing images. Els models de capturació d'imatges més avançats mostran un mal desempeny de generalització en aquesta tasca. Proposem un model de múltiples tasques per abordar el mal rendiment, que combina la generació de títulos i la classificació de frases d'imatge, i utilitza un mecanisme de decodificació que reestructura els títulos segons la seva similitud a la imatge. Aquest model és substancialment millor en generalitzar-se a combinacions de conceptes invisibles en comparació amb models de titulació més avançats.Abstract
Modely titulků obrázků jsou obvykle hodnoceny podle jejich schopnosti popsat zdržený soubor obrázků, nikoli podle jejich schopnosti zobecňovat na neviditelné pojmy. Studujeme problém kompoziční generalizace, která měří, jak dobře model skládá neviditelné kombinace pojmů při popisu obrazů. Nejmodernější modely popisků obrázků ukazují špatný výkon zobecnění tohoto úkolu. Navrhujeme víceúlohový model pro řešení špatného výkonu, který kombinuje generování titulků a hodnocení obrázkových vět a využívá dekódovací mechanismus, který přehodnocuje titulky podle jejich podobnosti s obrázkem. Tento model je podstatně lepší v zobecňování neviditelných kombinací konceptů ve srovnání s nejmodernějšími titulkovými modely.Abstract
Billedtekstmodeller evalueres normalt på deres evne til at beskrive et holdt sæt af billeder, ikke på deres evne til at generalisere til usynlige begreber. Vi studerer problemet med kompositionsgeneralisering, som måler, hvor godt en model komponerer usynlige kombinationer af begreber, når de beskriver billeder. De avancerede billedtekstmodeller viser dårlig generaliseringsevne på denne opgave. Vi foreslår en multi-task model til at tackle den dårlige ydeevne, der kombinerer billedtekstgenerering og billedsætning rangering, og bruger en afkodningsmekanisme, der genrangerer billedteksterne efter deres lighed med billedet. Denne model er væsentligt bedre til at generalisere til usynlige kombinationer af begreber sammenlignet med state-of-the-art billedtekstmodeller.Abstract
Bildbeschriftungsmodelle werden in der Regel auf ihre Fähigkeit bewertet, eine festgehaltene Menge von Bildern zu beschreiben, nicht auf ihre Fähigkeit, auf unsichtbare Konzepte zu verallgemeinern. Wir untersuchen das Problem der kompositorischen Generalisierung, die misst, wie gut ein Modell unsichtbare Kombinationen von Konzepten bei der Beschreibung von Bildern komponiert. Modernste Bildunterschriftsmodelle zeigen eine schlechte Generalisierungsleistung bei dieser Aufgabe. Wir schlagen ein Multi-Task-Modell vor, um die schlechte Leistung anzugehen, das die Erzeugung von Bildunterschriften und das Ranking von Bildsätzen kombiniert und einen Dekodierungsmechanismus verwendet, der die Bildunterschriften entsprechend ihrer Ähnlichkeit mit dem Bild neu rangiert. Dieses Modell ist wesentlich besser in der Verallgemeinerung auf unsichtbare Kombinationen von Konzepten im Vergleich zu modernen Untertitelmodellen.Abstract
Τα μοντέλα λεζάντας εικόνας αξιολογούνται συνήθως με βάση την ικανότητά τους να περιγράφουν ένα παρατεταμένο σύνολο εικόνων, όχι με βάση την ικανότητά τους να γενικεύουν σε αόρατες έννοιες. Μελετάμε το πρόβλημα της σύνθετης γενικοποίησης, η οποία μετρά πόσο καλά ένα μοντέλο συνθέτει αόρατους συνδυασμούς εννοιών όταν περιγράφει εικόνες. Τα σύγχρονα μοντέλα λεζάντας εικόνων δείχνουν κακή απόδοση γενικοποίησης σε αυτήν την εργασία. Προτείνουμε ένα μοντέλο πολλαπλών εργασιών για την αντιμετώπιση της κακής απόδοσης, το οποίο συνδυάζει τη δημιουργία λεζάντας και την κατάταξη προτάσεων εικόνας και χρησιμοποιεί έναν μηχανισμό αποκωδικοποίησης που επαναταξινομεί τις λεζάντες ανάλογα με την ομοιότητά τους με την εικόνα. Αυτό το μοντέλο είναι ουσιαστικά καλύτερο στη γενίκευση σε αόρατους συνδυασμούς εννοιών σε σύγκριση με τα σύγχρονα μοντέλα λεζάντας.Abstract
Los modelos de subtitulación de imágenes generalmente se evalúan en función de su capacidad para describir un conjunto de imágenes mantenidas, no en función de su capacidad de generalizar conceptos invisibles. Estudiamos el problema de la generalización composicional, que mide qué tan bien un modelo compone combinaciones de conceptos invisibles al describir imágenes. Los modelos de subtítulos de imágenes de última generación muestran un rendimiento de generalización deficiente en esta tarea. Proponemos un modelo multitarea para abordar el bajo rendimiento, que combina la generación de subtítulos y la clasificación de frases de imágenes, y utiliza un mecanismo de decodificación que reordena los subtítulos de acuerdo con su similitud con la imagen. Este modelo es sustancialmente mejor para generalizar combinaciones de conceptos invisibles en comparación con los modelos de subtítulos de última generación.Abstract
Piltide pildistamise mudeleid hinnatakse tavaliselt nende võime kirjeldada väljajäetud piltide kogumit, mitte nende võime üldistada nähtamatutele kontseptsioonidele. Uurime kompositsioonilise üldistamise probleemi, mis mõõdab, kui hästi mudel komponeerib kujutiste kirjeldamisel nähtamatuid kontseptsioonide kombinatsioone. Kaasaegsed piltide pealdiste mudelid näitavad selle ülesande puhul halba üldistamisjõudlust. Pakume välja mitmeülesandelise mudeli halva jõudluse lahendamiseks, mis ühendab pealdiste genereerimise ja pildi lause järjestuse ning kasutab dekodeerimismehhanismi, mis muudab pealdised vastavalt nende sarnasusele pildiga. See mudel on oluliselt parem üldistada nähtamatutele kontseptsioonide kombinatsioonidele võrreldes kaasaegsete pealdiste mudelitega.Abstract
مدلهای عنوان تصویر معمولاً بر روی توانایی آنها برای توصیف مجموعهای از تصویرها ارزیابی میشوند، نه بر توانایی آنها برای توصیف نظریههای غیر مشاهدهاند. ما مشکل ژنرال ترکیبی را مطالعه میکنیم، که یک مدل چقدر خوب ترکیب میکند، در حالی که توصیف تصاویر را توصیف میکند، ترکیبهای نادیدهای از نظریهها را توصیف میکند. مدلهای عنوان تصویر ایالت هنری به عملکرد ژنرالیزی ضعیف در این کار نشان می دهند. ما یک مدل چندین کاری را پیشنهاد میکنیم تا با عملکرد فقیر بررسی کند، که نسل عنوان و صفحهی جملههای تصویر را ترکیب میکند، و از یک مکانیسم دکوندی استفاده میکند که عنوانها را بر اساس شبیهشان به تصویر دوباره برگرداند. این مدل به طور کلی بهتر در ترکیب به ترکیبهای نادیدهای از نظریهها در مقایسه با مدلهای عنوان قالب هنر است.Abstract
Kuvatekstitysmalleja arvioidaan yleensä niiden kyvyn kuvailla pitkiä kuvia, ei niiden kyvyn yleistyä näkymättömiin käsitteisiin. Tutkimme kompositiivisen yleistymisen ongelmaa, joka mittaa sitä, kuinka hyvin malli säveltää näkymättömiä käsitteiden yhdistelmiä kuvattaessa. Viimeisimmät kuvatekstitysmallit osoittavat huonon yleistyksen tässä tehtävässä. Kehittyneen suorituskyvyn ratkaisemiseksi ehdotamme monitehtävämallia, jossa yhdistyvät kuvatekstien luonti ja kuva-lauseiden ranking ja jossa käytetään dekooderimekanismia, joka järjestää kuvatekstit uudelleen niiden samankaltaisuuden mukaan kuvan kanssa. Tämä malli on huomattavasti parempi yleistää käsitteiden näkymättömiin yhdistelmiin verrattuna viimeisimpiin tekstitysmalleihin.Abstract
Les modèles de sous-titrage d'images sont généralement évalués en fonction de leur capacité à décrire un ensemble d'images étalées, et non de leur capacité à généraliser à des concepts inédits. Nous étudions le problème de la généralisation de la composition, qui mesure dans quelle mesure un modèle compose des combinaisons inédites de concepts lorsqu'il décrit des images. Les modèles de sous-titrage d'image de pointe présentent des performances de généralisation médiocres pour cette tâche. Nous proposons un modèle multitâche pour remédier aux mauvaises performances, qui combine la génération de sous-titres et le classement image-phrase, et utilise un mécanisme de décodage qui reclasse les légendes en fonction de leur similitude avec l'image. Ce modèle est nettement plus efficace pour généraliser à des combinaisons de concepts inédites que les modèles de sous-titrage de pointe.Abstract
De ghnáth déantar samhlacha fortheidealaithe íomhánna a mheas ar a gcumas cur síos a dhéanamh ar thacar íomhánna atá fágtha amach, ní ar a gcumas ginearálú go coincheapa nach bhfacthas riamh cheana. Déanaimid staidéar ar fhadhb an ghinearálú comhdhéanaimh, a thomhaiseann cé chomh maith agus a chomhdhéanann samhail teaglaim choincheapa nach bhfacthas riamh roimhe agus é ag cur síos ar íomhánna. Léiríonn samhlacha ceannteideal íomhá úrscothacha feidhmíocht lag ginearálaithe maidir leis an tasc seo. Molaimid samhail il-tasc chun aghaidh a thabhairt ar an drochfheidhmíocht, a chomhcheanglaíonn giniúint fotheideal agus rangú íomhá-abairt, agus a úsáideann meicníocht díchódaithe a athrangaítear na fotheidil de réir a gcosúlachta leis an íomhá. Tá an tsamhail seo i bhfad níos fearr ag ginearálú go teaglaim choincheapa nach bhfacthas riamh roimhe i gcomparáid le samhlacha fotheidealaithe den scoth.Abstract
Ana iya ƙayyade motsi masu tsaron zane ko da yaushe su iya bayyana wani zanen da aka samar da shi, kuma bã ya iya iya ƙiƙiro zuwa zabuwan da ba'a sani ba. Tuna karatun matsalar da za'a samu'a, da za'a ƙayyade kafin da misalin na samun mutane da ba'a sani ba idan za'a bayyana zanen. @ action: button Tuna goyyar da wani misalin mulki dõmin ka yi magana ga aikin matalauci, wanda ke haɗa kiyayen tsari da tsarin zane-zane, kuma yana amfani da wani matsayin koda wanda ya sake-saranta sunayen kamar surar. Wannan motel ne mafi alhẽri a ƙiƙiro zuwa gaibi na zaɓen zato da sammenliki da misãlai-tsari-sanar.Abstract
דוגמני ציור תמונות בדרך כלל מתערכים על היכולת שלהם לתאר קבוצת תמונות מחוסקת, לא על היכולת שלהם לגנרל לרעיונות בלתי נראות. אנחנו לומדים את הבעיה של הגנרליזציה המרכזית, שמדואגת עד כמה מודל מורכב שילובים בלתי נראים של רעיונות כאשר מתארים תמונות. מודלים של ציור תמונות מוקדמות מראים ביצוע גנרליזציה גרוע במשימה הזאת. אנו מציעים מודל במשימות רבות כדי להתמודד עם ההופעה העלובה, שמשולב את דור הכותבות ואת הדרגה של משפט-תמונה, ושתמש במנגנון פיתוח שמצביע מחדש את הכותבות לפי הדמיון שלהם לתמונה. הדוגמא הזאת טובה ביותר בהגנרליזציה לשלבים בלתי נראים של מושגים בהשוואה לדוגמאות הכתיבה המאוחרות ביותר.Abstract
इमेज कैप्शनिंग मॉडल का मूल्यांकन आमतौर पर छवियों के एक आयोजित-आउट सेट का वर्णन करने की उनकी क्षमता पर किया जाता है, न कि अनदेखी अवधारणाओं को सामान्य बनाने की उनकी क्षमता पर। हम रचनात्मक सामान्यीकरण की समस्या का अध्ययन करते हैं, जो मापता है कि एक मॉडल छवियों का वर्णन करते समय अवधारणाओं के अनदेखे संयोजनों को कितनी अच्छी तरह से लिखता है। अत्याधुनिक छवि कैप्शनिंग मॉडल इस कार्य पर खराब सामान्यीकरण प्रदर्शन दिखाते हैं। हम खराब प्रदर्शन को संबोधित करने के लिए एक बहु-कार्य मॉडल का प्रस्ताव करते हैं, जो कैप्शन पीढ़ी और छवि-वाक्य रैंकिंग को जोड़ता है, और एक डिकोडिंग तंत्र का उपयोग करता है जो छवि के लिए उनकी समानता के अनुसार कैप्शन को फिर से रैंक करता है। यह मॉडल अत्याधुनिक कैप्शनिंग मॉडल की तुलना में अवधारणाओं के अनदेखी संयोजनों को सामान्य बनाने में काफी बेहतर है।Abstract
Modeli snimanja slika obično se procjenjuju o njihovoj sposobnosti opisati određen skup slika, a ne o njihovoj sposobnosti generalizirati nepredvidne koncepte. Proučavamo problem kompozicionalne generalizacije, koji mjeri kako dobro model sastoji nevidljive kombinacije koncepta kada opisuje slike. Modeli nacionalne slike pokazuju siromašnu generalizaciju na ovom zadatku. Predlažemo višezadatačni model za rješavanje siromašnih učinka, koji kombinira generaciju naslova i redovnu re čenicu slika, i koristi mehanizam dekodiranja koji ponovno reagira naslove prema njihovoj sličnosti sliki. Ovaj model je značajno bolji u generalizaciji na nevidljive kombinacije koncepta u usporedbi s modelima stanja umjetnosti.Abstract
A képfeliratozó modelleket általában a kitartott képek leírására alkalmas képességük alapján értékelik, nem pedig a láthatatlan fogalmakra való általánosításuk alapján. A kompozíciós általánosítás problémáját vizsgáljuk, amely méri, hogy egy modell milyen jól komponálja a láthatatlan fogalmak kombinációit a képek leírásakor. A legkorszerűbb képalkotási modellek rossz általánosítási teljesítményt mutatnak ebben a feladatban. A rossz teljesítmény kezelésére egy többfeladatos modellt javasolunk, amely ötvözi a feliratok generálását és a kép-mondat rangsorolását, és olyan dekódolási mechanizmust használ, amely újra rangsorolja a feliratokat a képhez hasonlóságuk szerint. Ez a modell lényegesen jobban általánosítja a láthatatlan fogalmak kombinációit, mint a legkorszerűbb feliratozási modellek.Abstract
Պատկերների վերնագրման մոդելները սովորաբար գնահատվում են իրենց կարողության վրա նկարագրել մի սահմանափակ պատկերներ, և ոչ թե նրանց ընդհանուր հասկացությունների ընդհանուր ընդհանուր ընդհանուր ընկալումների վրա: Մենք ուսումնասիրում ենք կառուցվածքի ընդհանուր տարածման խնդիրը, որը չափում է, թե որքան լավ է մոդելը կառուցվում անտեսանելի գաղափարների համադրություններ նկարագրելիս: State-of-the-art image captioning models show poor generalization performance on this task. Մենք առաջարկում ենք բազմախնդիրների մոդել, որպեսզի լուծենք վատ արդյունքները, որը համադրում է վերնագրական սերունդը և պատկերի-նախադասությունների դասակարգումը, և օգտագործում է կոդավորման մեխանիզմ, որը վերադասակարգում է վերնագրությունները ըստ իրենց նմանության Այս մոդելը հիմնականում ավելի լավ է ընդհանուր հասկացությունների անտեսանելի համակցությունների մեջ, համեմատած ամենաբարձր վերնագրական մոդելների հետ:Abstract
Model captioning gambar biasanya dievaluasi pada kemampuan mereka untuk menggambarkan set gambar yang tersimpan, bukan kemampuan mereka untuk menyebarkan ke konsep yang tidak terlihat. Kami mempelajari masalah komposisi generalisasi, yang mengukur seberapa baik model komponen kombinasi konsep yang tidak terlihat ketika menggambarkan gambar. Model penulisan gambar state-of-the-art menunjukkan prestasi generalisasi buruk pada tugas ini. Kami mengusulkan model multi-tugas untuk mengatasi prestasi yang buruk, yang menggabungkan generasi caption dan peringkat gambar-kalimat, dan menggunakan mekanisme dekoding yang mengubah peringkat captions menurut persamaan mereka dengan gambar. Model ini jauh lebih baik dalam generalisasi ke kombinasi konsep yang tidak terlihat dibandingkan dengan model captioning state-of-the-art.Abstract
I modelli di didascalia delle immagini sono solitamente valutati sulla loro capacità di descrivere un insieme di immagini trattenute, non sulla loro capacità di generalizzare a concetti invisibili. Studiamo il problema della generalizzazione compositiva, che misura quanto bene un modello compone combinazioni invisibili di concetti quando descrive le immagini. I modelli di didascalia delle immagini all'avanguardia mostrano scarse prestazioni di generalizzazione in questo compito. Proponiamo un modello multi-task per affrontare le scarse prestazioni, che combina generazione di didascalie e posizionamento di frase immagine, e utilizza un meccanismo di decodifica che ri-classifica le didascalie in base alla loro somiglianza con l'immagine. Questo modello è sostanzialmente migliore nel generalizzare a combinazioni invisibili di concetti rispetto ai modelli di didascalia all'avanguardia.Abstract
画像キャプションモデルは、通常、見えない概念を一般化する能力ではなく、一連の画像を記述する能力で評価されます。我々は、モデルが画像を記述する際に、見えない概念の組み合わせをどの程度うまく構成しているかを測定する構成一般化の問題を研究する。最先端の画像キャプション作成モデルは、このタスクの一般化パフォーマンスが低いことを示しています。キャプション生成と画像文ランキングを組み合わせ、キャプションを画像との類似性に応じて再ランク付けするデコードメカニズムを採用した、パフォーマンスの悪さに対処するためのマルチタスクモデルを提案します。このモデルは、最先端のキャプションモデルと比較して、概念の見えない組み合わせを一般化することに実質的に優れています。Abstract
Sample Point Awak dhéwé éntuk kesalahan kelalaman sampeyan gewisasal structural navigation Awak dhéwé ngergunaké model multi-task kanggo ngomong pisan kang irenggawe barang, ditambah nggawe kelompok caption lan image-tencil arang, lan usubah sistem decoding model iki dadi akeh luwih apik, ditambah dumadhi kanggo ngerasakno ngerasaknoAbstract
გამოსახულების შესახებ მოდელების შესაძლებლობად გამოსახულება გამოსახულებული გამოსახულების შესახებ, არა ჩვენი შესაძლებლობაზე, რომ გენერალიზება კონფიგურების შესახებ. ჩვენ კომპოზიციონალური გენერალიზაციის პრობლემების შესწავლობთ, რომელიც მოდელის რამდენი კომპოზიციების კომბიზიციების შესახებ გამოსახულებაში სურათის შესახებების მოდელები ჩვენებს ცოტა გენერალიზაციის შესახებ ამ დავალებაზე. ჩვენ მრავალური დავალების მოდელის შესაძლებლობა ცოტა გამოსახულება, რომელიც გამოყენებს სახელსახულება და გამოსახულების რენექცია და გამოყენება მაქანიზმის რენექცია, რომელიც გამოყენება განსხვავება ამ მოდელს უფრო უკეთესია, რომელიც გენერალიზაციაში კონცეტების კომბიზაციების შესახებ, რომელიც კონცეტების კომბიზაციების შესახებ მსოფლიოსAbstract
Кескіннің айдарының үлгілері кәдімгі кескіндерді таңдауға мүмкіндік береді, олардың концепцияларды көрсету мүмкіндігіне жалпы болмайды. Біз жалпы жалпы түрлендіру мәселесін зерттейміз. Бұл үлгі кескіндерді түрлендіру кезінде белгілі түрлендірілмеген концепциялардың комбинацияларын қалай жасайт Осы тапсырманың жалпы жалпы жалпы түрлендіру үлгілері көрсетіледі. Біз көп тапсырма үлгісін өзгерту үшін көп тапсырма үлгісін таңдаймыз. Бұл айдарларды жасау мен кескіндердің жолдарын біріктіреді. Бұл айдарларды кескінге ұқсас тәртібіне қайта жолдыратын декоди Бұл үлгі концепциялардың комбинацияларын жалпы түрлендіру үлгілеріне салыстыру үшін жақсы жақсы.Abstract
이미지 자막 모델의 평가는 흔히 보이지 않는 개념으로 요약되는 능력이 아니라 돋보이는 이미지를 묘사하는 능력에 근거한다.우리는 합성 범화의 문제를 연구하는데, 이것은 하나의 모델이 이미지를 묘사할 때 보이지 않는 개념의 조합을 어떻게 합성하는지를 평가한다.가장 선진적인 이미지 자막 모델은 이 작업에서 비교적 나쁜 범용 성능을 나타낸다.우리는 성능이 떨어지는 문제를 해결하기 위해 다중 임무 모델을 제시했다. 이 모델은 자막 생성과 이미지 문장 정렬을 결합시키고 디코딩 메커니즘을 사용하여 자막과 이미지의 유사성에 따라 다시 정렬한다.가장 선진적인 자막 모델에 비해 이 모델은 보이지 않는 개념의 조합으로 확대하는 데 더욱 잘한다.Abstract
Paveikslų pavadinimo modeliai paprastai vertinami atsižvelgiant į jų gebėjimą aprašyti išsaugotą vaizdų rinkinį, o ne į jų gebėjimą apskritai paplitti į nematomas sąvokas. Mes tiriame kompozicijos generalizacijos problem ą, kuri matuoja, kaip gerai modelis sudaro nematomus koncepcijų derinius apibūdinant vaizdus. Naujausi vaizdo antraštės modeliai rodo prastą šios užduoties generalizacijos rezultatą. Siūlome įvairių užduočių model į, skirtą spręsti blogus rezultatus, kuris derina antraščių ir vaizdo sakinių klasifikavimą ir naudoja dekodizavimo mechanizmą, kuriuo antraštės klasifikuojamos pagal jų panašumą į vaizdą. Šis modelis yra gerokai geresnis generalizuojant į nematomus koncepcijų derinius, palyginti su naujausiais pavadinimo modeliais.Abstract
Моделите за отпишување на слики обично се проценуваат на нивната способност да опишат одржан сет слики, а не на нивната способност да се генерализираат на невидени концепти. Го проучуваме проблемот со генерализацијата на композицијата, која мери колку добро моделот составува невидени комбинации на концепти кога опишува слики. Models of state-of-the-art image captioning models show poor generalization performance on this task. Предложуваме мултизадачен модел за решавање на лошите резултати, кој ги комбинира генерацијата на наслови и рангирањето на речениците со слика, и користи механизам за декодирање кој ги рерангира насловите според нивната сличност со сликата. This model is substantially better at generalizing to unseen combinations of concepts compared to state-of-the-art captioning models.Abstract
ചിത്രം പിടിക്കുന്ന മോഡലുകള് സാധാരണ ചിത്രങ്ങള് വിശദീകരിക്കാനുള്ള കഴിവില് വിലയിക്കപ്പെടുന്നു. അദൃശ്യമായ ആശയങ്ങള്ക്ക് സ ചിത്രങ്ങള് വിശദീകരിക്കുമ്പോള് ഒരു മോഡല് ഒളിഞ്ഞിരിക്കുന്ന ആശയങ്ങളുടെ കൂട്ടത്തില് കൂടുതല് കൂടുതല് പ്രശ്നം ഞങ്ങള സ്റ്റേറ്റ് ഓഫ്- ആര്ട്ട് ഇമേജ് പിടിക്കുന്ന മോഡലുകള് ഈ ജോലിയില് പാവപ്പെടുത്തുന്ന പ്രഭാവം കാ പാവപ്പെട്ട പ്രവര്ത്തനത്തെക്കുറിച്ച് വിശദീകരണത്തെയും കൂട്ടിചേര്ക്കുന്ന തലമുറയെയും ഇമേജിന്റെ വാക്കുകളെയും കൂട്ടിച്ചേര്ക്കുന്ന ഒര ഈ മോഡല് കൂടുതല് നല്ലതാണ്, അഭൌതികമായ ആശയങ്ങളുടെ കൂട്ടത്തിലേക്ക് സൃഷ്ടിക്കുന്നതില്... ...കാണാന് സാധിക്കുന്നതിന് മാതAbstract
Зурагын зураг хэвлэх загварууд нь ихэвчлэн харагдахгүй ойлголтуудыг харуулах чадварыг тодорхойлох чадварын талаар үнэлдэг. Бид бүтээлтийн ерөнхийлөгчийн асуудлыг судалдаг. Энэ загвар нь зураг тайлбарлах үед харагдахгүй ойлголтын нэгтгэлийг хэрхэн сайн бүтээж байгааг хэмжээдэг. Урлагийн зураг зураг загварууд энэ ажил дээр ядуу ерөнхийлөгч үйл ажиллагааг харуулдаг. Бид ядуу үйл ажиллагаанд олон ажлын загварын загварыг санал болгож байна. Энэ нь загварын үеэс, зураг үеэс хэлбэрийг нэгтгэдэг. Тэдний зурагтай адилхан хэлбэрийг дахин дүрслэж буй загварын загварыг ашигладаг. Энэ загвар нь ойлголтын нийлүүлэлтийг харьцуулахад илүү сайн байдаг.Abstract
Model captioning imej biasanya diukur pada kemampuan mereka untuk menggambarkan set imej yang ditahan-keluar, bukan kemampuan mereka untuk menyebarkan kepada konsep yang tidak terlihat. Kami mempelajari masalah generalisasi komposisi, yang mengukur betapa baik model komponen kombinasi konsep yang tidak terlihat apabila menggambarkan imej. Model pengepala imej state-of-the-art menunjukkan prestasi generalisasi buruk pada tugas ini. Kami cadangkan model berbilang-tugas untuk mengatasi prestasi yang buruk, yang menggabungkan generasi tajuk dan peringkat imej-kalimat, dan menggunakan mekanisme penyahkodan yang mengatur semula tajuk mengikut persamaan mereka dengan imej. This model is substantially better at generalizing to unseen combinations of concepts compared to state-of-the-art captioning models.Abstract
Image captioning models are usually evaluated on their ability to describe a held-out set of images, not on their ability to generalize to unseen concepts. Aħna nistudjaw il-problem a tal-ġeneralizzazzjoni kompożittiva, li tkejjel kemm mudell jikkostitwixxi kombinazzjonijiet ta’ kunċetti mhux osservati meta jiddeskrivi l-immaġni. Il-mudelli moderni tal-intestatura tal-immaġni juru prestazzjoni ta’ ġeneralizzazzjoni dgħajfa f’dan il-kompitu. Aħna nipproponu mudell multikompiti biex nindirizzaw il-prestazzjoni fqira, li jgħaqqad il-ġenerazzjoni tal-intestaturi u l-klassifikazzjoni tas-sentenza tal-immaġni, u juża mekkaniżmu ta’ dekodifikazzjoni li jerġa’ jikklassifika l-intestaturi skont is-similarità tagħhom mal-immaġni. Dan il-mudell huwa sostanzjalment aħjar fil-ġeneralizzazzjoni għal kombinazzjonijiet mhux osservati ta’ kunċetti meta mqabbel ma’ mudelli ta’ titolazzjoni avvanzati.Abstract
Beeldbijschriftmodellen worden meestal geëvalueerd op hun vermogen om een uitgestelde reeks beelden te beschrijven, niet op hun vermogen om te generaliseren naar onzichtbare concepten. We bestuderen het probleem van compositionele generalisatie, die meet hoe goed een model ongeziene combinaties van concepten samenstelt bij het beschrijven van beelden. State-of-the-art beeldonderschriftmodellen vertonen slechte generalisatieprestaties bij deze taak. We stellen een multi-task model voor om de slechte prestaties aan te pakken, dat het genereren van ondertitels en het rangschikken van beeldzinnen combineert, en een decoderingsmechanisme gebruikt dat de ondertitels opnieuw rangschikt op basis van hun gelijkenis met de afbeelding. Dit model is aanzienlijk beter in het generaliseren naar ongeziene combinaties van concepten in vergelijking met state-of-the-art ondertitelingsmodellen.Abstract
Biletetittelmodeller blir vanlegvis evaluerte på at dei kan beskrive eit sett av bilete som er halde ut, ikkje på at dei kan generellisere å forskyve konseptar. Vi studerer problemet med komposisjonsgeneralisering, som målar kor godt ein modell lager ugjennomsiktige kombinasjonar av konseptar når bilete beskriver. Biletetittelmodeller for tilstanden av kunsten viser dårlig generellisering på denne oppgåva. Vi foreslår ein fleire oppgåve-modell for å handsama dei dårlige utviklingane, som kombinerer tittelgenerasjon og teiknsetting, og bruker ein dekoding-mekanisme som gjenopprettar tittelen på nytt etter dei liknande biletet. Dette modellet er stort bedre ved å generellisera for ikkje synlege kombinasjonar av konseptar sammenlignet med mellom mellomlagringsmodulane for kunsten.Abstract
Modele podpisów obrazów są zazwyczaj oceniane pod kątem ich zdolności do opisania utrzymanego zbioru obrazów, a nie pod kątem ich zdolności do uogólniania na niewidoczne pojęcia. Badamy problem uogólnienia kompozycyjnego, który mierzy, jak dobrze model składa niewidzialne kombinacje pojęć podczas opisu obrazów. Najnowocześniejsze modele podpisów obrazów wykazują słabe uogólnienie w tym zadaniu. Proponujemy wielozadaniowy model, który łączy generowanie napisów i ranking zdań zdań obrazowych oraz wykorzystuje mechanizm dekodowania, który zmienia rangę napisów zgodnie z ich podobieństwem do obrazu. Model ten jest znacznie lepszy w uogólnianiu do niewidocznych kombinacji pojęć w porównaniu z najnowocześniejszymi modelami napisów.Abstract
Os modelos de legendagem de imagens geralmente são avaliados em sua capacidade de descrever um conjunto de imagens retido, não em sua capacidade de generalizar para conceitos não vistos. Estudamos o problema da generalização composicional, que mede o quão bem um modelo compõe combinações invisíveis de conceitos ao descrever imagens. Modelos de legendagem de imagem de última geração mostram um baixo desempenho de generalização nesta tarefa. Propomos um modelo multitarefa para lidar com o baixo desempenho, que combina geração de legendas e classificação imagem-frase, e usa um mecanismo de decodificação que reclassifica as legendas de acordo com sua semelhança com a imagem. Este modelo é substancialmente melhor em generalizar para combinações invisíveis de conceitos em comparação com modelos de legendagem de última geração.Abstract
Modelele de subtitrare a imaginilor sunt de obicei evaluate pe baza capacității lor de a descrie un set rezistent de imagini, nu pe baza capacității lor de a generaliza la concepte nevăzute. Studiem problema generalizării compoziționale, care măsoară cât de bine un model compune combinații nevăzute de concepte atunci când descrie imagini. Modelele de ultimă generație de subtitrare a imaginilor arată performanțe slabe de generalizare în această sarcină. Propunem un model multi-task pentru a aborda performanța slabă, care combină generarea de subtitrări și clasificarea imaginii-propoziții și utilizează un mecanism de decodare care re-rangează subtitrările în funcție de similaritatea lor cu imaginea. Acest model este substanțial mai bun la generalizarea la combinații nevăzute de concepte în comparație cu modelele de ultimă generație de subtitrare.Abstract
Модели подписей изображений обычно оцениваются по их способности описывать выдержанный набор изображений, а не по их способности обобщать невидимые понятия. Проведено исследование проблемы композиционного обобщения, которое измеряет, насколько хорошо модель формирует невидимые комбинации понятий при описании образов. Современные модели подписей изображений показывают низкую производительность обобщения при выполнении этой задачи. Мы предлагаем многозадачную модель для решения проблемы низкой производительности, которая сочетает генерацию подписей и ранжирование предложений изображений, и использует механизм декодирования, который перераспределяет подписи в соответствии с их сходством с изображением. Эта модель значительно лучше обобщает невидимые комбинации концепций по сравнению с современными моделями субтитров.Abstract
පින්තූර කැප්සියෝන් මොඩල් සාමාන්ය විශ්වාස කරනවා ඔවුන්ගේ පින්තූර සූදානයක් විස්තර කරන්න, ඔවුන්ගේ පින්තූ අපි සම්පූර්ණ සාමාන්ය විශ්වාසයේ ප්රශ්නයක් අධ්යානය කරනවා, ඒකෙන් මොඩේල් එකක් පින්තූර විශ්වාස කරපු ව පින්තූර පින්තූර පින්තූර පින්තූර විශේෂණයක් මේ වැඩේ නරක සාමාන්ය විශේෂණය පෙන්වනවා. අපි ගොඩක් වැඩක් වැඩක් නිර්මාණයක් ප්රයෝජනය කරන්න ප්රයෝජනය සහ පින්තූර වාර්තාව සම්බන්ධ කරනවා, ඒ වගේම පින්තූර වාර්තාව සහ පින් මේ මොඩල් එක සාමාන්යයෙන් හොඳයි සංවිධානය කරන්න පුළුවන් සංවිධානයේ සංවිධානය නොදන්න පුළුවන් වෙන්න.Abstract
Modeli napisovanja slik se običajno ocenjujejo glede na njihovo sposobnost opisovanja zadržanega nabora slik, ne glede na njihovo sposobnost posploševanja na nevidne koncepte. Proučujemo problem kompozicijske generalizacije, ki meri, kako dobro model pri opisu slik sestavlja nevidne kombinacije konceptov. Najsodobnejši modeli napisovanja slik kažejo slabo uspešnost posploševanja pri tej nalogi. Predlagamo večopravilni model za reševanje slabe zmogljivosti, ki združuje ustvarjanje napisov in razvrščanje slike-stavkov ter uporablja dekodirni mehanizem, ki prerazvrsti napise glede na njihovo podobnost s sliko. Ta model je bistveno boljši pri posploševanju na nevidne kombinacije konceptov v primerjavi z najsodobnejšimi modeli napisovanja.Abstract
Sida caadiga ah sameynta sawirka waxaa lagu qiimeeyaa awooddooda in ay sawirro la sawiray, mana ay awoodin in ay soo bandhigaan fikrada qarsoon. Waxaynu baranaynaa dhibaatada soo saarista shirkadda, taasoo qiyaasa sida aad u sawirida muusikadu u kooban karto isku xiriir aan la arkayn marka lagu qoro sawirro. Tusaalada sawirka sawirka ee dowladda ah waxay ku muuqataa sameynta horumarinta oo baaraandegista. Waxaan soo jeedaynaa model shaqo badan oo ku hadla sameynta baahida, kaas oo isku daryeela farshaxanka sawirka iyo qaabka sawirka, wuxuuna isticmaalaa meymisyo kooban oo dib u sarraysa sawirkooda si u eg. Tusaaladan waxaa ka wanaagsan in la soo kordhiyo noocyada sawirka farshaxanta.Abstract
Modelet e titullimit të imazheve zakonisht vlerësohen në aftësinë e tyre për të përshkruar një sërë imazhesh, jo në aftësinë e tyre për të gjeneralizuar në koncepte të padukshme. Ne studiojmë problemin e gjeneralizimit kompozitiv, i cili masa sa mirë një model përbën kombinime të padukshme konceptesh kur përshkruan imazhe. Modelet e titullimit të imazhit më të lartë tregojnë rezultate të dobëta të gjeneralizimit në këtë detyrë. Ne propozojmë një model me shumë detyra për të trajtuar shfaqjen e keqe, që kombinon gjeneratën e titujve dhe renditjen e fjalëve imazhi dhe përdor një mekanizëm dekodimi që rendit titujt sipas ngjashmërisë së tyre me imazhin. Ky model është thelbësisht më i mirë në gjeneralizimin e kombinimeve të padukshme të koncepteve krahasuar me modelet e titullimit më të lartë.Abstract
Modeli snimanja slika obično se procjenjuju na njihovu sposobnost opisati određen set slika, a ne na njihovu sposobnost generalizacije nepredvidnih koncepta. Proučavamo problem kompozicionalne generalizacije, koji mjeri kako dobro model sastoji nevidljive kombinacije koncepta kada opisuje slike. Modeli nacionalne slike pokazuju siromašnu generalizaciju na ovom zadatku. Предлагамо многозадачни модел за решање слабих резултата, који комбинирују генерацију написа и решање израза, и корисује механизм декодирања који повтори решање написа са њихом сличном изобразу. Ovaj model je značajno bolji u generalizaciji nevidljivih kombinacija koncepta u usporedbi sa modelima stanja umjetnosti.Abstract
Bildtextningsmodeller utvärderas vanligtvis på deras förmåga att beskriva en utdragen uppsättning bilder, inte på deras förmåga att generalisera till osynliga begrepp. Vi studerar problemet med kompositionsgeneralisering, som mäter hur väl en modell komponerar osynliga kombinationer av begrepp när man beskriver bilder. De senaste bildtextningsmodellerna visar dålig generalisering av den här uppgiften. Vi föreslår en multi-task modell för att ta itu med den dåliga prestandan, som kombinerar bildgenerering och bildfrasrankning, och använder en avkodningsmekanism som omräknar bildtexterna efter deras likhet med bilden. Denna modell är betydligt bättre på att generalisera till osynliga kombinationer av begrepp jämfört med toppmoderna bildtexter modeller.Abstract
Mradi wa kuchukua picha mara nyingi hupitiwa kwa uwezo wao wa kuelezea picha zilizotengenezwa, na sio uwezo wao wa kutengeneza dhana isiyo fichikana. Tunafoma tatizo la uzalishaji wa mkusanyiko, ambalo linapima kiasi gani muundo unaunda muungano usiojulikana wa mawazo pale unapoelezea picha. Taswira za picha za sanaa zinaonyesha utengenezaji wa vizazi vibaya katika kazi hii. Tunazipendekeza mtindo wa kazi nyingi wa kuzungumzia utendaji wa maoni duni, ambao unaunganisha kizazi cha kuchukua picha na kiungo cha sentenca, na kutumia mfumo wa kupunguza vifaa vinavyofanana na picha. Mfano huu ni bora zaidi katika kutengeneza muunganiko wa asiyeonekana wa mawazo ukilinganishwa na hali ya maoni ya sanaa.Abstract
Image captioning models are usually evaluated on their ability to describe a held-out set of images, not on their ability to generalize to unseen concepts. பிம்பங்களை விவரிக்கும்போது ஒரு மாதிரி எவ்வாறு மறைக்கப்படாத கருத்துக்களை உருவாக்கும் பொழுது குறிப்பிடும். மாநிலை- கலை பிம்பம் பிடிப்பு மாதிரிகள் இந்த பணியில் ஏழை பொதுவான செயல்பாட்டை காட்டுகிறது. நாம் ஏழை செயல்பாட்டை விளக்கம் செய்ய பல பணி மாதிரியை பரிந்துரைக்கிறோம், அது தலைப்பு உருவாக்கி மற்றும் பிம்பத்தின் வாக்கு வரிசையை ஒன்று சேர்க இந்த மாதிரி மிகவும் நல்லது மறைக்கப்படாத கருத்துக்களின் இணைப்புகளை உருவாக்கும் பொருட்டு மாதிரி கலை பிடிப்பு மாதிரிகளAbstract
Resim küpşendirmek nusgalary adatça çykylmadyk surat üýtgetmek ukyplarynda deňlendirilýär, munuň pikirlerini görmezden çykarmak ukyplarynda döredilmez. Biz çykyş generalizasyň meselesini öwrenýär. Bu nusga suratlary azalýanda nähili gowy bir nusga çykýar. Resim gaýşartma nusgalary bu zadyň üstünde erbet döredijilik ukyplary görkezýär. Pisgeli işlemlerden çykmak üçin köp-täblik nusgasyny teklip edýäris. Bu käpşen döredişi we surat-sözlemler derejesini birleşdirýär we suratyň meňzeşligini ýene-düzümleýän kodleme mekanizmany ulanýar. Bu nusga düşünjelerin kombinasyonlary düzenlemekde has gowydyr.Abstract
تصویر کیپٹینگ نمڈلوں کو معمولاً ان کے قابلِ قدرت پر تحقیق کیا جاتا ہے کہ تصویروں کے ایک حفظ-آوت سٹ کو توصیف کریں، نہیں ان کے قابلِ عمومی طور پر کہ مشاهده نظریں کو بغیر مشاهده کریں۔ ہم اس مشکل کی تعلیم کررہے ہیں جو تصاویروں کی توصیف کرتی ہے کہ ایک مدل کس طرح اچھی طرح معلوم ہوتی ہے یہ کام پر کمزور عمومی فعالیت دکھاتے ہیں. ہم ایک بہت سی دنیا کی مدل پیشنهاد کرتے ہیں کہ کمزور عمل کے بارے میں مشکل کریں، جس نے کپٹن کی نسل اور تصویر کی جماعت کو جمع کرتا ہے، اور ایک دھوکا کرنے کی مکانیزی استعمال کرتا ہے جو ان کی تصویر کے مطابق کپٹوں کو دوبارہ رینگ کرتا ہے. یہ موڈل بہتر ہے کہ نظریں کی مخلوقات کے مطابق نظریں کی مخلوقات کے معاملہ میں بغیر نظریں کی مخلوقات میں بہتر ہے.Abstract
Name Biz tashkilot generalisining muammolarini o'rganamiz. Bu model rasmlarni tahrirlashda o'xshash o'ylab ko'rinadigan tushunchalarni qanday qiladi. Ushbu vazifani yaratish muvaffaqiyatsiz tugadi. Biz bir necha vazifa modelini tasavvur qilamiz, bu sarlavha generasi va rasm so'zlarini birlashtirish uchun bir necha vazifa modelini rasm sifatida qaytadan birlashtirish va sarlavhasini rasm sifatida qaytadan yuborish imkoniyatini ishlatish. This model is substantially better at generalizing to unseen combinations of concepts compared to state-of-the-art captioning models.Abstract
Các mô hình vẽ ảnh sẽ được đánh giá dựa trên khả năng mô tả một bộ ảnh bị bỏ rơi, chứ không phải khả năng tổng kết thành các thiết lập không nhìn thấy. Chúng tôi nghiên cứu vấn đề liên kết tổng hợp, nó đo đạc phương pháp mà mô hình cấu tạo các kết hợp định nghĩa vô hình khi mô tả ảnh. Các mô hình viết ảnh hiện đại không có hiệu quả tổng hợp trong nhiệm vụ này. Chúng tôi đề xuất một mô hình đa nhiệm vụ để đối phó với các hiệu ứng xấu, kết hợp cấp bậc ghi chú và hình ảnh, và sử dụng một cơ chế giải mã để xếp lại các hàm dựa trên nét giống nhau của chúng với ảnh. Mô hình này dùng để tổng hợp các khái niệm vô hình hơn so với các mô hình viết sách hiện đại.Abstract
图形以象,不以见为名。 吾论构图泛化,量象而合不见之名。 最先进图像字幕模形于此见差泛化性能。 设一多任务以决性不善,合字幕成象 - 句,以解码机字幕与相似性字幕。 比之先进字幕模形,推广不见之概为多。- Anthology ID:
- K19-1009
- Volume:
- Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL)
- Month:
- November
- Year:
- 2019
- Address:
- Hong Kong, China
- Venue:
- CoNLL
- SIG:
- SIGNLL
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 87–98
- Language:
- URL:
- https://aclanthology.org/K19-1009
- DOI:
- 10.18653/v1/K19-1009
- Bibkey:
- Cite (ACL):
- Mitja Nikolaus, Mostafa Abdou, Matthew Lamm, Rahul Aralikatte, and Desmond Elliott. 2019. Compositional Generalization in Image Captioning. In Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), pages 87–98, Hong Kong, China. Association for Computational Linguistics.
- Cite (Informal):
- Compositional Generalization in Image Captioning (Nikolaus et al., CoNLL 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/K19-1009.pdf
- Supplementary material:
- K19-1009.Supplementary_Material.pdf
- Code
- mitjanikolaus/compositional-image-captioning
- Data
- COCO
- Terminologies:
Export citation
@inproceedings{nikolaus-etal-2019-compositional, title = "Compositional Generalization in Image Captioning", author = "Nikolaus, Mitja and Abdou, Mostafa and Lamm, Matthew and Aralikatte, Rahul and Elliott, Desmond", booktitle = "Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL)", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/K19-1009", doi = "10.18653/v1/K19-1009", pages = "87--98", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="nikolaus-etal-2019-compositional"> <titleInfo> <title>Compositional Generalization in Image Captioning</title> </titleInfo> <name type="personal"> <namePart type="given">Mitja</namePart> <namePart type="family">Nikolaus</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Mostafa</namePart> <namePart type="family">Abdou</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Matthew</namePart> <namePart type="family">Lamm</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Rahul</namePart> <namePart type="family">Aralikatte</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Desmond</namePart> <namePart type="family">Elliott</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-11</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL)</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Hong Kong, China</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">nikolaus-etal-2019-compositional</identifier> <identifier type="doi">10.18653/v1/K19-1009</identifier> <location> <url>https://aclanthology.org/K19-1009</url> </location> <part> <date>2019-11</date> <extent unit="page"> <start>87</start> <end>98</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Compositional Generalization in Image Captioning %A Nikolaus, Mitja %A Abdou, Mostafa %A Lamm, Matthew %A Aralikatte, Rahul %A Elliott, Desmond %S Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL) %D 2019 %8 November %I Association for Computational Linguistics %C Hong Kong, China %F nikolaus-etal-2019-compositional %R 10.18653/v1/K19-1009 %U https://aclanthology.org/K19-1009 %U https://doi.org/10.18653/v1/K19-1009 %P 87-98
Markdown (Informal)
[Compositional Generalization in Image Captioning](https://aclanthology.org/K19-1009) (Nikolaus et al., CoNLL 2019)
- Compositional Generalization in Image Captioning (Nikolaus et al., CoNLL 2019)
ACL
- Mitja Nikolaus, Mostafa Abdou, Matthew Lamm, Rahul Aralikatte, and Desmond Elliott. 2019. Compositional Generalization in Image Captioning. In Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), pages 87–98, Hong Kong, China. Association for Computational Linguistics.