Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation Redigeerde Media Verstaan Raams: Redigeerding Aangaande die Intent en Implikasie van Visuele Miskienligting ማቀናጃ ሚዲያ ማስታወቂያ Frames: Reading about the Intent and Implications of Visual Misinformation أطر فهم الوسائط المحررة: التفكير في النية والآثار المترتبة على المعلومات المرئية المضللة Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation Редактирани медийни рамки за разбиране: Разбиране за намерението и последиците от визуалната погрешна информация সম্পাদনা করা মিডিয়া বুঝতে পারে ফ্রেম: দৃশ্যমান ভুল তথ্য সম্পর্কে পাঠানো হচ্ছে བསྒྱུར་བཅོས་བའི་འཇུག་སྣོད་རྟོགས་ཀྱི་བཀོད་རིས། མཐོང་ནུས་མེད་པའི་གནས་ཚུལ་གྱི་དཀའ་ངལ Redicirani okvir razumijevanja medija: Reakcija o intenzivnoj i provedbi vizuelnih nepravilnih informacija Cadastres d'enteniment dels mitjans editats: Reasoning About the Intent and Implications of Visual Misinformation Upravené média Porozumění rámcům: odůvodnění o záměru a důsledcích vizuálních dezinformací Redigerede medieforståelsesrammer: begrundelse om hensigten og konsekvenserne af visuel misinformation Edited Media Understanding Frames: Begründung über Intention und Implikationen visueller Fehlinformationen Επεξεργασμένα Μέσα Κατανόησης Πλαίσιων: Λόγος σχετικά με την πρόθεση και τις επιπτώσεις της οπτικής παραπληροφόρησης Marcos de comprensión de los medios editados: razonamiento sobre la intención y las implicaciones de la desinformación visual Muudetud meedia raamistike mõistmine: visuaalse valeinformatsiooni kavatsuse ja tagajärgede mõistmine فرمهای فهمیدن رسانهها ویرایش شده: دلایل دربارهی قصد و عملکرد اطلاعات غلطی دیده Edited Media Understanding Frames: järkeily visuaalisen harhatiedon tarkoituksesta ja seurauksista Cadres de compréhension des médias édités : raisonnement sur l'intention et les implications de la désinformation visuelle Frámaí Tuisceana Meáin Atheagraithe: Réasúnaíocht faoi Intinn agus Impleachtaí na Mífhaisnéise Amhairc KCharselect unicode block name מסגרי הבנה של התקשורת העורכים: הגיון לגבי הכוונה וההשלכות של מידע שגוי חזותי संपादित मीडिया समझ फ्रेम्स: दृश्य गलत जानकारी के इरादे और निहितार्थ के बारे में तर्क Redicirani okvir razumijevanja medija: Reakcija o intenzivnoj i provedbi vizuelnih pogrešnih informacija Szerkesztett m챕dia meg챕rt챕si keretek: A vizu찼lis t챕ves inform찼ci처 sz찼nd챕k찼r처l 챕s k철vetkezm챕nyeir흷l sz처l처 챕rvel챕s Խմբագրված լրատվամիջոցների հասկանալու շրջանակներ. Վիզուալ սխալ տեղեկատվության մտադրության և հետևանքների մասին պատճառը Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation Frames di comprensione dei media modificati: ragionare sull'intenzione e le implicazioni della disinformazione visiva 編集されたメディア理解フレーム:視覚的誤情報の意図と影響についての推論 Ngubah Media Tulung Sistem Panjenengan: Lisalasi Informasi Tentang Karo Int Karo Aplikasi Visual Misinformation რედაქტირებული მედიათან გაგრძნობის ფრამები: ვიზუალური შეცდომა ინტერნეტის და ინტერნეტის გამოყენება Өзгертілген медиа түсіндіру фреймдері: Көрінетін қате мәліметтердің қажетті және қолданбалары туралы себеп беру 미디어 이해 프레임워크 편집: 시각적 오류 정보의 의도와 의미에 대한 추리 Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation Уредени медиумски рамки за разбирање: Разумнување за намерата и импликациите на визуелни грешни информации ചിട്ടപ്പെട്ട മീഡിയ വിവരങ്ങള് ബുദ്ധിമുട്ടുന്ന ഫ്രെയിമുകള്: കാഴ്ചപ്പെടുത്തുന്നതിനെപ്പറ്റിയ Цахилгаан мэдээллийн ойлголтын фрэймүүд: Харин харагдаж буруу мэдээллийн талаар шалтгаан Name Qafas ta’ Ftehim tal-Midja Editati: Raġunar dwar l-Intenzjoni u l-Implikazzjonijiet ta’ Informazzjoni Mhux Viswali Edited Media Understanding Frames: Redenen over de intentie en implicaties van visuele misinformatie Redigerte ramme for forståking av mediar: Reaksjon om intensiteten og implementasjonar av synleg feilinformasjon Edytowane ramy rozumienia mediów: uzasadnianie intencji i konsekwencji błędnych informacji wizualnych Quadros de compreensão da mídia editada: raciocínio sobre a intenção e as implicações da desinformação visual Cadre de înțelegere media editate: raționament despre intenția și implicațiile dezinformării vizuale Отредактированные кадры понимания СМИ: рассуждения о намерениях и последствиях визуальной дезинформации සංපාදනය කරපු මාධ්යම තේරුම් ක්රමය: විදියල් වැරදි තොරතුරු ගැන හිතන්න Urejeni mediji razumevanje okvirov: razumevanje namena in posledic vizualnih napačnih informacij Edited Media Understanding Frames: Reading about the Intent and Implications of Visual Misinformation Kuadrat e ndryshuara të kuptimit të medias: arsyetimi rreth qëllimit dhe pasojave të gabimit të informacionit vizual Redicirani okvir razumevanja medija: Reakcija o intenzivnoj i provedbi vizuelnih nepravilnih informacija Redigerade media Förståelseramar: resonera om avsikten och konsekvenserna av visuell felaktig information Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation திருத்தப்பட்ட ஊடகம் புரிந்து கொள்ளும் சட்டங்கள்: காட்சியின் உள்ளடக்கம் மற்றும் சிக்கல்கள் பற்றி Edit Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation @ info Thay đổi khung hiểu biết phương tiện: Lý luận về ý định và ảnh hưởng của phim ảnh xấu 辑媒体解框架:视错误信息之意,理之动也
Jeff Da, Maxwell Forbes, Rowan Zellers, Anthony Zheng, Jena D. Hwang, Antoine Bosselut, Yejin Choi
Abstract
Understanding manipulated media, from automatically generated ‘deepfakes’ to manually edited ones, raises novel research challenges. Because the vast majority of edited or manipulated images are benign, such as photoshopped images for visual enhancements, the key challenge is to understand the complex layers of underlying intents of media edits and their implications with respect to disinformation. In this paper, we study Edited Media Frames, a new formalism to understand visual media manipulation as structured annotations with respect to the intents, emotional reactions, attacks on individuals, and the overall implications of disinformation. We introduce a dataset for our task, EMU, with 56k question-answer pairs written in rich natural language. We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. Our model obtains promising results on our dataset, with humans rating its answers as accurate 48.2 % of the time. At the same time, there is still much work to be done and we provide analysis that highlights areas for further progress.Abstract
Om te verstaan manipuleerde media, van outomatiese genereer `deepfakes' tot hand redigeerde media, verwek novele ondersoek uitdagings. Want die groot meeste van redigeerde of manipuleerde beelde is benigne, soos fotoskoppeerde beelde vir visuele verbeteringe, is die sleutel uitdaging om die komplekse lagte van ondersteunde doels van media redigeerders en hulle implikasie te verstaan met betrekking na disinformasie. In hierdie papier studeer ons Redigeerde Media Raams, 'n nuwe formalisme om visuale media manipulasie te verstaan as struktureerde annotasies met betrekking tot die doels, emosiele reaksies, atake op individuele en die hele inplikasies van disinformasie. Ons introduseer 'n datastel vir ons taak, EMU, met 56k vraag-antwoord paar skryf in ryk natuurlike taal. Ons evalueer 'n wyse verskillende visie-en-taal-modele vir ons taak, en introduseer 'n nuwe model PELICAN, wat bou op onlangse vordering in voorafgekeerde multimodale voorstellings. Ons model kry beloftende resultate op ons datastel, met mense wat sy antwoordes as presies 48.2% van die tyd bepaal. In dieselfde tyd is daar nog baie werk om te doen - en ons verskaf analisie wat die gebied verlig vir verdere vordering.Abstract
የ`ጠልቅ ውሸቶች' ከሆነው ወደ እጃቸው ያስተካክሉትን በማስተዋል፣ የረኀብ ትምህርት ጥያቄዎችን ያቆማል፡፡ ስለዚህም ብዙዎቹ የተቀረጹ ወይም የተጨማሪው ምስሎች ለራእይ ማድረግ የፎቶፖርት ምስሎችን ለማድረግ፣ የቁልጣኑ ጥያቄ የሚዲያ ማቀናጃ ጥቅምት እና በማስተዋል ጥያቄ ማውቅ ነው፡፡ በዚህ ፕሮግራም፣ አዲስ ሚዲያ ፍሬማዎችን ማስተምር፣ በአሳብ፣ የስሜት መልዕክቶች፣ በአካባቢዎች ላይ መጋደል እና የግንኙነትን በማስተዋል አዲስ ፎርማሌ ማድረግ እናስታውቃለን፡፡ አሜዩን ለስራችን የዳታ ደረጃዎችን እናስታውቃለን፡፡ We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. ምሳሌያችን ከጊዜው 48.2 በመቶ የሚቆጠሩ ሰዎች የመልሱን ውጤቶች በቁጥር የተስፋ ውጤቶች ያገኛል፡፡ በዚያች ሰዓት ደግሞ የሚደረገው ብዙ ሥራ አለባቸው - እናም ለመግለጫ የምናሳውቀውን ክፍሎች እናሳውቃለን፡፡Abstract
إن فهم الوسائط التي تم التلاعب بها ، من "التزييف العميق" الذي يتم إنشاؤه تلقائيًا إلى الوسائط التي تم تعديلها يدويًا ، يثير تحديات بحثية جديدة. نظرًا لأن الغالبية العظمى من الصور المحررة أو التي تم التلاعب بها حميدة ، مثل الصور التي تم تعديلها باستخدام برنامج فوتوشوب من أجل التحسينات المرئية ، فإن التحدي الرئيسي هو فهم الطبقات المعقدة للنوايا الأساسية لتعديلات الوسائط وآثارها فيما يتعلق بالمعلومات المضللة. في هذه الورقة ، ندرس إطارات الوسائط المحررة ، وهي شكلية جديدة لفهم التلاعب بالوسائط المرئية كتعليقات توضيحية منظمة فيما يتعلق بالنوايا وردود الفعل العاطفية والهجمات على الأفراد والآثار العامة للمعلومات المضللة. نقدم مجموعة بيانات لمهمتنا ، EMU ، مع 56 ألف زوج من الأسئلة والأجوبة مكتوبة بلغة طبيعية غنية. نقوم بتقييم مجموعة متنوعة من نماذج الرؤية واللغة لمهمتنا ، ونقدم نموذجًا جديدًا PELICAN ، والذي يعتمد على التقدم الأخير في التمثيلات متعددة الوسائط المحددة مسبقًا. حصل نموذجنا على نتائج واعدة في مجموعة البيانات الخاصة بنا ، حيث صنف البشر إجاباته على أنها دقيقة بنسبة 48.2٪ من الوقت. في الوقت نفسه ، لا يزال هناك الكثير من العمل الذي يتعين القيام به - ونقدم تحليلاً يسلط الضوء على المجالات التي تحتاج إلى مزيد من التقدم.Abstract
Müxtəlif mediyaları anlamaq, avtomatik `deep fakes' vasitəsindən əl düzəltənlərə qədər təmizlənir, yeni araştırma çətinliklərini artırar. Çünki düzenlən və manipul görüntülərin çoxunun fotoskopda görüntülər kimi görüntülər yaxşılıqlarına bənzəyir, böyük çətinlik is ə mediya düzenleyicilərinin kompleks niyyətlərinin və disinformasyona görə onların implikasını anlamaqdır. Bu kağıtda biz Edited Media Frames təhsil edirik, yeni formalizm, vizuel media manipulasyonu niyyətlərə, emosiyal reaksiyonlara, indilərə saldıqlarına və bütün disinformasyonun dəyişikliklərini anlamaq üçün müəyyən etdik. Biz işimizin EMU üçün bir veri qurğunu tanıdırırıq, 56 k sual-cavab çift sayəsində baxış təbiətli dildə yazılmış. Bizim görevimiz üçün çoxlu görünüş və dil modellərini değerlendiririk və yeni PELICAN modellərini təşkil edirik ki, çoxlu modal təşkil göstərilmələrində yeni tədbir üzərində in şa edir. Modelimiz verilənlərin cəzasını tam 48.2% kimi dəyişdirir. Aynı zamanda hələ də çox iş edəcəyik - və biz daha çox ilerleme üçün bölgelerini işıqlandırmaq üçün analizi təmin edirik.Abstract
Разбирането на манипулираните медии, от автоматично генерирани "дълбоки кадри" до ръчно редактирани, повдига нови изследователски предизвикателства. Тъй като по-голямата част от редактираните или манипулирани изображения са доброкачествени, като например фотошопираните изображения за визуални подобрения, ключовото предизвикателство е да се разберат сложните слоеве от основните намерения на медийните редакции и техните последици по отношение на дезинформацията. В настоящата статия изследваме Редактирани медийни рамки, нов формализъм за разбиране на визуалната медийна манипулация като структурирани анотации по отношение на намеренията, емоционалните реакции, атаките срещу индивида и цялостните последици от дезинформацията. Представяме набор от данни за нашата задача, ИПС, с 56 000 двойки въпроси-отговори, написани на богат естествен език. Ние оценяваме голямо разнообразие от визионни и езикови модели за нашата задача и въвеждаме нов модел който се основава на скорошния напредък в предварително обучените мултимодални представи. Нашият модел получава обещаващи резултати на нашия набор от данни, като хората оценяват отговорите му като точни 48.2% от времето. В същото време все още има много работа за вършене - и ние предоставяме анализ, който подчертава областите за по-нататъшен напредък.Abstract
স্বয়ংক্রিয়ভাবে 'গভীর মিডিয়া' সৃষ্টি করেছে হাতে সম্পাদনা করা হয়েছে, স্বয়ংক্রিয়ভাবে গবেষণার চ্যালেঞ্জ তৈরি করেছে। কারণ সম্পাদনা বেশীরভাগ ছবিগুলো প্রতিষ্ঠান অথবা ম্যানিপালেট করা হয়েছে, যেমন দৃশ্য উন্নতির জন্য ফটোশপের ছবি, মূল চ্যালেঞ্জ হচ্ছে মিডিয়া সম্পাদকদের অন্তর্ভুক্ত কারণে In this paper, we study Edited Media Frames, a new formalism to understand visual media manipulation as structured annotations with respect to the intents, emotional reactions, attacks on individuals, and the overall implications of disinformation. আমরা আমাদের কাজের জন্য একটি ডাটাসেট পরিচয় করিয়ে দিচ্ছি যার মধ্যে প্রশ্নের প্রশ্নের উত্তর দিয়ে প্রাকৃতিক ভাষায় ল আমরা আমাদের কাজের জন্য বিভিন্ন ভিন্ন ভিন্ন ভাষার মডেল মুল্যায়ন করি এবং একটি নতুন মডেল পেলিকান পরিচয় করিয়ে দেই, যা সাম্প্রতিক অগ্রগতিতে প্রাপ্ত আমাদের মডেল আমাদের ডাটাসেটে প্রতিশ্রুতিশীল ফলাফল পেয়েছে, যার ফলে মানুষ তার উত্তরের সুস্পষ্ট সময়ের ৪৮. একই সাথে এখনও অনেক কাজ করা যাচ্ছে- আর আমরা বিশ্লেষণ দিচ্ছি যা আরো অগ্রগতির জন্য বিশ্লেষণ করা হয়েছে।Abstract
ལག་སྟར་བཟོ་བྱེད་པའི་འཇུག་ཟམ་གྱི་་ལ་རང་འགུལ་གྱིས་ `deepfakes'ནི་རང་བཞིན་གྱིས་ཞུན་དག་བྱེད་ཀྱི་ཡོད། གང་ལགས་ཞེ་ན། བསྒྱུར་བཅོས་དང་བཟོ་བཅོས་འབད་བའི་གཟུགས་རིས་ཆེ་ཆུང་དེ་དམིགས་བསལ་བ་ཡིན། འོག་གི་ཤོག་བུ་འདིའི་ནང་དུ་ང་ཚོས་ཀྱིས་བསྒྱུར་བཅོས་ཐབས་ལམ་གྱི་བཟོ་རྣམ་གསར་པ་ཞིག་གིས་ལྟ་བུ་འཇུག་སྣོད་ཀྱི་བཟོ་བཅོས་སྤྲོད་ཡོད་པ་དང་། ང་ཚོས་རང་གི་བྱ་ཚིག་ལ་ཆ་གནད་སྡུད་ཚན་ཞིག་སྤྲོད་ཀྱི་ཡིག་ཆ་གནད་ཅིག་ལ་ངོས་འཛིན་ཡོད། ང་ཚོས་མཐོང་སྣང་དང་སྐད་རིགས་ཀྱི་མིག ང་ཚོའི་མིག་གཟུགས་རྣམས་ཀྱིས་ངའི་ཆ་འཕྲིན་ཡིག་ཆ་ལ་བསམ་བློ་གཏོང་བ་རེད། དུས་གཅིག་པ་དེ་ལས་ཀ་ལས་སྒྲུབ་དགོས་པ་མང་པོ་ཡོད། ང་ཚོས་རྒྱལ་ཁབ་གཞན་ཡར་རྒྱས་གཏོང་མཁན་གྱི་མདུན་ཁྱད་Abstract
Razumijevanje manipuliranih medija, od automatskog proizvedenog `dubokih lažnih' do ručno editiranih, povećava nove istraživačke izazove. Jer je većina editiranih ili manipuliranih slika dobra, kao što su fotoskopske slike za vizualne poboljšanje, ključni izazov je razumijevanje kompleksnih slojeva temeljnih namera editora medija i njihovih implikacija u vezi dezinformacije. U ovom papiru proučavamo Editirane medijske okvire, novi formalizm za razumijevanje manipulacije vizuelnih medija kao strukturirane annotacije u vezi namera, emocionalnih reakcija, napada na pojedince i ukupne implikacije dezinformacije. Predstavljamo sastanak podataka za naš zadatak, EMU, sa 56k par odgovora na pitanje napisanih na bogatom prirodnom jeziku. Procjenjujemo široke razne modele vizije i jezika za naš zadatak, i predstavljamo novi model PELICAN, koji se temelji na nedavnom napretku u prethodnim multimodalnim predstavljanjima. Naš model dobija obećavajuće rezultate na našem setu podataka, a ljudi ocjenjuju svoje odgovore kao tačno 48,2% vremena. U is to vrijeme, još uvijek ima mnogo posla koji treba obaviti - i pružamo analizu koja ukazuje na područje za daljnji napredak.Abstract
Entendre els mitjans manipulats, des de les 'falsificacions profundes' generades automàticament fins a les editades manualment, provoca nous reptes de recerca. Perquè la gran majoria de les imatges editades o manipulades són benignes, com les imatges fotoaparellades per millorar la visió, el repte clau és entendre les capes complexes de les intencions subjacents de les edicions dels mitjans de comunicació i les seves implicacions en relació a la desinformació. En aquest article estudiem Edited Media Frames, un nou formalisme per entendre la manipulació visual dels mitjans com anotacions estructuradas en relació a les intencions, reaccions emocionals, atacs a individus i les implicacions generals de la desinformació. Introduïm un conjunt de dades per a la nostra tasca, UEM, amb 56k parells de respostes a preguntes escrits en llenguatge natural ric. Evaluam una gran varietat de models de visió i llenguatge per a la nostra tasca, i introduïm un nou model PELICAN, que es basa en el progrés recent en representacions multimodals pré-treinades. El nostre model obté resultats prometedors en el nostre conjunt de dades, amb els humans classificant les seves respostes com el 48,2% del temps. Al mateix temps, encara hi ha molta feina a fer - i proporcionem anàlisis que destaquen les àrees per avançar més.Abstract
Porozumění manipulovaným médiím, od automaticky generovaných "deepfakes" po ručně editovaná, vyvolává nové výzkumné výzvy. Vzhledem k tomu, že drtivá většina upravených nebo manipulovaných obrázků je benigní, jako jsou fotoshopové obrázky pro vizuální vylepšení, klíčovou výzvou je porozumět složitým vrstvám základních záměrů mediálních úprav a jejich důsledkům s ohledem na dezinformace. V tomto článku studujeme Editované mediální rámce, nový formalismus, který chápe manipulaci vizuálních médií jako strukturované anotace s ohledem na záměry, emoční reakce, útoky na jednotlivce a celkové implikace dezinformace. Představujeme datovou sadu pro náš úkol EMU s 56k páry otázek-odpověď napsanými v bohatém přirozeném jazyce. Pro náš úkol hodnotíme širokou škálu vizních a jazykových modelů a představujeme nový model PELICAN, který staví na nedávném pokroku v předtrénovaných multimodálních reprezentacích. Náš model dosahuje slibných výsledků na našem datovém souboru, přičemž lidé hodnotí jeho odpovědi jako přesné 48,2% času. Zároveň je ještě třeba vykonat mnoho práce a poskytujeme analýzu, která upozorňuje na oblasti dalšího pokroku.Abstract
Forståelse af manipulerede medier, fra automatisk genererede `deepfakes' til manuelt redigerede medier, rejser nye forskningsudfordringer. Fordi langt de fleste redigerede eller manipulerede billeder er godartede, såsom photoshoppede billeder til visuelle forbedringer, er den vigtigste udfordring at forstå de komplekse lag af underliggende intentioner af medieredigeringer og deres konsekvenser med hensyn til desinformation. I denne artikel studerer vi Edited Media Frames, en ny formalisme til at forstå visuel mediemanipulation som strukturerede annotationer med hensyn til intentioner, følelsesmæssige reaktioner, angreb på individer og de overordnede konsekvenser af desinformation. Vi introducerer et datasæt til vores opgave, ØMU, med 56k spørgsmål-svar par skrevet i et rigt naturligt sprog. Vi evaluerer en lang række visions- og sprogmodeller til vores opgave, og introducerer en ny model PELICAN, som bygger på de seneste fremskridt i forudtrænede multimodale repræsentationer. Vores model opnår lovende resultater på vores datasæt, hvor mennesker vurderer svarene som nøjagtige 48.2% af tiden. Samtidig er der stadig meget arbejde, der skal gøres - og vi leverer analyser, der fremhæver områder, hvor der skal gøres yderligere fremskridt.Abstract
Das Verständnis manipulierter Medien, von automatisch generierten Deepfakes bis hin zu manuell bearbeiteten Medien, wirft neue Forschungsherausforderungen auf. Da die überwiegende Mehrheit der bearbeiteten oder manipulierten Bilder gutartig ist, wie Photoshop-Bilder für visuelle Verbesserungen, besteht die zentrale Herausforderung darin, die komplexen Ebenen der zugrunde liegenden Intentionen von Medienbearbeitungen und deren Implikationen in Bezug auf Desinformation zu verstehen. In diesem Beitrag untersuchen wir Edited Media Frames, einen neuen Formalismus, um visuelle Medienmanipulation als strukturierte Annotationen in Bezug auf Intentionen, emotionale Reaktionen, Angriffe auf Individuen und die allgemeinen Implikationen von Desinformation zu verstehen. Wir stellen einen Datensatz für unsere Aufgabe, die EMU, mit 56k Frage-Antwort-Paaren vor, die in reicher natürlicher Sprache geschrieben sind. Wir evaluieren eine Vielzahl von Vision- und Sprachmodellen für unsere Aufgabe und führen ein neues Modell PELICAN ein, das auf den jüngsten Fortschritten in vortrainierten multimodalen Darstellungen aufbaut. Unser Modell erzielt vielversprechende Ergebnisse auf unserem Datensatz, wobei Menschen seine Antworten als genau 48,2% der Zeit bewerten. Gleichzeitig gibt es noch viel zu tun, und wir liefern Analysen, die Bereiche aufzeigen, die weitere Fortschritte erfordern.Abstract
Η κατανόηση των επεξεργασμένων μέσων, από αυτόματα παραγόμενα "deepfakes" έως χειροκίνητα επεξεργασμένα, δημιουργεί νέες ερευνητικές προκλήσεις. Επειδή η συντριπτική πλειοψηφία των επεξεργασμένων ή επεξεργασμένων εικόνων είναι καλοήθης, όπως οι εικόνες που έχουν υποστεί Photoshop για οπτικές βελτιώσεις, η βασική πρόκληση είναι να κατανοήσουμε τα σύνθετα στρώματα των υποκείμενων προθέσεων των επεξεργασιών μέσων και τις επιπτώσεις τους σε σχέση με την παραπληροφόρηση. Στην παρούσα εργασία, μελετάμε τα επεξεργασμένα πλαίσια πολυμέσων, έναν νέο φορμαλισμό για να κατανοήσουμε τον χειρισμό οπτικών μέσων ως δομημένες σχολιασμοί σε σχέση με τις προθέσεις, τις συναισθηματικές αντιδράσεις, τις επιθέσεις σε άτομα και τις γενικές επιπτώσεις της παραπληροφόρησης. Εισάγουμε ένα σύνολο δεδομένων για το έργο μας, την ΟΝΕ, με ζεύγη ερωτήματος-απάντησης 56γραμμένα σε πλούσια φυσική γλώσσα. Αξιολογούμε μια μεγάλη ποικιλία προτύπων οράματος και γλώσσας για το έργο μας, και εισάγουμε ένα νέο μοντέλο το οποίο βασίζεται στην πρόσφατη πρόοδο στις προ-εκπαιδευμένες πολυμορφικές αναπαραστάσεις. Το μοντέλο μας λαμβάνει πολλά υποσχόμενα αποτελέσματα στο σύνολο δεδομένων μας, με τους ανθρώπους να αξιολογούν τις απαντήσεις του ως ακριβείς 48,2% του χρόνου. Ταυτόχρονα, υπάρχει ακόμα πολλή δουλειά που πρέπει να γίνει και παρέχουμε ανάλυση που επισημαίνει τομείς για περαιτέρω πρόοδο.Abstract
Comprender los medios manipulados, desde los «deepfake» generados automáticamente hasta los editados manualmente, plantea nuevos desafíos de investigación. Debido a que la gran mayoría de las imágenes editadas o manipuladas son benignas, como las imágenes retocadas con Photoshop para mejoras visuales, el desafío clave es comprender las complejas capas de intenciones subyacentes de las ediciones de medios y sus implicaciones con respecto a la desinformación. En este artículo, estudiamos Edited Media Frames, un nuevo formalismo para entender la manipulación de los medios visuales como anotaciones estructuradas con respecto a las intenciones, las reacciones emocionales, los ataques a los individuos y las implicaciones generales de la desinformación. Presentamos un conjunto de datos para nuestra tarea, la UEM, con 56 000 pares de preguntas y respuestas escritas en un lenguaje natural rico. Evaluamos una amplia variedad de modelos de visión y lenguaje para nuestra tarea e introducimos un nuevo modelo PELICAN, que se basa en los avances recientes en representaciones multimodales previamente entrenadas. Nuestro modelo obtiene resultados prometedores en nuestro conjunto de datos, y los humanos califican sus respuestas como precisas el 48,2% de las veces. Al mismo tiempo, todavía queda mucho trabajo por hacer, y ofrecemos un análisis que destaca las áreas para un mayor progreso.Abstract
Manipuleeritud meediakanalite mõistmine automaatselt genereeritud sügavkookidest käsitsi redigeeritud meediakanaliteni tekitab uudseid uurimisprobleeme. Kuna enamik redigeeritud või manipuleeritud pilte on healoomulised, näiteks fotoshopitud pildid visuaalse täiustamise eesmärgil, on peamine väljakutse mõista meediamuutuste aluseks olevaid keerukaid kihte ja nende mõju valeinformatsioonile. Käesolevas töös uurime Edited Media Frames, uut formaalsust mõista visuaalse meedia manipuleerimist kui struktureeritud märkmeid kavatsuste, emotsionaalsete reaktsioonide, inimeste rünnakute ja valeinfo üldiste tagajärgede kohta. Tutvustame oma ülesande EMU andmekogumit 56k küsimuste ja vastuste paari, mis on kirjutatud rikkalikus looduskeeles. Hindame oma ülesande jaoks mitmesuguseid visiooni- ja keelemudeleid ning tutvustame uut mudelit PELICAN, mis tugineb hiljutistele edusammudelitele eelkoolitatud multimodaalsete esinduste valdkonnas. Meie mudel annab meie andmekogumile paljulubavaid tulemusi, inimesed hindavad selle vastuseid täpseteks 48,2% ajast. Samal ajal on veel palju tööd teha - ja me esitame analüüsi, milles tuuakse esile valdkonnad, kus edasisi edusamme teha.Abstract
درک رسانههای تغییر داده شده، از طریق خودکار „دروغهای عمیق” به دستی تغییر داده شده، چالشهای تحقیقات نوی را بالا میبرد. زیرا اکثریت تصاویر ویرایش یا تغییر تغییر داده شده، مانند تصاویر تصاویر تصاویر تغییر داده شده برای افزایش دیده، چالش کلید این است که درک لایههای پیچیدهای از هدفهای ویرایش رسانهها و تاثیرهایشان در مورد تغییر اطلاعات است. در این کاغذ، ما فرمهای رسانههای ویدژهشده را مطالعه میکنیم، فرمهای جدید برای فهمیدن تغییرات رسانههای دیدهای به عنوان اظهارهای ساختهشده در مورد هدفها، واکنشهای احساساتی، حمله به فردها، و تمام اثراتهای ناخبریها را ما یک مجموعه اطلاعات برای کار ما، EMU را معرفی میکنیم، با جفتهای 56k سوال جواب در زبان طبیعی ثروتمند نوشته شده است. ما مدل های مختلف دید و زبان را برای کار ما ارزیابی می کنیم و مدل جدید PELICAN را معرفی می کنیم که بر روی پیشرفت اخیر در نمایش های مختلف مدل پیش گرفته است. مدل ما نتیجههای قولدهنده در مجموعهی دادههای ما را میگیرد، با انسانها جوابهایش را به اندازه 48.2% دقیق از زمان ارزش میدهند. در همین زمان، هنوز کار زیادی برای انجام انجام وجود دارد، و ما تحلیل می کنیم که منطقهها را برای پیشرفت بیشتر تشکیل میدهد.Abstract
Manipuloidun median ymmärtäminen automaattisesti luoduista deepfakeista käsin muokattuihin herättää uusia tutkimushaasteita. Koska suurin osa muokatuista tai manipuloiduista kuvista on hyvänlaatuisia, kuten photoshopatetut kuvat visuaalisia parannuksia varten, keskeinen haaste on ymmärtää mediamuokkauksen taustalla olevia monimutkaisia kerroksia ja niiden vaikutuksia väärinformaatioon. Tässä artikkelissa tutkimme Edited Media Frames -mallia, joka on uusi formalismi ymmärtää visuaalisen median manipulointia jäsennellyinä huomautuksina koskien aikomuksia, emotionaalisia reaktioita, hyökkäyksiä yksilöihin ja disinformaation yleisiä vaikutuksia. Esittelemme tehtäväämme, EMU:hun, datajoukon, jossa on 56k kysymys-vastausparia, jotka on kirjoitettu rikkaalla luonnollisella kielellä. Arvioimme tehtäväämme monenlaisia visio- ja kielimalleja ja esittelemme uuden mallin PELICAN, joka perustuu viimeaikaiseen edistykseen esikoulutetuissa multimodaalisissa representaatioissa. Mallimme saa lupaavia tuloksia aineistostamme, ja ihmiset arvioivat sen vastaukset tarkkuudeksi 48.2% ajasta. Samaan aikaan on vielä paljon tehtävää - ja teemme analyysin, jossa tuodaan esiin aloja, joilla on vielä edistyttävä.Abstract
Comprendre les médias manipulés, des « deepfake » générés automatiquement aux médias édités manuellement, soulève de nouveaux défis de recherche. Étant donné que la grande majorité des images éditées ou manipulées sont bénignes, comme les images photoshoppées pour des améliorations visuelles, le principal défi consiste à comprendre les couches complexes des intentions sous-jacentes des modifications médiatiques et leurs implications en matière de désinformation. Dans cet article, nous étudions Edited Media Frames, un nouveau formalisme pour comprendre la manipulation des médias visuels comme des annotations structurées en ce qui concerne les intentions, les réactions émotionnelles, les attaques contre les individus et les implications globales de la désinformation. Nous introduisons un jeu de données pour notre tâche, EMU, avec 56 000 paires questions-réponses écrites dans un langage naturel riche. Nous évaluons une grande variété de modèles de vision et de langage pour notre tâche et introduisons un nouveau modèle PELICAN, qui s'appuie sur les récents progrès réalisés dans les représentations multimodales préentraînées. Notre modèle obtient des résultats prometteurs sur notre base de données, les humains évaluant ses réponses comme étant exactes 48,2 % du temps. Dans le même temps, il reste encore beaucoup de travail à faire, et nous fournissons des analyses qui mettent en évidence les domaines dans lesquels des progrès supplémentaires sont nécessaires.Abstract
Cruthaíonn tuiscint ar mheáin ionramháilte, ó `dhoimhne a ghintear go huathoibríoch go dtí cinn arna gcur in eagar de láimh, dúshláin nua taighde. Toisc go bhfuil formhór mór na n-íomhánna curtha in eagar nó ionramháilte neamhurchóideach, mar íomhánna photoshopped le haghaidh feabhsuithe amhairc, is é an príomhdhúshlán ná tuiscint a fháil ar na sraitheanna casta de bhunchuspóirí eagarthóireachta meán agus a n-impleachtaí maidir le dífhaisnéis. Sa pháipéar seo, déanaimid staidéar ar Edited Media Frames, foirmiúlacht nua chun tuiscint a fháil ar ionramháil na meán amhairc mar nótaí struchtúracha maidir le hintinn, frithghníomhartha mothúchánacha, ionsaithe ar dhaoine aonair, agus impleachtaí foriomlána na dífhaisnéise. Tugaimid isteach tacar sonraí dár dtasc, EMU, le 56k péirí ceist-freagra scríofa i dteanga shaibhir nádúrtha. Déanaimid meastóireacht ar raon leathan samhlacha fís-agus-teanga dár dtasc, agus tugtar isteach samhail nua PELICAN, a thógann ar an dul chun cinn a rinneadh le déanaí i léirithe ilmhódacha réamhoilte. Faigheann ár múnla torthaí dóchasacha ar ár dtacar sonraí, agus rátálann daoine go bhfuil a chuid freagraí cruinn 48.2% den am. Ag an am céanna, tá go leor oibre le déanamh go fóill – agus cuirimid anailís ar fáil a leagann béim ar réimsí le tuilleadh dul chun cinn a dhéanamh.Abstract
Ana gane mutane da aka zartar da shi, daga an ƙididdige `Depth' zuwa masu edited da hannun na hannun, yana tãyar da zane-zane masu fassarar littafin. Ko kuwa masu yawa masu edited ko da aka mani-tunkuɗe surar, kamar misãlan zane-zane da aka nuna, za'a fahimta musamman zane-zane masu ƙaranci ga zane-zane-zane da suka yi amfani da zane-zane-zane-zane da kuma masu husũma ga zane-zane-zane-zane. Daga wannan takardan, munã karanta Edited Media Frames, wata new formalism da za'a fahimta maniyyar da zane-zane da zane-zane-zane-zane-zane-zane kamar an baka zartar da zane-zane, masu aikin hisia'a, masu shawara kan mutane da ke cikin bayani. Tuna fara wani dangani na aikinmu, EMU, da masu da masu sakan-jiban nau'in da aka rubũta cikin harshen matalauci. Tuna ƙaddara wasu misãlai masu ganin da harshe wa aikin mu, kuma Mu ƙara wata misãlai na FILCAN, wanda ke samar da mafarinsa a yanzu-yanzu a shekara ta bayyana misãlai masu yawa. Tuddanmu yana sãmu matsala masu yi wa'adi a kan set'ananmu, da mutane sunã riƙon jayarsa kamar asilimin 48.2 na lokacin. A sami guda, akwai aiki mai yawa wanda za'a aikata - kuma Munã samar da anaƙalumi wanda ke bayana masu gabatar da kodi.Abstract
להבין תקשורת מניפוליציה, מייצרת אוטומטית 'מזויפות עמוקות' לאלה שעוררים ידנית, מעלה אתגרים מחקרים חדשים. Because the vast majority of edited or manipulated images are benign, such as photoshopped images for visual enhancements, the key challenge is to understand the complex layers of underlying intents of media edits and their implications with respect to disinformation. בעיתון הזה, אנחנו לומדים מערכות מדיה מוערכות, רשמיות חדשה להבין מניפולציה ויזואלית של מדיה כציונים מובנים בנוגע לכוונות, תגובות רגשיות, תקיפות על אנשים, וההשלכות הכלליות של הפרעת מידע. אנחנו מציגים קבוצת נתונים למשימה שלנו, EMU, עם 56K זוגות תשובות-שאלות כתובות בשפה טבעית עשירה. אנו מעריכים מגוון רחב של דוגמנים חזון ושפה למשימה שלנו, והציגנו מודל חדש PELICAN, שמבונה על התקדמות האחרונה ביציגות multimodal מאומנות מראש. המודל שלנו מקבל תוצאות מבטיחות על קבוצת המידע שלנו, עם בני האדם מעריכים את תשובותיו כמדווקא 48.2% מהזמן. באותו הזמן, יש עדיין הרבה עבודה לעשות - ואנחנו מספקים ניתוח שמדגיש אזורים להתקדמות נוספת.Abstract
मैनिपुलेटेड मीडिया को समझना, स्वचालित रूप से उत्पन्न 'डीपफेक' से मैन्युअल रूप से संपादित लोगों तक, उपन्यास अनुसंधान चुनौतियों को उठाता है। क्योंकि संपादित या हेरफेर की गई छवियों का विशाल बहुमत सौम्य है, जैसे कि दृश्य संवर्द्धन के लिए फ़ोटोशॉप की गई छवियां, प्रमुख चुनौती मीडिया संपादनों के अंतर्निहित इरादों की जटिल परतों और गलत सूचना के संबंध में उनके निहितार्थों को समझना है। इस पेपर में, हम संपादित मीडिया फ्रेम्स का अध्ययन करते हैं, जो इरादों, भावनात्मक प्रतिक्रियाओं, व्यक्तियों पर हमलों और गलत सूचना के समग्र निहितार्थों के संबंध में संरचित एनोटेशन के रूप में दृश्य मीडिया हेरफेर को समझने के लिए एक नई औपचारिकता है। हम अपने कार्य के लिए एक डेटासेट पेश करते हैं, ईएमयू, समृद्ध प्राकृतिक भाषा में लिखे गए 56k प्रश्न-उत्तर जोड़े के साथ। हम अपने कार्य के लिए दृष्टि-और-भाषा मॉडल की एक विस्तृत विविधता का मूल्यांकन करते हैं, और एक नया मॉडल PELICAN पेश करते हैं, जो पूर्वप्रशिक्षित मल्टीमॉडल प्रतिनिधित्व में हाल की प्रगति पर बनाता है। हमारा मॉडल हमारे डेटासेट पर आशाजनक परिणाम प्राप्त करता है, जिसमें मनुष्य अपने उत्तरों को सटीक 48.2% समय के रूप में रेटिंग देते हैं। उसी समय, अभी भी बहुत काम किया जाना है - और हम विश्लेषण प्रदान करते हैं जो आगे की प्रगति के लिए क्षेत्रों को उजागर करता है।Abstract
Razumijevanje manipuliranih medija, od automatski proizvedenih `dubokih lažnih' do ručno uredenih, povećava nove istraživačke izazove. Jer je većina editiranih ili manipuliranih slika dobra, poput fotoskopskih slika za vizualne poboljšanje, ključni izazov je razumijevanje kompleksnih slojeva temeljnih namjera editora medija i njihovih implikacija u vezi dezinformacije. U ovom papiru, proučavamo Editirane medijske okvire, novi formalizm za razumijevanje manipulacije vizuelnih medija kao strukturirane annotacije u vezi namjera, emocionalnih reakcija, napada na pojedince i ukupne implikacije dezinformacije. Upoznajemo sastanak podataka za naš zadatak, EMU, sa 56k odgovornih par pitanja napisanih na bogatom prirodnom jeziku. Procjenjujemo široke razne modele vizije i jezika za naš zadatak i predstavljamo novi model PELICAN, koji se temelji na nedavnom napretku u prethodnim multimodalnim predstavljanjima. Naš model dobija obećavajuće rezultate na našem sastavu podataka, a ljudi ocjenjuju svoje odgovore kao tačne 48,2% vremena. U is to vrijeme, još uvijek treba obaviti mnogo posla - i pružamo analizu koja ukazuje na područje daljnjeg napretka.Abstract
A manipulált médiumok megértése, az automatikusan generált "deepfakes"-től a manuálisan szerkesztett médiumokig, új kutatási kihívásokat vet fel. Mivel a szerkesztett vagy manipulált képek túlnyomó többsége jóindulatú, például a photoshoppolt képek vizuális fejlesztésekhez, a legfontosabb kihívás az, hogy megértsük a médiaszerkesztések alapjául szolgáló szándékok komplex rétegeit és azok hatásait a dezinformációval kapcsolatban. Ebben a tanulmányban a Edited Media Frames-t tanulmányozzuk, egy új formalizmust, amely a vizuális média manipulációját strukturált megjegyzésekként értelmezi a szándékok, érzelmi reakciók, az egyének elleni támadások és a dezinformáció általános következményei tekintetében. A feladatunkhoz, a GMU-hoz vezetünk be egy adatkészletet, amely 56 ezer kérdés-válasz párt tartalmaz gazdag természetes nyelven. Feladatunkhoz számos látási és nyelvi modellt értékelünk, és bevezetünk egy új PELICAN modellt, amely az előkészített multimodális reprezentációk legutóbbi előrehaladására épül. Modellünk ígéretes eredményeket ér el adatkészletünkön, az emberek válaszait az esetek 48.2%-ában pontosnak értékelik. Ugyanakkor még sok a tennivaló - és elemzést adunk, amely kiemeli a további előrelépésre szükséges területeket.Abstract
Մանիպուլիզացված լրատվամիջոցների հասկանալը, ավտոմատ ստեղծված «խորը կեղծիքներ» մինչև ձեռքով խմբագրված լրատվամիջոցներ, առաջացնում է նոր ուսումնասիրության մարտահրավեր: Քանի որ խմբագրված կամ մանիպուլյացված պատկերների մեծ մասը բարի են, ինչպիսիք են լուսանկարները տեսողական բարելավման համար, հիմնական մարտահրավերն այն է, որ հասկանանք լրատվամիջոցների խմբագրված նպատակների բարդ շերտերը և դրանց հետևանքները դեզինֆորմացիայի հետ կապված: Այս թղթի մեջ մենք ուսումնասիրում ենք "Խմբագրված լրատվամիջոցներ", նոր ֆորմալիզմ, որպեսզի հասկանանք տեսողական լրատվամիջոցների մանիպուլյացիան որպես կառուցվածված նոտացիաներ նպատակների, էմոցիոնալ ռեակցիաների, անհատների վրա հարձա We introduce a dataset for our task, EMU, with 56k question-answer pairs written in rich natural language. Մենք գնահատում ենք մեր խնդրի համար տեսողական և լեզվային մոդելներ և ներկայացնում ենք նոր մոդել, որը հիմնված է վերջին անգամ առաջընթացի վրա նախավարժված բազմամոդային ներկայացումներում: Մեր մոդելը ստանում է խոստացնող արդյունքներ մեր տվյալների համակարգում, մարդիկ գնահատում են պատասխանները որպես ժամանակի ճշգրիտ 48.2 տոկոս: Միևնույն ժամանակ, դեռևս շատ աշխատանք կա անելու, և մենք կատարում ենք վերլուծություններ, որոնք նշանակում են ավելի շարունակ առաջընթացի ոլորտները:Abstract
Memahami media manipulasi, dari secara otomatis menghasilkan 'palsu dalam' ke yang diredit secara manual, menaikkan tantangan penelitian baru. Karena kebanyakan gambar yang diubah atau dimanipulasi adalah benign, seperti gambar fotoskop untuk peningkatan visual, tantangan kunci adalah untuk memahami lapisan kompleks tujuan dasar edit media dan implikasi mereka dalam hal disinformasi. Dalam kertas ini, kami mempelajari Edited Media Frames, formalisme baru untuk memahami manipulasi media visual sebagai anotasi struktur mengenai niat, reaksi emosional, serangan pada individu, dan implikasi keseluruhan dari disinformasi. Kami memperkenalkan set data untuk tugas kami, EMU, dengan 56k pasangan pertanyaan-jawaban ditulis dalam bahasa alam yang kaya. Kami mengevaluasi berbagai jenis model penglihatan dan bahasa untuk tugas kami, dan memperkenalkan model baru PELICAN, yang dibangun pada kemajuan baru-baru ini dalam represisi multimodal yang dilatih. Model kami memperoleh hasil yang berjanji pada dataset kami, dengan manusia memperhitungkan jawabannya sebagai akurat 48,2% dari waktu. Pada saat yang sama, masih banyak pekerjaan yang harus dilakukan - dan kami menyediakan analisis yang menunjukkan daerah untuk kemajuan lanjut.Abstract
Comprendere i media manipolati, da `deepfakes' generati automaticamente a quelli modificati manualmente, solleva nuove sfide di ricerca. Poiché la stragrande maggioranza delle immagini modificate o manipolate sono benigne, come le immagini photoshoppate per miglioramenti visivi, la sfida principale è comprendere i complessi strati di intenti sottostanti delle modifiche dei media e le loro implicazioni rispetto alla disinformazione. In questo articolo studiamo Edited Media Frames, un nuovo formalismo per comprendere la manipolazione visiva dei media come annotazioni strutturate rispetto agli intenti, alle reazioni emotive, agli attacchi agli individui e alle implicazioni generali della disinformazione. Introducemo un set di dati per il nostro compito, l'UEM, con 56k coppie domande-risposte scritte in un ricco linguaggio naturale. Valutiamo un'ampia varietà di modelli di visione e linguaggio per il nostro compito e introduciamo un nuovo modello PELICAN, che si basa sui recenti progressi nelle rappresentazioni multimodali pre-addestrate. Il nostro modello ottiene risultati promettenti sul nostro set di dati, con gli esseri umani che valutano le sue risposte come accurate 48.2% dei casi. Allo stesso tempo, c'è ancora molto lavoro da fare e forniamo analisi che evidenziano i settori in cui è necessario compiere ulteriori progressi.Abstract
自動生成された「ディープフェイク」から手動で編集されたものまで、操作されたメディアを理解することは、新規の研究の課題を引き起こします。 編集または操作された画像の大部分は、視覚的強調のためにフォトショップされた画像などの良性の画像であるため、主要な課題は、メディア編集の基礎となるインテントの複雑なレイヤーと、その虚偽情報に関する影響を理解することです。 この論文では、意図、感情的反応、個人への攻撃、および虚偽情報の全体的な影響に関する構造化された注釈としての視覚メディア操作を理解するための新しい形式主義である、編集されたメディアフレームについて研究します。 私たちは、豊富な自然言語で書かれた56,000の質問回答ペアを備えた、私たちのタスクのためのデータセットEMUを紹介します。 私たちは、課題のために多種多様なビジョンと言語のモデルを評価し、事前に訓練されたマルチモーダル表現の最近の進歩に基づいた新しいモデルPELICANを導入します。 当社のモデルは、データセットで有望な結果を得ており、人間はその回答を48.2%の時間で正確と評価しています。 同時に、まだ多くの作業が残っています。私たちは、さらなる進歩のための領域を強調する分析を提供します。Abstract
Yuta ngerasai manipulan media, suku kelompok 'deep fales' kanggo ngubah manut, dadi enyong dolanan surat sing nganggo. Soalé kabèh akeh liyane piyambak okanye ngubah gambar sing ditambah diumbang Nang mapun iki, awak dhéwé isih Edit Media frame, formalim sing uwis kanggo ngerasah manipulasi media anyar tentang karo nggawe aturan sing nggawe nggawe winih, réaksi empatik, atak ning mungkane karo perbudhakan lan akeh mengkane nggawe informasi. Awak dhéwé nggawe dataset kanggo nggawe task, EMU, lan sesuk-perusahaan tanggal-ngomong gawe barang kanggo kuwi dulihan Awak dhéwé éntukno akeh akeh model sing nggawe winih lan luwih-luwih dumateng kanggo nggawe barang nggawe tarjamahan nggawe model model model model PILIKAN , sing nggawe nguasai nggawe barang nggawe balêh dumateng multimodal. modellu kaé mbukakipun barang nggambar dadi batar tentang karo nganggo-tentang karo nganggo barang sampek 482% Nejer-ne saiki, durung ono luwih nggawe lan akeh lanjut- lan ngono nggawe kaliwat nggawe barang nggawe barang nggolok nggawe bisa diantesik.Abstract
მანიპულაციული მედია, ავტომატურად შექმნილი `deepfakes'-დან პირადი რედაქტირებულებისთვის, შექმნის პრომენტური შესწავლება. იმიტომ, რომ რედაქტირებული ან მანიპულაციული გამოსახულების უფრო დიდი ფაილები უფრო მნიშვნელოვანია, როგორც გამოსახულებული გამოსახულებებისთვის უფრო მეტია, გასახულებელი გამოსახულებელი გამოსახულებელი გამოსახულებელია ამ დომენტში, ჩვენ შევსწავლოთ რედაქტირებული მედია ფრამები, ახალი ფორმალიზმი, რომ ვიცუალური მედია მანიპულაციას გავიგოთ როგორც სტრუქტურებული ანოტაციები მიზეზებით, ემოციონალური რეაქციები, ადამიანებ ჩვენ ჩვენი მომხმარებისთვის, EMU-ს, 56k კითხვის პასუხისთვის დავწერეთ მონაცემების კონფიგურაციას. ჩვენ ვაკეთებთ ჩვენი დავალებისთვის მნიშვნელოვანი მოდელების განსხვავებული განსხვავებული მოდელები და ახალი მოდელ PELICAN, რომელიც ახალი პროგრესის შესახებ მულტიმოდიალური გამოსახულებაში დავიწყებ ჩვენი მოდელი მიიღება გვაქვს გვაქვს მონაცემები მონაცემების შედეგი, რომელიც ადამიანები მისი პასუხების განსხვავება 48.2% დროს. ერთადერთი დროში, უნდა გავაკეთოთ მნიშვნელოვანი სამუშაო სამუშაო - და ჩვენ ვაკეთებთ ანალიზია, რომელიც განაწერება სხვა პროგრესისთვის.Abstract
Манипулируларды түсіну, автоматты түрде `depthfakes' дегеннен қолмен өзгертілген медиақшаларды өзгерту, жаңа зерттеулерді өзгертеді. Өйткені өзгертілген немесе манипуляцияланған кескіндердің көпшілігі көпшілігі көпшілігі көрінетін кескіндердің көпшілігі, мысалы, фотосхопты кескіндердің көпшілігін көрсету үшін, медиа редакторының ж Бұл қағазда, өзгертілген медиа фреймдерін зерттедік, визуалдық медиа манипулациясын түсініктеу үшін жаңа офимализм, мақсаттары, емоциялық реакциялары, адамдарға қалдыру және дезинформацияның жалпы нәрселе Біз тапсырмамыздың ЕМЕ деректер қорын 56 км сұрақ жауаптарының жазылған тәуелді тілінде келтіреміз. Біз тапсырмамыздың көптеген көрініс мен тіл үлгілерін бағалап, жаңа PELICAN үлгісін келтіреміз. Бұл жаңа көптеген көптеген мәлімодалық тапсырмалар үшін жаңа өзгертілген жағда Біздің моделіміз деректер жиынымыздың жауаптарын дұрыс 48,2% деп оқиға береді. Бірақ бір уақытта жұмыс істеу үшін әлі көп жұмыс бар - және біз қосымша жұмыс істеу үшін аумақтарды талдап береміз.Abstract
조작된 미디어를 이해하고 자동으로 생성되는'딥 가짜'에서 수동으로 편집하는 미디어까지 새로운 연구 도전을 가져왔다.절대 다수의 편집이나 처리를 거친 이미지가 양성이기 때문에 예를 들어 시각적 강화에 사용되는 포토샵 이미지는 관건적인 도전은 미디어 편집의 잠재적인 의도의 복잡한 차원과 허위 정보에 대한 영향을 이해하는 것이다.본고에서 우리는 편집 미디어의 구조를 연구했다. 이것은 새로운 형식주의로 시각 미디어 조종을 의도, 정서 반응, 개인에 대한 공격과 허위 정보의 전체적인 의미와 관련된 구조화된 주석으로 이해했다.우리는 우리의 임무를 위해 56k개의 자연 언어로 작성된 문답 쌍을 포함하는 데이터 집합 EMU를 도입했다.우리는 우리의 임무를 위해 각양각색의 시각과 언어 모델을 평가하고 새로운 모델인 펠리컨을 소개했다. 이것은 다중모드가 표시하는 최신 진전을 미리 훈련하는 데 세워진 것이다.우리의 모델은 우리의 데이터 집합에서 희망적인 결과를 얻었고 인류는 48.2%의 시간 동안 그 답안에 대해 정확한 평가를 실시했다.이와 동시에 해야 할 일도 많다. 우리가 제공한 분석은 진일보한 진전이 필요한 분야를 강조했다.Abstract
Suprantant manipuliuojamą žiniasklaidą, nuo automatiškai sukauptų „giliųjų suklastotų“ iki rankiniu redagavimu, kyla naujų mokslinių tyrimų uždavinių. Kadangi didžioji dauguma redaguotų arba manipuliuotų vaizdų yra gerybingi, pavyzdžiui, fotokopijuotų vaizdų vizualiniam tobulinimui, pagrindinis uždavinys yra suprasti sudėtingus pagrindinių žiniasklaidos redakcijos ketinimų sluoksnius ir jų poveikį dezinformavimui. Šiame dokumente mes tiriame Edited Media Frames, naują formalumą suprasti vizualinės žiniasklaidos manipuliavimą kaip struktūruotą anotaciją, susijusią su ketinimais, emocinėmis reakcijomis, išpuoliais prieš asmenis ir bendrais dezinformavimo padariniais. Mes pristatome duomenų rinkinį mūsų užduotims, EPS, su 56k klausimų ir atsakymų poromis, parašytomis turtinga natūralia kalba. Vertiname įvairius vizijų ir kalbų modelius savo užduotyje ir įvedame naują PELICAN model į, kuris grindžiamas neseniai parengta daugiarūšio transporto atstovavimo pažanga. Mūsų modelis gauna pažadus rezultatus mūsų duomenų rinkinyje, žmonės vertina atsakymus kaip tikslius 48,2 proc. laiko. At the same time, there is still much work to be done - and we provide analysis that highlights areas for further progress.Abstract
Understanding manipulated media, from automatically generated `deepfakes' to manually edited ones, raises novel research challenges. Бидејќи големото мнозинство од изменетите или манипулираните слики се бенигни, како што се фотошопираните слики за визуелни подобрувања, клучниот предизвик е да се разберат комплексните слоеви на основните намери на медиумските уредувања и нивните импликации во однос на деинформацијата. Во овој весник, ние ги проучуваме Уредени медиумски рамки, новиот формализам за разбирање на визуелната медиумска манипулација како структурирани анотации во однос на намерите, емоционалните реакции, нападите врз поединците и целокупните импликации на деинформацијата. Ние воведуваме податоци за нашата задача, ЕМУ, со 56км парови прашања-одговори напишани на богат природен јазик. Ние проценуваме широка разлика на визиски и јазички модели за нашата задача, и воведуваме нов модел ПЕЛИКАН, кој се базира на неодамнешниот напредок во претренираните мултимодилни претставувања. Нашиот модел добива ветувачки резултати на нашиот податок, со луѓето кои ги оценуваат своите одговори како точни 48,2 отсто од времето. Истовремено, сé уште има многу работа да се направи - и ние обезбедуваме анализа која ги истакнува областите за понатамошен напредок.Abstract
കൈയ്യില് ചിട്ടപ്പെടുത്തിയതിലേക്ക് 'ആഴത്തില് നിന്ന് 'ആഴത്തില് നിന്നും മാനേഡിയയിലേക്ക് 'ആഴത്തില് നിന്ന കാരണം ചിട്ടപ്പെട്ട ചിത്രങ്ങളില് ഏറെപ്പേരും മാന്യൂട്ട് ചെയ്യപ്പെട്ട ചിത്രങ്ങള് മാന്യൂഡിയ എഡിറ്ററുകളുടെ അടിസ്ഥാനത്തുള്ള ചിത്രങ്ങളും വിവരങ്ങളുടെ വിവരങ് ഈ പത്രത്തില് ഞങ്ങള് എഡിറ്റ് മീഡിയ ഫ്രെമ്മുകള് പഠിക്കുന്നു, കാഴ്ചമായ മീഡിയ കാര്യങ്ങള് കൈകാര്യം ചെയ്യാന് ഒരു പുതിയ ഫോര്മാര്മിഷമാണ്. കാഴ്ചമാ നമ്മുടെ ജോലിക്ക് വേണ്ടി ഒരു ഡാറ്റാസെറ്റ് പരിചയപ്പെടുത്തുന്നു, എമ്യൂ, 56k ചോദ്യങ്ങളുടെ ഉത്തരം ജോട്ടി നമ്മുടെ ജോലിക്ക് വേണ്ടി വ്യത്യസ്ത കാഴ്ചകളും ഭാഷ മോഡലുകളും ഞങ്ങള് വിലയിക്കുന്നു. പിന്നെ ഒരു പുതിയ മോഡല് പെലികാന് പരിചയപ്പെടുത്തുന്നു. അത നമ്മുടെ മോഡല് നമ്മുടെ ഡാറ്റാസെറ്റില് വാഗ്ദാനം ചെയ്യുന്ന ഫലങ്ങള് ലഭിക്കുന്നു. മനുഷ്യര് അതിന്റെ ഉത്തരം കാലത്ത അതേ സമയത്ത് ഒരുപാട് ജോലി ചെയ്യേണ്ടി വരുന്നുണ്ട് - പിന്നീട് മുന്നോട്ടുള്ള പ്രദേശങ്ങള്ക്ക് വിശദീകരിക്കാAbstract
Хэрэглэгдсэн мэдээллийн хэрэглэгчийг ойлгох нь автоматаар `гүнзгий худлаа' гараараа шинэчлэгдсэн шинэ судалгааны сорилтуудыг нэмэгдүүлдэг. Яагаад гэвэл хамгийн их хэмжээний өөрчлөгдсөн эсвэл өөрчлөгдсөн зурагнуудын тухай фотосхоп зурагнуудын тухай илүү сайн байдаг. Хамгийн чухал асуудал бол медиа захирагчийн төлөвлөгөөний төлөвлөгөөний комплекс давхарга болон мэдээллийг бусад нөлөөлө Энэ цаасан дээр бид "Edited Media Frames"-г судалж, харааны мэдээллийн хэрэгслийг зорилгоор, сэтгэл хөдлөл урвал, хүн төрөлхтний дайралт, мэдээллийн нийтлэг нөлөөлөл гэдгийг ойлгохын тулд шинэ официализм юм. Бид ажлын EMU-д 56k асуулт хариултын хоёрыг баян байгалийн хэл дээр бичсэн өгөгдлийн санг танилцуулдаг. Бид ажлын төлөө олон төрлийн үзэл болон хэл загварыг үнэлэх, шинэ PELICAN загварыг тайлбарлаж байна. Энэ нь саяхан олон загварын төлөвлөгөөнд хөгжүүлсэн хөгжлийг хийдэг. Бидний загвар бидний өгөгдлийн санд амлалтай үр дүнг авдаг. Хүмүүс хариултыг хугацааны 48.2% тохиолддог. Гэвч одоогийн хугацаанд олон ажил хийх ёстой. Бид далайн хөгжлийн талаар илэрхийлэх талаар шинжилгээ гаргадаг.Abstract
Memahami media yang dimanipulasi, dari secara automatik dijana `palsu dalam' ke yang disunting secara manual, meningkatkan cabaran kajian baru. Kerana kebanyakan imej yang disunting atau dimanipulasi adalah benign, seperti imej fotoskop untuk peningkatan visual, cabaran kunci ialah memahami lapisan kompleks niat as as edit media dan implikasi mereka terhadap disinformasi. Dalam kertas ini, kami mempelajari Bingkai Media Diedit, formalisme baru untuk memahami manipulasi media visual sebagai anotasi struktur berkaitan dengan niat, reaksi emosional, serangan pada individu, dan implikasi keseluruhan disinformasi. Kami memperkenalkan set data untuk tugas kami, EMU, dengan 56k pasangan soalan-jawapan ditulis dalam bahasa alam yang kaya. We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. Our model obtains promising results on our dataset, with humans rating its answers as accurate 48.2% of the time. Pada masa yang sama, masih banyak kerja yang perlu dilakukan - dan kami menyediakan analisis yang menentukan kawasan untuk kemajuan lanjut.Abstract
Il-fehim tal-midja manipulata, minn “falsifikazzjonijiet profondi” ġenerati awtomatikament għal dawk editati manwalment, iqajjem sfidi ġodda fir-riċerka. Minħabba li l-maġġoranza l-kbira tal-immaġnijiet editati jew manipulati huma beninni, bħal immaġnijiet fotoskopjati għal titjib viżiv, l-isfida ewlenija hija li nifhmu s-saffi kumplessi tal-intenzjonijiet sottostanti tal-edizzjonijiet tal-midja u l-implikazzjonijiet tagħhom fir-rigward tad-diżinformazzjoni. F’dan id-dokument, nistudjaw Qafas tal-Midja Editi, formaliżmu ġdid biex nifhmu l-manipulazzjoni tal-midja viżiva bħala annotazzjonijiet strutturati fir-rigward tal-intenzjonijiet, reazzjonijiet emozzjonali, attakki fuq individwi, u l-implikazzjonijiet ġenerali tad-diżinformazzjoni. Aħna nintroduċu sett ta’ dejta għall-kompitu tagħna, l-UEM, b’pari ta’ 56k mistoqsija-tweġiba miktuba f’lingwa naturali rikka. Nivvalutaw varjetà wiesgħa ta' mudelli viżivi u lingwistiċi għall-kompitu tagħna, u nintroduċu mudell ġdid PELICAN, li jibni fuq progress riċenti fir-rappreżentazzjonijiet multimodali mħarrġa minn qabel. Il-mudell tagħna jikseb riżultati promettenti fuq is-sett tad-dejta tagħna, bil-bnedmin jikklassifikaw it-tweġibiet tiegħu bħala preċiżi 48.2% tal-ħin. Fl-istess ħin, għad irid isir ħafna xogħol - u nagħtu analiżi li tenfasizza oqsma għal aktar progress.Abstract
Het begrijpen van gemanipuleerde media, van automatisch gegenereerde deepfakes tot handmatig bewerkte media, roept nieuwe onderzoeksuitdagingen op. Omdat de overgrote meerderheid van bewerkte of gemanipuleerde afbeeldingen goedaardig zijn, zoals photoshopte afbeeldingen voor visuele verbeteringen, is de belangrijkste uitdaging om de complexe lagen van onderliggende intenties van mediabewerkingen en hun implicaties met betrekking tot desinformatie te begrijpen. In dit artikel bestuderen we Edited Media Frames, een nieuw formalisme om visuele mediamanipulatie te begrijpen als gestructureerde annotaties met betrekking tot de intenties, emotionele reacties, aanvallen op individuen en de algemene implicaties van desinformatie. We introduceren een dataset voor onze taak, EMU, met 56k vraag-antwoord paren geschreven in rijke natuurlijke taal. We evalueren een breed scala aan visie- en taalmodellen voor onze taak en introduceren een nieuw model PELICAN, dat voortbouwt op recente vooruitgang in voorgetrainde multimodale representaties. Ons model behaalt veelbelovende resultaten op onze dataset, waarbij mensen de antwoorden beoordelen als nauwkeurig 48,2% van de tijd. Tegelijkertijd is er nog veel werk te doen en geven we analyses die de gebieden benadrukken die verdere vooruitgang mogelijk maken.Abstract
For å forstå manipulerte medier, frå automatisk laga «deep fakes» til manuelt redigerte medier, hevar novelle forskningsutfordringar. Fordi dei vaste fleste av redigerte eller manipulerte bilete er benyttige, slik som fotoskopte bilete for visuelle forbetringar, er det nøkkelutfordringen å forstå dei komplekse lagene av underløgande vilkåra for mediedigeringar og sine implikasjonar for dezinformasjon. I denne papiret studerer vi Redigerte Media-ramma, eit nytt formalisme for å forstå visual media-manipulasjon som strukturerte annotasjonar med hensyn til intensjonane, emosjonelle reaksjonar, attackar på individuer og alle implikasjonane for disinformasjon. Vi introduserer ein dataset for oppgåva vårt, EMU, med 56k spørsmål-svarpar skriven i rike naturspråk. Vi evaluerer ein stor variasjon av vising- og språk- modeller for oppgåva vårt, og introduserer ein ny model PELICAN, som bygger ved nyleg framgang i fleire modal representasjonar. Modellen vårt får promiserende resultat på datasettet vårt, med menneske å vurdere svara sitt som nøyaktig 48,2% av tiden. Samtidig er det fremdeles mykje arbeid som skal gjerast - og vi gjev analyse som markerer område for framframdring.Abstract
Zrozumienie manipulowanych mediów, od automatycznie generowanych "deepfakes" po ręcznie edytowane, rodzi nowe wyzwania badawcze. Ponieważ zdecydowana większość edytowanych lub zmanipulowanych obrazów jest łagodna, taka jak zdjęcia fotoshopowe w celu ulepszenia wizualnego, kluczowym wyzwaniem jest zrozumienie złożonych warstw podstawowych intencji edycji mediów i ich implikacji w odniesieniu do dezinformacji. W artykule badamy Edytowane ramy mediów, nowy formalizm mający na celu zrozumienie wizualnej manipulacji mediami jako ustrukturyzowanych adnotacji w odniesieniu do intencji, reakcji emocjonalnych, ataków na jednostki oraz ogólnych implikacji dezinformacji. Wprowadzamy zestaw danych dla naszego zadania, UGW, z 56k parami pytania-odpowiedzi napisanymi w bogatym języku naturalnym. Oceniamy szeroką gamę modeli wizji i języka dla naszego zadania i wprowadzamy nowy model PELICAN, który opiera się na ostatnich postępach w zakresie pretrenowanych multimodalnych reprezentacji. Nasz model uzyskuje obiecujące wyniki na naszym zbiorze danych, a ludzie oceniają jego odpowiedzi jako dokładne 48,2% czasu. Jednocześnie pozostaje jeszcze wiele do zrobienia i przedstawiamy analizę, która podkreśla obszary dalszych postępów.Abstract
Compreender a mídia manipulada, desde 'deepfakes' gerados automaticamente até os editados manualmente, levanta novos desafios de pesquisa. Como a grande maioria das imagens editadas ou manipuladas são benignas, como imagens photoshopadas para aprimoramentos visuais, o principal desafio é entender as camadas complexas de intenções subjacentes das edições de mídia e suas implicações com relação à desinformação. Neste artigo, estudamos os Edited Media Frames, um novo formalismo para entender a manipulação de mídia visual como anotações estruturadas em relação às intenções, reações emocionais, ataques a indivíduos e as implicações gerais da desinformação. Apresentamos um conjunto de dados para nossa tarefa, EMU, com 56k pares de perguntas e respostas escritos em linguagem natural rica. Avaliamos uma ampla variedade de modelos de visão e linguagem para nossa tarefa e apresentamos um novo modelo PELICAN, que se baseia no progresso recente em representações multimodais pré-treinadas. Nosso modelo obtém resultados promissores em nosso conjunto de dados, com humanos classificando suas respostas como precisas 48,2% das vezes. Ao mesmo tempo, ainda há muito trabalho a ser feito – e fornecemos análises que destacam áreas para mais progressos.Abstract
Înțelegerea mediilor manipulate, de la "deepfakes" generate automat la cele editate manual, ridică noi provocări de cercetare. Deoarece marea majoritate a imaginilor editate sau manipulate sunt benigne, cum ar fi imaginile photoshoppate pentru îmbunătățiri vizuale, provocarea cheie este de a înțelege straturile complexe de intenții subiacente ale editărilor media și implicațiile acestora în ceea ce privește dezinformarea. În această lucrare, studiem Edited Media Frames, un nou formalism pentru a înțelege manipularea vizuală media ca adnotări structurate în ceea ce privește intențiile, reacțiile emoționale, atacurile asupra indivizilor și implicațiile generale ale dezinformării. Introducem un set de date pentru sarcina noastră, UEM, cu 56k perechi de întrebări-răspunsuri scrise într-un limbaj natural bogat. Evaluăm o gamă largă de modele de viziune și limbaj pentru sarcina noastră și introducem un nou model PELICAN, care se bazează pe progresele recente în reprezentările multimodale pre-instruite. Modelul nostru obține rezultate promițătoare pe setul nostru de date, oamenii evaluând răspunsurile sale ca fiind exacte 48.2% din timp. În același timp, există încă mult de făcut - și oferim analize care evidențiază domeniile pentru progrese suplimentare.Abstract
Понимание манипулированных носителей, от автоматически сгенерированных «глубоких подделок» до отредактированных вручную, ставит новые исследовательские задачи. Поскольку подавляющее большинство отредактированных или обработанных изображений являются доброкачественными, такими как изображения, полученные с помощью фотошопа, для улучшения зрения, ключевая задача заключается в том, чтобы понять сложные слои основных намерений редактирования СМИ и их последствия в отношении дезинформации. В этой статье мы изучаем Edited Media Frames, новый формализм для понимания визуальных манипуляций со СМИ как структурированных аннотаций в отношении намерений, эмоциональных реакций, нападений на людей и общих последствий дезинформации. Мы представляем набор данных для нашей задачи, EMU, с 56 тысячами пар вопросов и ответов, написанных на богатом естественном языке. Мы оцениваем широкий спектр моделей видения и языка для нашей задачи и внедряем новую модель ПЕЛИКАН, которая основывается на недавнем прогрессе в предварительно подготовленных мультимодальных представлениях. Наша модель получает многообещающие результаты по нашему набору данных, при этом люди оценивают ее ответы как точные в 48,2% случаев. В то же время многое еще предстоит сделать, и мы проводим анализ, который высвечивает области для дальнейшего прогресса.Abstract
ස්වයංක්රියාවිතයෙන් සැකසුම් කරපු මිඩියාව තේරුම් ගන්න, ස්වයංක්රියාවිතයෙන් සැකසුම් කරපු මිඩියා මොකද සංපාදනය කරලා තියෙන බොහෝ බොහෝ පින්තූරය බොහෝ විශේෂ කරලා තියෙන්නේ, පින්තූර විශේෂය සඳහා පින්තූරණ පින්තූරය සඳහා පින්තූර ප මේ පැත්තේ, අපි පරීක්ෂණය කරලා තියෙන්නේ සංවිධාන මිඩියා ෆ්රේම්ස්, අලුත් ප්රමාණික විද්යාපයක් තේරුම් ගන්නේ විද්යාත්මක මිඩියා මැනියා අපි අපේ වැඩේ EMU සඳහා දත්ත සෙට් එකක් ප්රශ්නයක් 56k ප්රශ්නයක් ප්රතිච්චි භාෂාවට ලියලා තියෙනවා. අපි අපේ වැඩේ විශාල භාෂාවක් විශාල ප්රමාණයක් අවශ්ය කරනවා, අපේ වැඩේ අළුත් මොඩේල් PELICAN එකක් ප්රදානය කරනවා, ඒක අලුත් ප්රමාණයක අපේ මොඩල් එක අපේ දත්ත සැටේ ප්රතිචාර ප්රතිචාර ප්රතිචාරයක් ලැබෙනවා, මිනිස්සුන් ඒකේ ප්රතිචාරයක් හර එකම වෙලාවෙන්, තවමත් වැඩ කරන්න වැඩ කරන්න තියෙනවා - අපි විශ්ලේෂණය දෙන්නේ තව ප්රධානයක් විස්තර කරන්න.Abstract
Razumevanje manipuliranih medijev, od avtomatično ustvarjenih "deepfakes" do ročno urejenih, postavlja nove raziskovalne izzive. Ker je velika večina urejenih ali manipuliranih slik benignih, kot so fotoshopirane slike za vizualne izboljšave, je ključni izziv razumeti kompleksne plasti osnovnih namenov urejanja medijev in njihove posledice v zvezi z dezinformacijami. V prispevku preučujemo Edited Media Frames, nov formalizem za razumevanje vizualne medijske manipulacije kot strukturiranih opomb glede namenov, čustvenih reakcij, napadov na posameznike in splošnih posledic dezinformacij. Predstavljamo nabor podatkov za našo nalogo EMU s 56k parov vprašanj in odgovorov, napisanih v bogatem naravnem jeziku. Za našo nalogo ocenjujemo široko paleto vizijskih in jezikovnih modelov ter uvajamo nov model PELICAN, ki temelji na nedavnem napredku pri predvadljenih multimodalnih reprezentacijah. Naš model pridobi obetavne rezultate na našem naboru podatkov, pri čemer ljudje ocenjujejo njegove odgovore kot točne 48,2% časa. Hkrati je treba opraviti še veliko dela - in zagotavljamo analizo, ki poudarja področja za nadaljnji napredek.Abstract
Marka la garanayo macluumaadka la maamulay, waxay si automati ah u dhashay `falsafada deegaan' iyo si gacan ah u hageen, waxay kor u qaadataa dhibaatooyin cilmi-baaritaanka saxda ah. Sida darteed sawirada tirada badan oo la hagaajiyey ama la mani karo waa sawirro sawirro loo sawiray horumarinta aragga, tacliinta muhiimka ah waa in la fahamo sawirada adag ee hoose u yaal waxyaabaha sawirida iyo saaxiibkooda ku saabsan macluumaadka. Warqadan, waxaynu ka barannaa taariikhda Media Frames, taas oo ah rasmi cusub si aan u garanayno maamulka macluumaadka aragtida sida ay u hagaajiyeen dhibaatooyin la xiriira qastiga, aragtida hissiyada, weerarka qofka ah iyo saamaynta macluumaadka kala duwan. Waxaynu soo bandhignaa sawir macluumaad ah, EMU, waxaana ku qornaa 56k noocyo jawaabta su'aalo ah oo ku qoran afka hodanka ah. Waxaannu qiimeynaynaa noocyo badan oo muuqashada iyo luuqadaha kala duduwan ee shaqadeenna, waxaana soo bandhigaynaa tusaale cusub oo PELICAN ah, kaas oo ku dhisanaya horumarinta ugu dambeysa si loo eego noocyo badan. Tusaalkayagu wuxuu helaa resultooyin ballan ah oo ku saabsan taariikhdeena, dadku waxay ku qiyaasayaan jawaabihiisa si saxda ah 48.2% waqtiga. Isla waqtigaas waxaa jirta shaqo badan in la sameeyo - baaritaanna waxaynu siinaynaa meelo horumarinta ah oo ku qoran.Abstract
Duke kuptuar mediat e manipuluara, nga automatikisht të gjeneruara `falsifikime të thella' në ato të edituara manualisht, ngre sfida të reja kërkimi. Sepse shumica e madhe e imazheve të edituara apo të manipuluara janë të dobishme, të tilla si imazhet fotokopjuara për përmirësime vizuale, sfida kryesore është të kuptosh shtresat komplekse të qëllimeve themelore të editimeve të medias dhe pasojat e tyre lidhur me disinformacionin. Në këtë gazetë, ne studiojmë Kuadrat e Redigjuara të Mediave, një formalizëm të ri për të kuptuar manipulimin vizual të medias si anotacione të strukturuara lidhur me qëllimet, reagimet emocionale, sulmet ndaj individëve dhe pasojat e përgjithshme të disinformacionit. Ne prezantojmë një set të dhënash për detyrën tonë, EMU, me 56k çifte pyetje-përgjigje të shkruara në gjuhë të pasur natyrore. Ne vlerësojmë një shumëllojshmëri të gjerë modelesh vizion-dhe-gjuhësh për detyrën tonë, dhe futim një model të ri PELICAN, i cili mbështetet në përparimin e fundit në përfaqësimet multimodale të parastërvitura. Modeli ynë merr rezultate premtuese në dataset tonë, me njerëzit që vlerësojnë përgjigjet e tij si 48.2% të sakta të kohës. Në të njëjtën kohë, ka ende shumë punë për të bërë - dhe ne japim analizë që thekson fushat për përparim të mëtejshëm.Abstract
Razumevanje manipuliranih medija, od automatskog proizvedenog "dubokih lažnih" do ruèno editiranih, podiže nove istraživačke izazove. Zato što je većina editiranih ili manipuliranih slika dobra, kao što su fotoskope slike za vizualne poboljšanje, ključni izazov je razumeti kompleksne slojeve temeljnih namera editora medija i njihovih implikacija u vezi dezinformacije. U ovom papiru proučavamo Editovane medijske okvire, novi formalizm za razumevanje manipulacije vizuelnih medija kao strukturirane annotacije u vezi namera, emocionalnih reakcija, napada na pojedince i ukupne implikacije dezinformacije. Upoznajemo sastanak podataka za naš zadatak, EMU, sa 56k parova odgovora na pitanje napisanim bogatim prirodnim jezikom. Procjenjujemo široke razne modele vizije i jezika za naš zadatak, i predstavljamo novi model PELICAN, koji se izgradi na nedavnom napretku u prethodnim multimodalnim predstavljanjima. Naš model dobija obećavajuće rezultate na našem setu podataka, dok ljudi ocjenjuju svoje odgovore kao tačne 48,2% vremena. U is to vreme, još uvek treba da se radi mnogo posla - i pružamo analizu koja osvećuje područje za daljnji napredak.Abstract
Att förstå manipulerade medier, från automatiskt genererade deepfakes till manuellt redigerade, väcker nya forskningsutmaningar. Eftersom de allra flesta redigerade eller manipulerade bilder är godartade, till exempel photoshoppade bilder för visuella förbättringar, är den viktigaste utmaningen att förstå de komplexa skikten av underliggande intentioner av medieredigeringar och deras konsekvenser med avseende på desinformation. I denna uppsats studerar vi Edited Media Frames, en ny formalism för att förstå visuell mediemanipulation som strukturerade kommentarer med avseende på intentioner, emotionella reaktioner, attacker på individer och de övergripande konsekvenserna av desinformation. Vi introducerar ett dataset för vår uppgift, EMU, med 56k frågor-svar par skrivna på ett rikt naturligt språk. Vi utvärderar ett brett utbud av visions- och språkmodeller för vår uppgift och introducerar en ny modell PELICAN, som bygger på de senaste framstegen inom förtränade multimodala representationer. Vår modell får lovande resultat på vår datauppsättning, där människor betygsätter svaren som korrekta 48.2% av tiden. Samtidigt finns det fortfarande mycket arbete kvar att göra - och vi tillhandahåller analyser som belyser områden för ytterligare framsteg.Abstract
Kuelewa na vyombo vya habari vilivyodhibitiwa, kuanzia 'uongo wa ndani' hadi wale waliohaririwa mikononi, huibua changamoto za utafiti wa kitaifa. Because the vast majority of edited or manipulated images are benign, such as photoshopped images for visual enhancements, the key challenge is to understand the complex layers of underlying intents of media edits and their implications with respect to disinformation. Katika karatasi hii, tunasoma Miundombi ya Uandishi wa Habari, utaratibu mpya wa kuelewa uchunguzi wa vyombo vya habari kama vile matatizo yalivyotengenezwa na matatizo ya hisia, mashambulizi ya watu binafsi, na matokeo makubwa ya kutoa taarifa. Tunawasilisha takwimu kwa kazi yetu, EMU, yenye majibu 56k yaliyoandikwa kwa lugha ya asili. Tutathmini mifano mbalimbali ya maono na lugha kwa kazi yetu, na kutengeneza mtindo mpya wa PELICAN, ambao unajenga katika maendeleo ya hivi karibuni katika kuwakilisha watu wengi. Mfano wetu unapata matokeo yanayoahidi kwenye seti yetu ya taarifa, huku wanadamu wakijibu majibu yake kama asilimia 48.2 ya wakati huo. At the same time, there is still much work to be done - and we provide analysis that highlights areas for further progress.Abstract
கைமுறையாக தொகுக்கப்பட்ட பட்டியலிலிருந்து 'ஆழமான பொய்கள்' உருவாக்கப்பட்டது புரிந்தது, புதிய ஆய்வு சவால்களை உயர்த் பெரும்பாலான திருத்தப்பட்ட அல்லது கையாள்படுத்தப்பட்ட பிம்பங்களில் பெரும்பாலான புகைப்படங்கள், பார்வை மேம்படுத்துவதற்கான புகைப்படங்கள், விசையான சவால் இந்த காக்கியத்தில், நாம் திருத்தப்பட்ட ஊடக சட்டங்களை, புதிய வடிவமைப்பு, பார்வையான ஊடகங்கள் நிர்வாக்கத்தை புரிந்து கொள்ள வேண்டும் என்று புரிந்து க We introduce a dataset for our task, EMU, with 56k question-answer pairs written in rich natural language. நாம் எங்கள் பணிக்கான பல்வேறு பார்வையும் மொழியின் மாதிரிகளையும் மதிப்பிடுகிறோம், புதிய மாதிரி பெலிகானை அறிவிக்கும், அது சமீபத்தில் பல எங்கள் மாதிரி நம் தரவுத்தளத்தில் வாக்களிக்கப்பட்ட முடிவுகள் பெறுகிறது, மனிதர்கள் அதில் பதில் சரியாக 48.2% நேரத்தில் வி அதே நேரத்தில், இன்னும் நிறைய வேலை செய்ய வேண்டியிருக்கிறது - மற்றும் நாம் முன்னேற்றத்திற்கு முன்னேறும்Abstract
Edilen mediýalary düşünmek, otomatik `depthfakes' düzenlenmelerinden el düzenlenmelere çevrilýär, täze ylmy kynçylyklary üýtgedýär. Çünki düzenlenen ýa-da işlenýän suratlaryň köp bölegi, görsel gelişmeler üçin fotoskopdy suratlar ýaly, esasy kynçylyk medianyň düzenlemekleriniň karmaşık düzümlerniň we olaryň informasiýa hakynda täsirlenmelerini düşünmekdir. Bu kagyzda, biz Edited Media Frames'i öwrenýärdik, görsel mediýallar manipulasyny düşünmek üçin täze bir formalizm, niýetlere, duýumsal tepkilere, adamlaryň üstüne salyklary we daňlap bilmegiň ähli netijesi diýip düşünýäris. Biziň görevimiz EMU üçin 56-k sorag-jogabat çiftleri bagy tebigy dilde ýazylýan. Biziň görevimiz üçin örän görnüş we dil nusgalaryny çykarýarys we täze bir nusga PELICAN döredip, ýakyn öňki öňki multimodal suratlarda täze bir ilerleme çykarýarys. Modelimiz veri setimizde söz verici sonuçlarını elde ediyor ve insan cevabını tam olarak değerlendiriyor. Şol wagt hem iş edilmeli kän iş bar - we köp ilerlemek üçin alanlary ýagtylandyrýan çözümlerini tassyklap edýäris.Abstract
مڈیا کو سمجھنا، اپنے ساتھ `عمیق فاکس' سے اپنا سیدھا سمجھنا، نئی تحقیق چالوں کو اضافہ کرتا ہے. کیونکہ اکثر سمجھے ہوئے یا منظورت کی تصاویروں میں سے زیادہ زیادہ اکثر برابر ہیں، جیسے تصاویروں کی تصاویروں کی تصاویروں کی تصاویروں کی تصاویر، اس کا کلی چال یہ ہے کہ میڈیا سمجھنے کے زیادہ مطابق مقصدوں کی پیچیدہ لائق سمجھ سکیں اور ان کے اثرات بغیر معلوما اس کاغذ میں، ہم ایک نو فرمولیسم کی تحقیق کرتے ہیں کہ visual media manipulation کو سمجھ سکتے ہیں، مصنوعی واکنش، آدمیوں پر حملہ کریں، اور بغیر معلومات کی عملی اثرات کے ساتھ ساختہ اثرات کے طور پر۔ ہم نے اپنے کام کے لئے ایک ڈیٹ سٹ کی پیش کریں، EMU، 56k سوال جوڑوں کے ساتھ پوری طبیعی زبان میں لکھی ہوئی ہے۔ ہم نے اپنے کام کے لئے ایک بہت سی مختلف نظر اور زبان مدل کا ارزش کیا ہے اور ایک نوی مدل PELICAN کو معلوم کریں گے جو اچھی پیشرفت پر پیش کرتی ہے بہت سی مدل کی تصاویرات میں۔ ہماری مدل ہمارے ڈیٹ سٹ پر وعدہ دینے والی نتیجے حاصل کرتے ہیں، انسانوں کے جواب دقیق 48.2% کے مطابق رایٹ کرتے ہیں۔ اسی طرح، اب بھی بہت کام کرنا چاہتا ہے - اور ہم تحلیل دیتے ہیں کہ دوسری پیشرفت کے لئے منطقه کو ہلاک کرتا ہے۔Abstract
Name Chunki ko'pchilik tahrirlangan yoki boshqarilgan rasmlarning ko'pchiligi rasmlar o'zgarishga foydalanilgan rasmlar, ko'rinishni oshirish uchun foydalanuvchi tashkilotlarni tushunish mumkin, media tahrirlarining asosida murakkab qatlamlar va agar maʼlumot haqida ta'sirlarini tushunish mumkin. Bu qogʻozda biz Edited Media Framelarini o'rganamiz. Ko'rinish media boshqaruvchisini o'rganish yangi formatlarini o'rganamiz. Bu qogʻozda, hissiyotlar, odamlarga harakat qilish va hamma maʼlumot hammasining hammasini o'zgartirish natijalarini tushunishi mumkin. Biz vazifaning EMU uchun maʼlumotlar satrini ko'rib chiqaramiz va 56k savol javobi bilan o'zgartiriladi. Biz vazifasimiz uchun ko'p ko'pchilik va tilning turli modellarini qiymatimiz va yangi modelni o'rganamiz. Yaqinda ko'pchilik tashkilotlariga ishlab chiqaradi. Bizning modelimiz maʼlumotlar sahifadagi kutilgan natijalarimizga ega bo'ladi, odamlar vaqtning 48.2% davomida javob beradi. Shunday paytda, hamda bajarish uchun juda ko'p ishlar bor - va biz davomida davom etish maydonlarini ko'rsatamiz.Abstract
Hiểu được các phương tiện bị thao túng, từ "giàn phát" tự động thành "giàn hỏa" sửa bằng tay, tạo nên thử thách mới. Vì đa số những hình ảnh được sửa chữa hay thao túng tốt lành, như những hình ảnh photoshop để tăng cường hình ảnh, vấn đề chính là phải hiểu được các khía cạnh phức tạp của các ý định tiềm ẩn của các phương tiện truyền thông và tác động của chúng về sự khai hóa. Trong bài viết này, chúng tôi nghiên cứu Truyền Thông Truyền Thông Hiệu chỉnh, một chính thức mới để hiểu sự thao túng hình ảnh như biên bản ghi chú về các mục đích, phản ứng cảm xúc, tấn công cá nhân, và những tác động lớn của việc đánh lừa truyền thông. Chúng tôi sẽ giới thiệu một bộ dữ liệu cho nhiệm vụ của chúng tôi, ví dụ như là Rome, với cặp câu hỏi 56tuần được viết bằng ngôn ngữ tự nhiên giàu có. Chúng tôi đánh giá một loạt các mô hình ngôn ngữ và tầm nhìn cho nhiệm vụ của chúng tôi, và đưa ra một mô hình mới về PEOLICAN, mà dựa trên những tiến triển gần đây trong các biểu đồ đa phương. Mô hình của chúng tôi có kết quả đầy hứa hẹn trên tập tin của chúng tôi, với con người đánh giá các câu trả lời chính xác là 48.2='của thời gian. Tuy nhiên, vẫn còn rất nhiều việc phải làm và chúng tôi cung cấp các phân tích để nhấn mạnh những khu vực có thể tiến triển thêm.Abstract
知操纵之媒体,自生"深度伪造"至手动辑之媒体,发新讲求挑战。 由绝大多数经辑操纵之象皆良性,如以视增之照片,故要知媒体编辑之杂次及虚信之渐。 于本文中,臣等考辑媒体框架,此是新形式主义,以将视觉媒体操解为意,情绪反应私攻击及虚信结构化注。 吾曹为吾事EMU引入一数集,其中含以富自然语言之56k问对。 论我视听言语,引入新PELICAN,立于预教模态最新进展之上。 吾法得志于吾数集上,人以其对为48.2%时。 同时尚多务,吾道须进域。- Anthology ID:
- 2021.acl-long.158
- Volume:
- Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)
- Month:
- August
- Year:
- 2021
- Address:
- Online
- Venues:
- ACL | IJCNLP
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 2026–2039
- Language:
- URL:
- https://aclanthology.org/2021.acl-long.158
- DOI:
- 10.18653/v1/2021.acl-long.158
- Bibkey:
- Cite (ACL):
- Jeff Da, Maxwell Forbes, Rowan Zellers, Anthony Zheng, Jena D. Hwang, Antoine Bosselut, and Yejin Choi. 2021. Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 2026–2039, Online. Association for Computational Linguistics.
- Cite (Informal):
- Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation (Da et al., ACL 2021)
- Copy Citation:
- PDF:
- https://aclanthology.org/2021.acl-long.158.pdf
- Data
- Conceptual Captions
- Terminologies:
Export citation
@inproceedings{da-etal-2021-edited, title = "Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation", author = "Da, Jeff and Forbes, Maxwell and Zellers, Rowan and Zheng, Anthony and Hwang, Jena D. and Bosselut, Antoine and Choi, Yejin", booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.158", doi = "10.18653/v1/2021.acl-long.158", pages = "2026--2039", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="da-etal-2021-edited"> <titleInfo> <title>Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation</title> </titleInfo> <name type="personal"> <namePart type="given">Jeff</namePart> <namePart type="family">Da</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Maxwell</namePart> <namePart type="family">Forbes</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Rowan</namePart> <namePart type="family">Zellers</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Anthony</namePart> <namePart type="family">Zheng</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Jena</namePart> <namePart type="given">D</namePart> <namePart type="family">Hwang</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Antoine</namePart> <namePart type="family">Bosselut</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Yejin</namePart> <namePart type="family">Choi</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2021-08</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Online</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">da-etal-2021-edited</identifier> <identifier type="doi">10.18653/v1/2021.acl-long.158</identifier> <location> <url>https://aclanthology.org/2021.acl-long.158</url> </location> <part> <date>2021-08</date> <extent unit="page"> <start>2026</start> <end>2039</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation %A Da, Jeff %A Forbes, Maxwell %A Zellers, Rowan %A Zheng, Anthony %A Hwang, Jena D. %A Bosselut, Antoine %A Choi, Yejin %S Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) %D 2021 %8 August %I Association for Computational Linguistics %C Online %F da-etal-2021-edited %R 10.18653/v1/2021.acl-long.158 %U https://aclanthology.org/2021.acl-long.158 %U https://doi.org/10.18653/v1/2021.acl-long.158 %P 2026-2039
Markdown (Informal)
[Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation](https://aclanthology.org/2021.acl-long.158) (Da et al., ACL 2021)
- Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation (Da et al., ACL 2021)
ACL
- Jeff Da, Maxwell Forbes, Rowan Zellers, Anthony Zheng, Jena D. Hwang, Antoine Bosselut, and Yejin Choi. 2021. Edited Media Understanding Frames : Reasoning About the Intent and Implications of Visual Misinformation. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 2026–2039, Online. Association for Computational Linguistics.