Prediction Difference Regularization against Perturbation for Neural Machine Translation Onder die Morphosyntactic Lens: ' n Multifaced Evaluering van Gender Bias in Speech Translation በንግግር ትርጓሜ ውስጥ የሴት ቢas የሙሉ ብዛት ውጤት تحت العدسة الشكلية: تقييم متعدد الأوجه للتحيز الجنساني في ترجمة الكلام Morphosyntactic Lens altında: A Multifaced Evaluation of Gender Bias in Speech Translation Под морфосинтактичната леща: Многостранна оценка на половите наклонности в превода на речта মরোফোসিক্যাটিক লেন্সের নীচে: ভাষার অনুবাদে লিঙ্গ বিয়াসের মাল্টিফেসেট প্রমাণ Under the Morphosyntactic Lens: A Multifaced Evaluation of Gender Bias in Speech Translation Pod morfosintaktičkim lensom: Multifaced Evaluation of Gender Bias in Speech Translation Sob el Lens Morfosinàctic: Una evaluació multifacetada dels biaixos de gènere en la traducció de la voz Pod morfosyntaktickou čočkou: mnohostranné hodnocení genderových předpokladů v překladu řeči Under den morfosyntaktiske linse: En mangfoldig vurdering af kønsfordele i taleoversættelse Unter der morphosyntaktischen Linse: Eine facettenreiche Bewertung von Gender Bias in der Sprachübersetzung Κάτω από τον Μορφοσυντακτικό φακό: Μια πολύπλευρη αξιολόγηση των προκατάληψης των Φύλων στη μετάφραση ομιλίας Bajo la lente morfosintáctica: una evaluación multifacética del sesgo de género en la traducción del habla Morfosüntaktilise läätse all: soolise kalduvuse mitmekülgne hindamine kõnetõlkes زیر لینز مورفوسنتاتیک: یک ارزیابی متعدد جنسی بیس در ترجمه سخنرانی Morfosyntaktisen linssin alla: Sukupuolten taipumusten monipuolinen arviointi puheen kääntämisessä Sous l'angle morphosyntaxique : une évaluation multidimensionnelle des préjugés sexistes dans la traduction de la parole Faoin Lionsa Morphosyntactic: Meastóireacht Ilghnéitheach ar Laofacht Inscne san Aistriúchán Cainte KCharselect unicode block name תחת העדשה המורפוסינטקטית: הערכה מרובה-פנים של סבלנות מין בתרגום דיבורים Morphosyntactic लेंस के तहत: भाषण अनुवाद में लिंग पूर्वाग्रह का एक बहुआयामी मूल्यांकन Pod morfosintaktičkim lensom: Multifaceted Evaluation of Gender Bias in Speech Translation A morfoszintatikus lencse alatt: A nemek közötti eltérések sokoldalú értékelése a beszédfordításban Մորֆոսինտակտիկ ոսպնյակի տակ. լեզվի թարգմանության մեջ գենդերային շեղումների բազմատեսակ գնահատումը Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias in Speech Translation Sotto la lente morfosintattica: una valutazione sfaccettata delle distorsioni di genere nella traduzione vocale Morphosyntactic Lensの下で:音声翻訳におけるジェンダーバイアスの多面的評価 Ato neng modèn Marphosinaactive Lens: Aowah luwih bantuan karo Gender Bias nang Terjamahan Morphosyntactic Lens- ის ქვემოთ: მრავალფერი განსაზღვრება Gender Bias- ის განსაზღვრებაში Морфосинтактикалық линз астында: Орындау аудармасында Gender Bias- тың көпбұрышты оқу 형태문법 시각에서의 언어 번역 성별 편견 Pagal morfosintaksinį lęšiuką: daugialypis lyčių sutrikimų vertinimas kalbos vertimui Под морфосинтактичката ламба: Мултифактична евалуација на полските навреди во преведувањето на говорот Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias in Speech Translation Morphosyntactic Lens-ын доор: A Multifaced Evaluation of Gender Bias in Speech Translation Di bawah Lensa Morfosintaktik: Pengesahan Berlipat-lipat Bias Gender dalam Terjemahan Cahaya Taħt il-Lenti Morfosintattika: Evalwazzjoni Multifacetta tal-Bias bejn is-Sessi fit-Traduzzjoni tal-Kellem Onder de morfosyntactische lens: Een veelzijdige evaluatie van gendervoorraden in spraakvertaling Under Morphosyntactic Lens: Eit fleirfacing evaluering av Gender Bias i taleomsetjinga Pod soczewką morfosyntaktyczną: Wieloaspektowa ocena uprzedzeń płciowych w tłumaczeniu mowy Sob a Lente Morfossintática: Uma Avaliação Multifacetada do Viés de Gênero na Tradução de Fala Sub obiectivul morfosintactic: o evaluare multifațetă a disfuncțiilor de gen în traducerea vorbirii Под морфосинтаксической линзой: многогранная оценка гендерной предвзятости в переводе речи Name Pod morfosintaktično lečo: večplastno ocenjevanje spolnih pristranskosti pri prevajanju govora Luqada Morphosyntactic hoostooda: Qiimeynta jinsiga ee afka kala duduwan Nën Lens in Morfosintaktik: Një vlerësim i shumëfaqesuar i dëmtimeve të gjinës në përkthimin e fjalës Pod morfosintaktičkim lensom: Multifaced Evaluation of Gender Bias in Speech Translation Under det morfosyntaktiska objektivet: En mångfacetterad utvärdering av könsbias i talöversättning Kwa chini ya matangazo ya Kimorphosyntic: Uthibitisho wa Bima ya Jinsia katika Tafsiri ya Kizungumzo Morphosyntactic Lens கீழ்: Morphosyntaktik Lins'i흫 altynda: Bir n채챌e 첵체zl체 Ta첵첵arlama (Gender Bias in Speech Translation) Morphosyntactic Lens کے نیچے: A Multifaced Evaluation of Gender Bias in Speech Translation Name Theo lịch sử Morpheus: Một phần nhiều Đánh giá về giới tính luyến ái Biis trong Văn bản 形句法镜头下:语音译中性别偏见者多质
Abstract
Regularization methods applying input perturbation have drawn considerable attention and have been frequently explored for NMT tasks in recent years Despite their simplicity and effectiveness we argue that these methods are limited by the under fitting of training data In this paper we utilize prediction difference for ground truth tokens to analyze the fitting of token level samples and find that under fitting is almost as common as over fitting We introduce prediction difference regularization PD R a simple and effective method that can reduce over fitting and under fitting at the same time For all token level samples PD R minimizes the prediction difference between the original pass and the input perturbed pass making the model less sensitive to small input changes thus more robust to both perturbations and under fitted training data Experiments on three widely used WMT translation tasks show that our approach can significantly improve over existing perturbation regularization methods On WMT16 En De task our model achieves 1.80 SacreBLEU improvement over vanilla transformerAbstract
Gender bias is groot herken as 'n problematiese fenomen wat die taal tegnologie beïnvloor, met onlangse studie wat onderskryf dat dit anders kan oorspronk oor tale. Maar die meeste van huidige evalueringspraksies aanvaar 'n woord-vlak fokus op 'n sterk stel van professionele noume onder sintetiese voorwaardes. Hierdie protokolle oorskou sleutel funksies van grammatiese geneem tale, wat karakteriseer word deur morfosyntaktike kettings van geneem ooreenkoms, gemerk op 'n verskillende leksiese items en dele-van-spreek (POS). Om hierdie beperking te oorwerp, ryk ons die natuurlike, gende-sensitiewe MuST-SHE corpus (Bentivogli et al., 2020) met twee nuwe lingwisiese annotasie laag (POS en ooreenkomskettings) en uitsoek tot wat verskillende leksiekategorie en ooreenkomste fenomene deur geneemskare skewe invloek word. As ons gefokus op spraak vertaling, doen ons 'n multifaceted evaluering op drie taal rigtings (Engels-Frans/Italiese/Spaanse), met modele onderwerp op verskillende hoeveelheid data en verskillende woord segmentasie tekenieke. Deur die lig op model gedrag, geneemgeweldigheid en sy opdekking op verskeie vlakke van granulariteit, ons gevinde bepaal die waarde van besonderhede analiseerde buite agtergroot oorspronklike resultate.Abstract
የዝሙት ብልሃት ቋንቋዎች የቴክኖሎጂዎችን የሚያስጨንቅ የጭንቀት አካባቢ ነው፡፡ ምንም እንኳን፣ የአሁኑ ማስታወቂያ ሥራ ብዙዎቹ በተስማማማዊ ጉዳይ ላይ የሚቆጠሩ የስራ አካባቢዎች ላይ የቃላት ደረጃን ትኩረት ይያዛሉ፡፡ እንደዚህ ያሉት ፕሮግራሞች የቋንቋዎች ቁልፎች የግራማዊ የሥጋዊ ቋንቋዎች እና በዓይነት ልዩ ልዩ ልዩ ደረጃ እና የንግግር ክፍሎች ላይ የተመሳሳይ የሴት ሰንሰለቶች በሚያስተካክሉ ማህበረሰብ ላይ ይተዋል፡፡ ይህንን ግንኙነት ለማሸንፍ፣ የባሕላዊ፣ የሴት-SHE ኮርፓስ (Bentivogli et al., 2020) እና ሁለት አዲስ የቋንቋዊ ማስታወቂያ ደረጃዎች (POS እና agreement ሰንሰለቶች) እና ለልዩ ልዩ ልዩ ልዩ ደረጃዎች እና ውይይት የውይይት ግንኙነት ምን ያህል ይደረጋሉ፡፡ በንግግር ትርጓሜ ላይ በመጠቀም፣ በሦስት ቋንቋ መንገዶች (እንግሊዘኛ-ፈረንሳይ/ጣሊያንኛ/ስፓኒሽ)፣ በተለየ የዳታ እና በተለየ ቃላት ግንኙነት እና በተለየ የንግግር ግንኙነት ማህበረሰብ ላይ የተማሩ ሞዴላዎችን እናደርጋለን፡፡ በሞዴል ሁኔታ፣ የሴት ልዩ ልዩ ልዩ ደረጃዎች እና ግንኙነታችንን በማሳየት፣ ፍጥረታችን ከሙሉ ፍጥረቶች በላይ የተለየውን ትምህርት የሚያሳውቀው ነው፡፡Abstract
يُعترف بالتحيز الجنساني إلى حد كبير كظاهرة إشكالية تؤثر على تقنيات اللغة ، حيث أكدت الدراسات الحديثة أنه قد يظهر بشكل مختلف عبر اللغات. ومع ذلك ، فإن معظم ممارسات التقييم الحالية تتبنى تركيزًا على مستوى الكلمات على مجموعة ضيقة من الأسماء المهنية في ظل ظروف تركيبية. تتغاضى مثل هذه البروتوكولات عن السمات الرئيسية للغات النوع الاجتماعي النحوية ، والتي تتميز بسلاسل مورفوسينتيكتيك من اتفاق الجنس ، مميزة على مجموعة متنوعة من العناصر المعجمية وأجزاء الكلام (POS). للتغلب على هذا القيد ، نقوم بإثراء مجموعة MuST-SHE الطبيعية والمراعية للنوع الاجتماعي (Bentivogli et al. ، 2020) بطبقتين من التعليقات التوضيحية اللغوية الجديدة (POS وسلاسل الاتفاقية) ، واستكشاف إلى أي مدى تكون الفئات المعجمية المختلفة وظواهر الاتفاقية تتأثر بالانحرافات بين الجنسين. مع التركيز على ترجمة الكلام ، نجري تقييمًا متعدد الأوجه لثلاث اتجاهات لغوية (الإنجليزية - الفرنسية / الإيطالية / الإسبانية) ، مع نماذج مدربة على كميات متفاوتة من البيانات وتقنيات مختلفة لتجزئة الكلمات. من خلال تسليط الضوء على سلوكيات النموذج ، والتحيز الجنساني ، واكتشافه على عدة مستويات من التفصيل ، تؤكد النتائج التي توصلنا إليها على قيمة التحليلات المخصصة التي تتجاوز النتائج الإجمالية المجمعة.Abstract
C…ônn…ôt t…ôrzl…ôrini dil teknolojil…ôrin…ô t…ôsir ed…ôn problematik bir fenomen kimi tanńĪnmńĪŇüdńĪr. Son t…ôrzl…ôrind…ô t…ôrzl…ôrinin dill…ôrin arasńĪnda f…ôrqli t…ôrzl…ôrin √ľz…ôrind…ô √ľz…ô √ßńĪxmasńĪnńĪ anlamńĪŇüdńĪr. Lakin, Ňüimdiki deńüerlendirm…ô praksil…ôrinin √ßoxu sintetik ŇüartlarńĪ altńĪnda s√∂zl…ôrin s…ôviyy…ôsin…ô baxmayaraq, s√∂zl…ôrin s…ôviyy…ôsini sintetik m…ôqs…ôdil…ô √ß…ôkilm…ôsi √ľ√ß√ľn t…ôsirl…ôndirir. B√ľt√ľn protokollar gramatik cins dill…ôrinin anahtar √∂zellikl…ôrin…ô baxńĪr, cins anlaŇümasńĪ morphosyntaktik z…ôncirl…ôri il…ô tanńĪdńĪrlar, bir √ßoxlu leksik v…ô s√∂zl…ôrin par√ßalarńĪnńĪ (POS) il…ô iŇüar…ô edilmiŇüdir. Bu limiti √ľst√ľn etm…ôk √ľ√ß√ľn, biz t…ôbi…ôtli, cins-sensitiv MuST-SHE corpus (Bentivogli et al., 2020) iki yeni dilli annotation layers (POS v…ô anlaŇüma zinciri) il…ô z…ônginl…ôndirdik v…ô cins skews tarafńĪndan n…ô q…ôd…ôr m√ľxt…ôlif leŇüik kategoriyalarńĪ v…ô anlaŇüma par√ßalarńĪnńĪn t…ôsir edildiyini araŇüdńĪrńĪrńĪq. S√∂zl√ľk terc√ľm…ôtin…ô t…ôsirli olaraq, biz √ľ√ß dil t…ôr…ôfl…ôrind…ô √ßoxlu t…ôsirli t…ôsiri etdik (ńįngilizce-FransńĪz/ńįtalyan/ńįspanyol/ńįspanyol/ńįngilizce-FransńĪz/ńįspanyol/ńįngilizce-ńįspanyol/ńįngilizce-FransńĪz/ńįspanyol dili t…ôr…ôfl…ôrin Model davranńĪŇülarńĪna, cins t…ôrzl…ôrin…ô v…ô bunlarńĪn √ßoxlu s…ôviyy…ôd…ô granularńĪlńĪq t…ôŇükil edilm…ôsin…ô g√∂r…ô, tapńĪlarńĪmńĪz t…ôŇükil edilmiŇü analizl…ôrin qiym…ôtini t…ôsdiql…ôyir.Abstract
Половите пристрастия до голяма степен се признават като проблемно явление, засягащо езиковите технологии, като последните проучвания подчертават, че те могат да се появят по различен начин в различните езици. Въпреки това, повечето от настоящите практики за оценяване възприемат фокус на ниво дума върху тесен набор от професионални съществителни при синтетични условия. Такива протоколи пренебрегват ключовите характеристики на граматичните полови езици, които се характеризират с морфосинтактични вериги на полово съгласие, маркирани върху различни лексикални елементи и части от речта (ПОС). За да преодолеем това ограничение, обогатяваме естествения, чувствителен към пола корпус с два нови езикови анотационни слоя (ПОС и вериги на съгласие) и изследваме до каква степен различните лексикални категории и явления на съгласие са повлияни от половите изкривявания. Фокусирайки се върху речния превод, провеждаме многостранна оценка в три езикови направления (английски-френски/италиански/испански), с модели обучени по различни количества данни и различни техники за сегментиране на думи. Чрез хвърлянето на светлина върху поведението на модела, половото пристрастие и неговото откриване на няколко нива на гранулираност, нашите констатации подчертават стойността на специализираните анализи отвъд обобщените общи резултати.Abstract
ভাষার প্রযুক্তির উপর প্রভাবিত একটি সমস্যাত বিষয় হিসেবে লিঙ্গ বিবেচনা করা হয়েছে, সাম্প্রতিক গবেষণাগুলো নিশ্চিত করেছে যে এটি ভাষার ভি তবে বর্তমান মূল্যের বেশীরভাগ ব্যবস্থা সিন্টেটিক পরিস্থিতির উপর একটি শব্দ-স্তরে মনোযোগ প্রদান করে। এই ধরনের প্রোটোকল গ্রাম্যাটিক্যাল লিঙ্গ ভাষার গুরুত্বপূর্ণ বৈশিষ্ট্যাবলী বৈশিষ্ট্যাবলী চুক্তি দ্বারা চিহ্নিত, যা বিভিন্ন লেক্সিকাল জ এই সীমাবদ্ধ করার জন্য আমরা প্রাকৃতিক, লিঙ্গ-সংবেদনশীল মুস্টি-এসএই কোর্পাস (বেন্টিভিওগ্লি এল, ২০২০) দুটি নতুন ভাষার শিল্পের সাথে সমৃদ্ধ করি এবং লেক্সিক্সিক্যাল বিভিন্ন বিভিন ভাষণ অনুবাদের ব্যাপারে মনোযোগ দিয়ে আমরা তিন ভাষার দিকে (ইংরেজি-ফরাসী/ইতালিয়ান/স্প্যানিশ) বিভিন্ন তথ্য এবং বিভিন্ন শব্দ বিভিন্ন ভাষার প্ মডেলের আচরণ, লিঙ্গ বিভিন্ন বিভিন্ন পর্যায়ে আলোক প্রদর্শনের মাধ্যমে আমাদের খুঁজে পাওয়া যায়, সারা ফলাফলের বাইরে বিশেষ বিশ্লেষণের মূল্য উল্লেখAbstract
དེ་ལྟ་བུའི་བཟོ་རྣམ་གྱི་ལམ་ལུགས་ཆེ་ཤོས་ཡོད་པ་དང་སྐད་ཡིག་འབྲུ་མཐུན་འགྱུར་བ་དེ་ཆེས་ཤུགས་ཡོད་པ་དང་། ཉེ་ཆར་གྱི་བརྗོད་ལ་ ཡིན་ནའང་། ད་ལྟོའི་རྩ་སྒྲིག་གི་ཆེ་ཤོས་ཀྱི་བྱ་ཚིག་དག་གིས་ཚོགས་སྦྲེལ་བའི་མིང་ཚོའི་ནང་དུ་དམིགས་བསལ་བྱེད་ཀྱི་ཡོད། Such protocols overlook key features of grammatical gender languages, which are characterized by morphosyntactic chains of gender agreement, marked on a variety of lexical items and parts-of-speech (POS). To overcome this limitation, we enrich the natural, gender-sensitive MuST-SHE corpus (Bentivogli et al., 2020) with two new linguistic annotation layers (POS and agreement chains), and explore to what extent different lexical categories and agreement phenomena are impacted by gender skews. Focusing on speech translation, we conduct a multifaced evaluation on three language directions (English-French/Italian/Spanish), with models trained on varying amounts of data and different word segmentation techniques. In English-French/Italian/Spanish, we conduct a multifaced evaluation on three languages directions. Through shedding light on model behavior, gender bias, and its detection at several levels of granularity, our findings emphasize the value of dedicated analyses beyond aggregated overall results.Abstract
Ženska predrasuda se uglavnom priznaje kao problematični fenomen koji utječe na jezičke tehnologije, s nedavnim ispitivanjima koje potvrđuju da bi se moglo drugačije površiti na jezicima. Međutim, većina trenutnih prakse procjene usvojila je koncentraciju na razini riječi na usku skupu profesionalnih imena pod sintetičkim uvjetima. Takvi protokoli pregledaju ključne karakteristike gramatičkih spolnih jezika, koje karakteriziraju morfosintaktički lanci spolnog sporazuma, označene na raznim leksičkim predmetima i dijelovima govora (POS). Da bi preuzeli ovu ograničenje, obogatili smo prirodni, osjetljivi muST-SHE korpus (Bentivogli et al., 2020) sa dvije nove slojeve jezičke annotacije (POS i lance sporazuma), i istražili u kakvoj mjeri različite leksičke kategorije i fenomene sporazuma utjecaju na spolne košulje. Fokusirajući se na prevod govora, vodimo višestruku procjenu o tri jezičke upute (engleski-francuski/italijanski/španjolski), s modelima obučenim na različitim količinama podataka i različitim tehnikama segmentacije riječi. Izbacivanjem svjetla na model ponašanja, spolne predrasude i njegovo otkrivanje na nekoliko nivoa granularnosti, naši nalazi naglašavaju vrijednost posvećenih analiza izvan aggregativnih ukupnih rezultata.Abstract
El bias de gènere es reconeix en gran part com un fenomen problemàtic que afecta les tecnologies lingüístices, amb estudis recents subrayant que podria superar de manera diferent a través de les llengües. Tot i així, la majoria de pràctiques d'evaluació actuals adopten un enfocament a nivell de paraules en un conjunt estret de noms ocupacionals en condicions sintètiques. Such protocols overlook key features of grammatical gender languages, which are characterized by morphosyntactic chains of gender agreement, marked on a variety of lexical items and parts-of-speech (POS). Per superar aquesta limitació, enriquecem el corpus MuST-SHE natural i sensible al gènere (Bentivogli et al., 2020) amb dues noves capes d'anotació lingüística (POS i cadenes d'acords), i explorem en quin punt diferents categories lècsiques i fenomens d'acord estan afectats pels esboços de gènere. En centrar-nos en la traducció del discurs, fem una evaluació multifacetada en tres direccions lingüístices (anglès-francès/italià/espanyol), amb models entrenats en quantitats variades de dades i tècniques de segmentació de paraules diferents. Al deixar llum sobre els comportaments models, el bias de gènere i la seva detecció a diversos nivells de granularitat, els nostres descobriments destaquen el valor d'anàlisis dedicades més enllà dels resultats globals agregats.Abstract
Genderová zaujatost je do značné míry uznávána jako problematický jev ovlivňující jazykové technologie, přičemž nedávné studie zdůrazňují, že se může v různých jazycích objevovat odlišně. Většina současných hodnotících postupů se však zaměřuje na úroveň slov na úzký soubor profesních podstatných jmen za syntetických podmínek. Tyto protokoly přehlížejí klíčové rysy gramatických genderových jazyků, které jsou charakterizovány morfosyntaktickými řetězci genderové shody, označenými na různých lexikálních položkách a částech řeči (POS). Abychom toto omezení překonali, obohacujeme přirozený, genderově citlivý korpus MuST-SHE (Bentivogli et al., 2020) o dvě nové jazykové anotační vrstvy (POS a dohodové řetězce) a zkoumáme, do jaké míry jsou různé lexikální kategorie a jevy dohody ovlivněny genderovými pochyby. Zaměřením se na překlad řeči provádíme mnohostranné hodnocení tří jazykových směrů (anglicko-francouzština/italština/španělština), s modely trénované na různém množství dat a různých technik segmentace slov. Naše zjištění zdůrazňují hodnotu specializovaných analýz nad rámec agregovaných celkových výsledků.Abstract
Kønsbias anerkendes i vid udstrækning som et problematisk fænomen, der påvirker sprogteknologier, og nylige undersøgelser understreger, at det kan dukke op anderledes på tværs af sprog. De fleste af de nuværende evalueringspraksis fokuserer imidlertid på ordniveau på et snævert sæt erhvervsnavne under syntetiske forhold. Sådanne protokoller overser vigtige træk i grammatiske kønssprog, som er kendetegnet ved morfosyntaktiske kæder af kønsaftale, markeret på en række leksikske emner og dele af tale (POS). For at overvinde denne begrænsning beriger vi det naturlige, kønsfølsomme MuST-SHE corpus (Bentivogli et al., 2020) med to nye sproglige annotationslag (POS og aftalekæder), og undersøger i hvilket omfang forskellige leksikalske kategorier og aftalefænomener påvirkes af kønsskævheder. Med fokus på taleoversættelse foretager vi en alsidig evaluering af tre sprogretninger (engelsk-fransk/italiensk/spansk), med modeller trænet i forskellige mængder data og forskellige ordsegmenteringsteknikker. Ved at kaste lys over modeludfærd, kønsbias og dens påvisning på flere niveauer af granularitet understreger vores resultater værdien af dedikerede analyser ud over aggregerede samlede resultater.Abstract
Gender Bias wird weitgehend als problematisches Phänomen anerkannt, das Sprachtechnologien beeinflusst, wobei neuere Studien unterstreichen, dass es sich zwischen Sprachen unterschiedlich bemerkbar machen könnte. Die meisten derzeitigen Bewertungspraktiken konzentrieren sich jedoch auf Wortebene auf einen engen Satz beruflicher Substantive unter synthetischen Bedingungen. Solche Protokolle übersehen Schlüsselmerkmale grammatischer Geschlechtssprachen, die durch morphosyntaktische Ketten der Geschlechtervereinbarung gekennzeichnet sind, die auf einer Vielzahl von lexikalischen Elementen und Sprachteilen (POS) gekennzeichnet sind. Um diese Einschränkung zu überwinden, bereichern wir den natürlichen, geschlechtsspezifischen MuST-SHE-Korpus (Bentivogli et al., 2020) um zwei neue linguistische Annotationsebenen (POS und Agreement Chains) und erforschen, inwieweit unterschiedliche lexikalische Kategorien und Übereinstimmungsphänomene durch Gender Skews beeinflusst werden. Mit dem Schwerpunkt Sprachübersetzung führen wir eine facettenreiche Evaluation in drei Sprachrichtungen (Englisch-Französisch/Italienisch/Spanisch) durch, wobei Modelle auf unterschiedlichen Datenmengen und verschiedenen Wortsegmentierungstechniken trainiert werden. Indem wir Modellverhalten, Gender Bias und deren Erkennung auf mehreren Granularitätsebenen beleuchten, unterstreichen unsere Ergebnisse den Wert dedizierter Analysen jenseits aggregierter Gesamtergebnisse.Abstract
Η προκατάληψη των φύλων αναγνωρίζεται σε μεγάλο βαθμό ως προβληματικό φαινόμενο που επηρεάζει τις γλωσσικές τεχνολογίες, με πρόσφατες μελέτες να υπογραμμίζουν ότι μπορεί να εμφανιστεί διαφορετικά στις γλώσσες. Ωστόσο, οι περισσότερες από τις τρέχουσες πρακτικές αξιολόγησης υιοθετούν μια εστίαση σε επίπεδο λέξεων σε ένα στενό σύνολο επαγγελματικών ουσιαστικών υπό συνθετικές συνθήκες. Τέτοια πρωτόκολλα παραβλέπουν βασικά χαρακτηριστικά των γραμματικών γλωσσών φύλων, οι οποίες χαρακτηρίζονται από μορφοσυντακτικές αλυσίδες συμφωνίας φύλου, που επισημαίνονται σε μια ποικιλία λεξικών στοιχείων και τμημάτων ομιλίας. Για να ξεπεραστεί αυτός ο περιορισμός, εμπλουτίζουμε το φυσικό, ευαίσθητο στο φύλο σώμα με δύο νέα γλωσσικά στρώματα σχολιασμού (και αλυσίδες συμφωνίας), και διερευνούμε σε ποιο βαθμό διαφορετικές λεξικές κατηγορίες και φαινόμενα συμφωνίας επηρεάζονται από τις στρεβλώσεις φύλου. Εστιάζοντας στη μετάφραση ομιλίας, διεξάγουμε μια πολύπλευρη αξιολόγηση σε τρεις γλωσσικές κατευθύνσεις (Αγγλικά-Γαλλικά/Ιταλικά/Ισπανικά), με μοντέλα εκπαιδευμένα σε ποικίλες ποσότητες δεδομένων και διαφορετικές τεχνικές κατάτμησης λέξεων. Ρίχνοντας φως στις συμπεριφορές μοντέλων, την προκατάληψη φύλου και την ανίχνευση της σε διάφορα επίπεδα κοκκοποίησης, τα ευρήματά μας τονίζουν την αξία των ειδικών αναλύσεων πέρα από τα συγκεντρωτικά συνολικά αποτελέσματα.Abstract
El sesgo de género se reconoce en gran medida como un fenómeno problemático que afecta a las tecnologías del lenguaje, y estudios recientes subrayan que puede aparecer de manera diferente entre idiomas. Sin embargo, la mayoría de las prácticas de evaluación actuales adoptan un enfoque a nivel de palabras en un conjunto limitado de sustantivos ocupacionales en condiciones sintéticas. Dichos protocolos pasan por alto las características clave de los lenguajes gramaticales de género, que se caracterizan por cadenas morfosintácticas de acuerdo de género, marcadas en una variedad de elementos léxicos y partes del habla (POS). Para superar esta limitación, enriquecemos el corpus natural y sensible al género (Bentivogli et al., 2020) con dos nuevas capas de anotación lingüística (POS y cadenas de acuerdos), y exploramos hasta qué punto las diferentes categorías léxicas y los fenómenos de acuerdo se ven afectados por los sesgos de género. Centrándonos en la traducción de voz, realizamos una evaluación multifacética en tres direcciones lingüísticas (inglés/francés/italiano/español), con modelos capacitados en cantidades variables de datos y diferentes técnicas de segmentación de palabras. Al arrojar luz sobre los comportamientos de los modelos, el sesgo de género y su detección en varios niveles de granularidad, nuestros hallazgos enfatizan el valor de los análisis dedicados más allá de los resultados globales agregados.Abstract
Soolist eelarvamust peetakse suuresti keeltehnoloogiat mõjutavaks probleemseks nähtuseks, kusjuures hiljutised uuringud rõhutavad, et see võib keeltes erinevalt esile kerkida. Enamik praegustest hindamistavadest keskendub aga sõnatasemel kitsastele kutselistele nimisõnadele sünteetilistes tingimustes. Sellised protokollid jätavad tähelepanuta grammatiliste sookeelte põhijooned, mida iseloomustavad soolise kokkuleppe morfosüntaktilised ahelad, mis on märgitud erinevatele leksikaalsetele elementidele ja kõneosadele (POS). Selle piirangu ületamiseks rikastame looduslikku sootundlikku MuST-SHE korpust (Bentivogli jt., 2020) kahe uue keelelise annotatsioonikihiga (POS ja kokkuleppeahelad) ning uurime, mil määral erinevaid leksikaalseid kategooriaid ja kokkuleppenähtusi mõjutavad sookõrvalekalded. Keskendudes kõnetõlkele, teostame mitmekülgse hindamise kolmes keelesuunas (inglise-prantsuse/itaalia/hispaania), kus mudelid on koolitatud erinevate andmekoguste ja erinevate sõnasegmenteerimise meetoditega. Valgustades mudeli käitumist, soolise eelarvamuse ja selle tuvastamist mitmel granulaarsuse tasemel, rõhutavad meie tulemused spetsiaalsete analüüside väärtust lisaks koondtulemustele.Abstract
با تحقیقات اخیرا که میتواند در زبانها به صورت مختلف روی روی روی روی صحنههای جنسی تأثیر دهد، بسیار مشکلی است که تأثیر تکنولوژیهای زبان میدهد. ولی بیشتر عملیات ارزیابی فعلی یک سطح کلمه را روی یک مجموعه تنگ نام شغل در شرایط سنتراتیک پذیرفته میکند. این پروتکلها ویژگیهای کلیدی از زبانهای گراماتیک جنسی را فراموش میکنند، که با زنجیرهای مورفوسینتیک از توافق جنسی تعریف میکنند، که روی کلیدیهای زبانشناسی و بخشهای سخنرانی (POS) نشان داده میشوند. برای تغییر این محدودیت، ما شرکت طبیعی و حساس جنسی MuST-SHE (Bentivogli et al., 2020) را با دو لایه نوشتههای زبانشناسی جدید (POS و زنجیرهای موافقت) ثروت میکنیم، و به چه اندازه گونههای زبانشناسی و پدیدههای موافقت که توسط سنگهای جنسی تأثیر میدهند، تحقی با توجه به ترجمه سخنرانی، ما یک ارزیابی متفاوت در سه راه زبان (انگلیسی-فرانسوی/ایتالیایی/اسپانیایی/اسپانیایی) انجام میدهیم، با مدلهای آموزش دادههای متفاوت و تکنیک جدا کردن کلمات متفاوت. با تغییر نور روی رفتارهای مدل، پیشرفت جنسی و کشف آن در چند سطح بزرگی، نتیجههای ما ارزش تحلیلهای مخصوص را بیشتر از نتیجههای کلی جمع میکنند.Abstract
Sukupuolten ennakkoluulo tunnustetaan pitkälti kieliteknologioihin vaikuttavaksi ongelmalliseksi ilmiöksi, ja viimeaikaiset tutkimukset korostavat, että se saattaa esiintyä eri kielillä. Useimmissa nykyisissä arviointikäytännöissä keskitytään kuitenkin sanatasolla kapeaan ammattisubstantiivien joukkoon synteettisissä olosuhteissa. Tällaiset protokollat jättävät huomiotta kielioppisten sukupuolikielten keskeiset piirteet, joille on ominaista morfosyntaktiset sukupuolisopusoinnun ketjut, jotka on merkitty erilaisiin sanastoihin ja puheen osiin (POS). Tämän rajoituksen voittamiseksi rikastamme luonnollista, sukupuoliherkkää MuST-SHE-korpusta (Bentivogli et al., 2020) kahdella uudella kielellisellä annotointikerroksella (POS ja sopimusketjut) ja tutkimme, missä määrin sukupuolivääristymät vaikuttavat eri sanastoluokkiin ja sopimusilmiöihin. Puheen kääntämiseen keskittyen suoritamme moniulotteisen arvioinnin kolmesta eri kielisuunnasta (englanti-ranska/italia/espanja), joissa mallinnetaan erilaisia tietomääriä ja eri sanasegmentointitekniikoita. Valaisemalla mallikäyttäytymistä, sukupuoliharhaa ja sen havaitsemista useilla tarkkuustasoilla havainnomme korostavat erityisanalyysien arvoa yhdistettyjen kokonaistulosten lisäksi.Abstract
Les préjugés sexistes sont largement reconnus comme un phénomène problématique affectant les technologies langagières, des études récentes soulignant qu'ils peuvent apparaître différemment d'une langue à l'autre. Cependant, la plupart des pratiques d'évaluation actuelles mettent l'accent sur un ensemble restreint de noms professionnels dans des conditions synthétiques. Ces protocoles négligent les principales caractéristiques des langues grammaticales de genre, caractérisées par des chaînes morphosyntaxiques d'accord entre les sexes, marquées sur une variété d'éléments lexicaux et de parties du discours (POS). Pour surmonter cette limitation, nous enrichissons le corpus naturel et sensible au genre Must-she (Bentivogli et al., 2020) avec deux nouvelles couches d'annotations linguistiques (POS et chaînes d'accords), et explorons dans quelle mesure les différentes catégories lexicales et les phénomènes d'accord sont impactés par les biais de genre. En nous concentrant sur la traduction vocale, nous menons une évaluation multidimensionnelle dans trois directions linguistiques (anglais-français/italien/espagnol), avec des modèles formés à différentes quantités de données et différentes techniques de segmentation de mots. En mettant en lumière les comportements des modèles, les préjugés sexistes et leur détection à plusieurs niveaux de granularité, nos résultats mettent l'accent sur la valeur des analyses dédiées au-delà des résultats globaux agrégés.Abstract
Aithnítear laofacht inscne den chuid is mó mar fheiniméan fadhbach a théann i bhfeidhm ar theicneolaíochtaí teanga, agus léirigh staidéir a rinneadh le déanaí go bhféadfadh sé teacht chun cinn ar bhealach difriúil trasna teangacha. Mar sin féin, glacann an chuid is mó de na cleachtais mheastóireachta reatha fócas ar leibhéal na bhfocal ar thacar cúng d’ainmfhocail cheirde faoi choinníollacha sintéiseacha. Breathnaítear i bprótacail den sórt sin ar phríomhghnéithe de theangacha gramadaí inscne, arb iad is sainairíonna iad slabhraí morfosyntachta de chomhaontú inscne, marcáilte ar éagsúlacht míreanna foclóireachta agus codanna cainte (POS). Chun an teorannú seo a shárú, saibhrímid an corpas Must-SHE nádúrtha atá íogair ó thaobh inscne (Bentivogli et al., 2020) le dhá shraith nua nótaí teanga (POS agus slabhraí comhaontaithe), agus déanaimid iniúchadh ar cé chomh mór agus atá catagóirí éagsúla foclóireachta agus feiniméin chomhaontaithe. tionchar ag skews inscne. Ag díriú ar aistriúchán cainte, déanaimid meastóireacht ilghnéitheach ar thrí threo teanga (Béarla-Fraincis/Iodáilis/Spáinnis), le múnlaí oilte ar mhéideanna éagsúla sonraí agus ar theicnící éagsúla deighilte focal. Tríd an bhfianaise a thapú ar iompraíochtaí samhla, ar chlaonadh inscne, agus ar a bhrath ar leibhéil éagsúla gráinneachta, leagann ár dtorthaí béim ar luach na n-anailísí tiomnaithe thar thorthaí iomlána comhiomlána.Abstract
Ana gane suriyar jini kamar wani abu mai matsãta ne wanda ke yi amfani da technical na harshe, da karatun na farko, yana ƙara cẽwa, za ta samar da shi a cikin wasu harshe dabam-dabam. A lokacin da, mafi yawansu da ke aikin evaluation yanzu, suna ɗau wata magana-daraja zura fokus a kan wani tsarin nau'i masu sauri na aikin aiki a ƙarƙashin mazaɓa. Waɗancan shiryoyin ayuka na ƙẽtare ƙayyade masu cikin harshen jinin grammati, waɗand a ke ƙayyade su da wasu nau'i na mutane, da aka yi wa alama a cikin wasu abubuwa na leksisi da rabon magana (PSS). To overcome this limitation, we enrich the natural, gender-sensitive MuST-SHE corpus (Bentivogli et al., 2020) with two new linguistic annotation layers (POS and agreement chains), and explore to what extent different lexical categories and agreement phenomena are impacted by gender skews. Yana da amfani da fassarar magana, Munã tafiyar da an ƙaddara masu yawa a kan shiryoyin harshe uku (Ingiriya-French/Italian/spanish), da misãlai wanda aka yi wa wa'anar ko-nau'in data da kuma masu diƙayyade kalmõmi dabam-dabam. Ga ku nuna haske a kan abun misãlai, biyar jini da gane shi a cikin daraja guda, misãlai masu ƙayyade kimar da aka ƙayyade haske a kan fassarar duk.Abstract
ההתמחות הגברית מוכרת בעיקר כתופעה בעייתית שמשפיעה על טכנולוגיות שפת, עם מחקרים לאחרונה שמרמזים כי היא עלולה להשפיע בצורה שונה בכל שפות. עם זאת, רוב מערכות הערכה הנוכחיות מאמצות התמקדות ברמה מילים על קבוצה צרה של שמות מקצועיות בתנאים סינטטיים. פרוטוקולים כאלה מתעלמים מאפיינים מפתחיים של שפות גזע גרמטיות, שמתאימות על ידי שרשרות מורפוסינטקטיות של הסכם גזע, מסומנות על מגוון של פריטים לקסיים וחלקים של נאום (POS). כדי להתגבר על ההגבלה הזאת, אנחנו מעשירים את MuST-SHE corpus הטבעי, רגיש למין (Bentivogli et al., 2020) עם שתי שכבות ציונים לשפתיים חדשות (POS ושרשרת הסכם), ולחקור עד כמה קטגוריות לקסיות שונות ותופעות הסכם משפיעות על ידי סקוי מין. מתמקדים בתרגום הנאום, אנו מבצעים עריכה מרובה-פנים על שלושה כיוונים לשפה (אנגלית-צרפתית/איטלקית/ספרדית), עם דוגמנים מאומנים על כמויות שונות של נתונים וטכניקות שיתוף מילים שונות. על ידי השליך אור על התנהגות מודל, ההתמחות מינית, והגילוי שלה במספר רמות של גרנוליות, הממצאים שלנו מזכירים את הערך של ניתוחים מוקדשים מעבר לתוצאות כלליות מורכבות.Abstract
लिंग पूर्वाग्रह को काफी हद तक भाषा प्रौद्योगिकियों को प्रभावित करने वाली एक समस्याग्रस्त घटना के रूप में मान्यता प्राप्त है, हाल के अध्ययनों में यह रेखांकित किया गया है कि यह भाषाओं में अलग-अलग सतह पर आ सकता है। हालांकि, अधिकांश वर्तमान मूल्यांकन प्रथाएं सिंथेटिक परिस्थितियों में व्यावसायिक संज्ञाओं के एक संकीर्ण सेट पर एक शब्द-स्तरीय फोकस को अपनाती हैं। इस तरह के प्रोटोकॉल व्याकरणिक लिंग भाषाओं की प्रमुख विशेषताओं को अनदेखा करते हैं, जो लिंग समझौते की मॉर्फोसिंटैक्टिक श्रृंखलाओं की विशेषता है, जो विभिन्न प्रकार के लेक्सिकल आइटम और पार्ट्स-ऑफ-स्पीच (पीओएस) पर चिह्नित हैं। इस सीमा को दूर करने के लिए, हम दो नए भाषाई एनोटेशन परतों (पीओएस और समझौता श्रृंखलाओं) के साथ प्राकृतिक, लिंग-संवेदनशील MuST-SHE कॉर्पस (Bentivogli et al., 2020) को समृद्ध करते हैं, और यह पता लगाते हैं कि विभिन्न लेक्सिकल श्रेणियां और समझौते की घटनाएं किस हद तक प्रभावित होती हैं लिंग skews। भाषण अनुवाद पर ध्यान केंद्रित करते हुए, हम तीन भाषा निर्देशों (अंग्रेजी-फ्रेंच / इतालवी / स्पेनिश) पर एक बहुआयामी मूल्यांकन करते हैं, जिसमें अलग-अलग मात्रा में डेटा और विभिन्न शब्द विभाजन तकनीकों पर प्रशिक्षित मॉडल होते हैं। मॉडल व्यवहार, लिंग पूर्वाग्रह, और ग्रैन्युलैरिटी के कई स्तरों पर इसका पता लगाने पर प्रकाश डालकर, हमारे निष्कर्ष एकत्रित समग्र परिणामों से परे समर्पित विश्लेषण के मूल्य पर जोर देते हैं।Abstract
Ženska pristrasnost se uglavnom priznaje kao problematični fenomen koji utječe na jezičke tehnologije, a nedavno ispitivanje potvrđuje da bi se moglo drugačije površiti na jezicima. Međutim, većina trenutnih prakse procjene usvojila je koncentraciju na razini riječi na usku skupu profesionalnih imena pod sintetičkim uvjetima. Takvi protokoli pregledavaju ključne karakteristike gramatičkih spolnih jezika, koje karakteriziraju morfosintaktički lanci spolnog sporazuma, označene na raznim leksičkim predmetima i dijelovima govora (POS). Za prevladanje ovog ograničenja, obogatili smo prirodni, osjetljivi muST-SHE corpus (Bentivogli et al., 2020) sa dvije nove slojeve jezičke annotacije (POS i lanci sporazuma), i istražiti u kakvoj mjeri su različite leksičke kategorije i fenomene sporazuma utjecali na spolne košulje. Fokusirajući se na prevod govora, vodimo višestruku procjenu o tri jezičke upute (engleski-francuski/italijanski/španjolski), s modelima obučenim na različitim količinama podataka i različitim tehnikama segmentacije riječi. Izbacivanjem svjetla na model ponašanja, spolne predrasude i njegovo otkrivanje na nekoliko razina granularnosti, naši nalazi naglašavaju vrijednost posvećenih analiza izvan aggregativnih ukupnih rezultata.Abstract
A nemek közötti elfogultság nagyrészt a nyelvtechnológiákat érintő problémás jelenségnek tekinthető, a legutóbbi tanulmányok hangsúlyozzák, hogy a nyelvek között eltérően jelennek meg. A jelenlegi értékelési gyakorlatok többsége azonban szószintű hangsúlyt fektet a szintetikus körülmények közötti foglalkozási főnevek szűk halmazára. Az ilyen protokollok figyelmen kívül hagyják a nyelvtani nemi nyelvek kulcsfontosságú jellemzőit, amelyeket a nemi megegyezés morfoszintatikus láncai jellemeznek, amelyek különböző lexikai tételeken és beszédrészeken (POS) jelölnek. Ennek a korlátozásnak a leküzdése érdekében a természetes, nemi érzékeny MuST-SHE korpuszt (Bentivogli et al., 2020) két új nyelvi jegyzetelési réteggel gazdagítjuk (POS és megállapodási láncok), és feltárjuk, hogy a különböző lexikai kategóriákat és megállapodási jelenségeket milyen mértékben befolyásolják a nemi eltérések. A beszédfordításra összpontosítva három nyelvi irányban (angol-francia/olasz/spanyol) sokoldalú értékelést végzünk, különböző adatmennyiségű modellekkel és különböző szószegmentálási technikákkal. A modell viselkedésének, a nemi elfogultságnak, valamint a granularitás több szintjén történő kimutatásának megvilágításával eredményeink hangsúlyozzák a dedikált elemzések értékét az összesített általános eredményeken túl.Abstract
Սկնդի կողմնականությունը հիմնականում ընդունվում է որպես լեզվի տեխնոլոգիաներին ազդում խնդիր ունեցող երևույթ, որտեղ վերջին ուսումնասիրությունները նշանակում են, որ այն կարող է տարբեր կերպ գտնվել լեզուներում: Այնուամենայնիվ, ներկայիս գնահատման գործողությունների մեծամասնությունը ընդունում է բառի մակարդակի կենտրոնացումը սինթետիկ պայմաններում մասնագիտական անունների խիստ խումբի վրա: Այս պրոտոկոլները անտեսում են գրամատիկ գենդերային լեզուների հիմնական հատկությունները, որոնք բնորոշվում են գենդերային համաձայնության մորֆոսինտակտիկ շղթաներով, որոնք նշված են լեքսիկական տարրերի և խոսքի մասերի (POS) վրա: Այս սահմանափակումները հաղթահարելու համար մենք հարստացնում ենք բնական, գենդերային զգացմունքը զգացմունքներ ունեցող ՄՈՍԹ-ՇԵ կորպոսը (Բենտիվոգլին և այլն., 2020 թ․) երկու նոր լեզվաբանական նոտացիոն շերտերով (POS և համաձայնության շղթաներով), և ուսումնասիրում ենք, թե ինչքանով Մենք կենտրոնացնում ենք խոսքի թարգմանման վրա, մենք կատարում ենք բազմատեսակ գնահատում երեք լեզվի ուղղությունների վրա (անգլերեն-ֆրանսերեն, իսպաներեն, իսպաներեն), մոդելների վրա, որոնք պատրաստված են տարբեր տվյալների քանակությամբ Մոդելի վարքագծի, գենդերային կողմնականության և դրա հայտնաբերման միջոցով մեր հայտնաբերությունները շեշտում են նվիրված վերլուծությունների արժեքը, որը հակառակ է համաշխարհային արդյունքներից:Abstract
Kebiasaan jenis kebanyakan dikenal sebagai fenomena problematik yang mempengaruhi teknologi bahasa, dengan penelitian baru-baru ini menyatakan bahwa ia mungkin berbeda di berbagai bahasa. Namun, kebanyakan praktek evaluasi saat ini mengadopsi fokus tingkat kata pada set sempit nama pekerjaan dalam kondisi sintetis. Protokol tersebut mengabaikan ciri-ciri kunci bahasa kelamin gramatik, yang dikaraterisasikan oleh rantai morfosintaksi kesepakatan kelamin, ditandai pada berbagai benda leksikal dan bagian-dari-pidato (POS). Untuk mengatasi batasan ini, kami memperkaya MuST-SHE corpus (Bentivogli et al., 2020) yang alami, sensitif-jenis dengan dua lapisan annotasi bahasa baru (POS dan rantai kesepakatan), dan mengeksplorasi seberapa besar kategori leksik berbeda dan fenomena kesepakatan terpengaruh oleh skews jenis. Fokus pada terjemahan pidato, kami melakukan evaluasi multifacet pada tiga arah bahasa (Inggris-Perancis/Italia/Spanyol), dengan model yang dilatih pada jumlah data yang berbeda dan teknik segmentasi kata yang berbeda. By shedding light on model behaviours, gender bias, and its detection at several levels of granularity, our findings emphasize the value of dedicated analyses beyond aggregated overall results.Abstract
Il pregiudizio di genere è ampiamente riconosciuto come un fenomeno problematico che colpisce le tecnologie linguistiche, con studi recenti che sottolineano che potrebbe emergere in modo diverso tra le lingue. Tuttavia, la maggior parte delle attuali pratiche di valutazione adotta un focus a livello di parola su una serie ristretta di sostantivi professionali in condizioni sintetiche. Tali protocolli trascurano le caratteristiche chiave dei linguaggi grammaticali di genere, che sono caratterizzati da catene morfosintattiche di accordo di genere, marcate su una varietà di elementi lessicali e parti di discorso (POS). Per superare questa limitazione, arricchiamo il corpus MuST-SHE naturale e sensibile al genere (Bentivogli et al., 2020) con due nuovi livelli di annotazione linguistica (POS e catene di accordi), ed esploriamo in che misura diverse categorie lessicali e fenomeni di accordo sono influenzati da distorsioni di genere. Concentrandoci sulla traduzione vocale, conduciamo una valutazione poliedrica su tre direzioni linguistiche (inglese-francese/italiano/spagnolo), con modelli formati su quantità variabili di dati e tecniche di segmentazione delle parole. Mettendo in luce i comportamenti dei modelli, i pregiudizi di genere e la sua rilevazione a diversi livelli di granularità, i nostri risultati sottolineano il valore di analisi dedicate al di là dei risultati complessivi aggregati.Abstract
ジェンダーバイアスは、言語テクノロジーに影響を与える問題のある現象としてほとんど認識されており、最近の研究では、言語間で異なって見える可能性があることが強調されています。 しかしながら、現在の評価実践のほとんどは、合成条件下で職業名詞の狭いセットに単語レベルの焦点を当てることを採用している。 このようなプロトコルは、さまざまな語彙項目や発話部分( POS )にマークされた、ジェンダー合意の形態素論的連鎖によって特徴付けられる文法的ジェンダー言語の主要な特徴を見落としている。 この制限を克服するために、私たちは2つの新しい言語アノテーションレイヤー( POSおよび合意チェーン)で自然で性別に敏感なMuST - SHEコーパス( Bentivogli et al., 2020 )を豊かにし、さまざまな語彙カテゴリーと合意現象が性別のずれによってどの程度影響を受けるかを探求します。 音声翻訳に焦点を当て、3つの言語の方向性(英語-フランス語/イタリア語/スペイン語)について多面的な評価を行い、さまざまな量のデータと異なる単語セグメンテーション技術についてトレーニングを受けたモデルを使用します。 モデルの行動、性別の偏見、およびいくつかのレベルの粒度での検出を明らかにすることにより、私たちの調査結果は、集約された全体的な結果を超えた専用分析の価値を強調しています。Abstract
Slamet politenessoffpolite"), and when there is a change ("assertive Ato protokol sing berarti akeh akeh akeh sampeyan akeh ning langgar gar sampeyan gejer Ngawe nggoleki perusahaan iki, kita anggadahi mênêr-jutakan gar-akeh sabên, génêr-jutêr Must-SSE Body (Bentitiogi et al.2020) ngangge sistem sing gawe nyimpen langkung duwé (po S lan nampek kejahatan), lan ndhekasara awak dhéwé kuwi kesempatan akeh luwih dumadhi iki ngono kuwi nggawe barang ileksi iki. Ngawe ngubah tarjamahan, kita dadi karo akeh banter sampek karo telu oleh dumateng (ingles-French/italian/Spanish), lan akeh model sing ditulak banter sampek akeh dadi lan teknik sing dadi sampek. Ngawe ki jenis-jenis ngilanggar nganggo perusahaan model, gewis biasane, lan ijol-ijolan winih hayo sing ngedol kuwi tindog granularity, awak dhéwé kuwi nggawe Perintah dhéwé kuwi gek dhéwé sing paling beraksi yang cukup.Abstract
გენერების წარმოდგენები უფრო მნიშვნელოვანია როგორც პრობლემატიური ფენომენი, რომელიც ენერგიის ტექნოლოგიების შესახებ, რომელიც ახალი სწავლებების შესახებ, რომ ეს მაგრამ მხოლოდ, მხოლოდ მიმდინარე განსაზღვრების პრაქტიკები სიტყვების დონეზე კონუქტირება სამუშაო სამუშაო სამუშაო სამუშაო სამუ ასეთი პროტოკოლობი გრამიკალური გენექტური ენების გასაკუთრებულ ფუნქციები, რომლებიც გენექტურის მოპორფსინტაქტიური კონტაქტიური კონტაქტიური კონტაქტიური კონტაქტიური კონტაქტიები რომ გადავიწყებთ ეს დაზრუქება, ჩვენ განვითარებთ ნახვა ლექსიკალური კატეგორიები და შესაძლებლობის ფენომენები (Bentivogli et al., 2020) და ორი ახალი ენგორიტიკური ანოტაციის ნაგულებით (POS და შესაძლებლობის ნაგულები) და განვითარებთ რამდენიმე განსხვავებული ლ სიტყვების გარგულისხმების შესახებ, ჩვენ მრავალფერი განსაზღვრებას სამი ენაზე (ანგლისური-ფრანუსი/თრალიანი/სპანუსი) გავაკეთებთ, რომელიც მოდელები განსაზღვრებული მონაცემების და განსხვ მოდელური ქცევების, გენდური წარმოდგენების და მისი განსახულება რამდენიმე დრანულაციის დონეზე, ჩვენი მონაცემები განსახულებული ანალიზების მნიშვნელობას აღწერენ, რომლებიც აღწერენ უAbstract
Жалғыз тәжірибелер тілдер технологияларына әсер ететін мәселелер ретінде табылады. Соңғы зерттеулерде ол тілдерден айырмашылық болуы мүмкін. Бірақ назардағы бағалау практикасының көпшілігі синтетикалық шарттарында сөздің деңгейіне көңіл береді. Бұл протоколдар грамматикалық гендер тілдерінің негізгі мүмкіндіктерін қарай қарайды. Бұл гендердің морфосинтактикалық тіліктері, әртүрлі лексикалық нысандар мен сөйлеу бөліктері (POS) бойынша белгіледі. Бұл шектеулерді көтеру үшін, біз табиғи, гендерлік сезімді MuST-SHE корпус (Bentivogli et al., 2020) мен екі жаңа лингвистикалық жазбалар қабаттары (POS және келесімдік тізбектері) қолданып, гендерлік шектеулері мен келесімдік пайдаланулары қаншалықтың Орындау аудармасына көптеген үш тіл бағыттарына (ағылшын-француз/итальян/испан) көптеген оқиға береміз. Өзгертілген деректер мен әртүрлі сөздердің сегментациялау техникаларында оқиғалатын мо Үлгі қасиеттерді, гендердің қасиеттерін және оның бірнеше гранулациялық деңгейінде анықтау үшін бір жарықты анализдердің мәнін бағыттайды.Abstract
성별 편견은 어느 정도 언어 기술에 영향을 미치는 문제가 있는 현상으로 여겨지는데, 최근 연구에 따르면 성별 편견은 서로 다른 언어에서 표현될 수 있다고 강조한다.그러나 현재의 대다수 평가 실천은 합성 조건에서 좁은 직업 명사에 대해 단어급의 관심을 갖는 것이다.이러한 프로토콜은 성별이 일치하는 형태의 문법 체인으로 각종 어휘 항목과 어성(POS)에 표시된 문법적 언어의 관건적인 특징을 무시했다.이러한 한계를 극복하기 위해 우리는 두 개의 새로운 언어 주석층(어성과 일치성 체인)으로 자연스럽고 성별에 민감한 MuST-SHE 어료 라이브러리(Bentivogli et al., 2020)를 풍부하게 하고 서로 다른 어휘 유형과 일치성 현상이 어느 정도 성별의 기울어진 영향을 받는지 탐색한다.음성 번역을 중점으로 하여 우리는 세 가지 언어 방향(영어-프랑스어/이탈리아어/스페인어)에 대해 다방면으로 평가했고 모델은 서로 다른 데이터량과 서로 다른 분사 기술에 따라 훈련했다.모델 행위, 성별 편견과 여러 입도 단계에서의 검측을 제시함으로써 우리의 연구결과는 전체적인 결과를 종합하는 것 이외의 전문적인 분석의 가치를 강조했다.Abstract
Lyčių pusiausvyra iš esmės pripažįstama probleminiu reiškiniu, turinčiu įtakos kalbų technologijoms, o naujausiuose tyrimuose pabrėžiama, kad kalbos gali skirtingai išplisti. Tačiau dauguma dabartinių vertinimo praktikų sutelkia dėmesį į siaurą profesinių vardų rinkinį sintetinėmis sąlygomis. Tokiuose protokoluose neatsižvelgiama į pagrindinius gramatinių lyčių kalbų požymius, kuriuos apibūdina lyties susitarimo morfosintakcinės grandinės, pažymėtos įvairiais leksiniais straipsniais ir kalbos dalimis (POS). Siekdami įveikti šį apribojimą, mes praturtiname natūralų, lyties požiūriu jautrią MuST-SHE korpus (Bentivogli et al., 2020 m.) dviem naujais kalbinių anotacijų sluoksniais (POS ir susitarimo grandinės) ir ištiriame, kokiu mastu skirtingos leksinės kategorijos ir susitarimo reiškiniai turi įtakos lyčių nuokrypiams. Svarstydami kalbos vertimą, atliekame daugialypį trijų kalbų krypčių vertinimą (anglų, prancūzų, italų ir ispanų kalbomis), kuriame rengiami skirtingi duomenų kiekiai ir skirtingi žodžių segmentavimo metodai. Išskleidžiant šviesą modelio elgesiui, lyčių pusiausvyrai ir jo nustatymui keliuose granuliarumo lygiuose, mūsų išvados pabrėžia specialių analizių vertę, viršijančią bendruosius rezultatus.Abstract
Порасните предрасуди се препознаваат во голема мера како проблематичен феномен кој влијае на јазичните технологии, со неодамнешните студии истакнувајќи дека може да се појави различно низ јазиците. However, most of current evaluation practices adopt a word-level focus on a narrow set of occupational nouns under synthetic conditions. Таквите протоколи ги прегледуваат клучните карактеристики на граматичките полски јазици, кои се карактеризирани од морфосинтактичките ланцеви на полскиот договор, обележани на различни лексикални предмети и делови од говорот (POS). За да го надминеме ова ограничување, го богатуваме природниот, сексуално чувствителен муST-SHE корпус (Bentivogli и други, 2020) со два нови слоја на јазични анотации (POS и ланцеви на договори), и истражуваме во каков степен различните лексикални категории и феномени на договори се влијани од генералните скриви. Со фокус на преводот на говорот, спроведуваме мултифактична евалуација на три јазични насоки (англиско-француски/италијански/шпански), со модели обучени на различни количини на податоци и различни техники на сегментација на зборо Со фрлање на светлина на моделните однесувања, генералната пристрасност и неговото откривање на неколку нивоа на грануларност, нашите откритија ја истакнуваат вредноста на посветени анализи надвор од агрегетираните целокупни резултати.Abstract
ഭാഷ സാങ്കേതിക സാങ്കേതികവിദ്യയെ ബാധിക്കുന്ന ഒരു പ്രശ്നമായ നിലപാടാണ് എന്ന് ഏറ്റവും പ്രധാനപ്പെടുത്തുന്നത്, അടുത്തുള്ള പ എന്നാലും ഇപ്പോഴത്തെ വിലാസപ്രവര്ത്തനങ്ങളില് മിക്കവാറും ഒരു വാക്ക് നിലയില് ശ്രദ്ധ പ്രവര്ത്തിക്കുന്നത് സിന്റെറ്റിറ് ഇങ്ങനെയുള്ള പ്രോട്ടോക്കോളുകള് ഗ്രാമാറ്റിക്കല് ലെക്സിക്കല് വസ്തുക്കളും സംസാരിക്കുന്ന ഭാഷകളുമായി മാറ്റിയിരിക്കുന്നു. ഈ പരിധിയെ വിജയിക്കാന്, നമ്മള് സ്വാഭാവികമായ മുസ്റ്റ്-SHE കോര്പ്പുസിനെ സമ്പന്നരാക്കുന്നു. രണ്ടു പുതിയ ഭാഷകങ്ങളുടെ അഭിപ്രായശ്ചിത്രത്തില് (പോസിന്റെയും കരാറിന്റെയും ചങ്ങലകളു സംസാര പരിഭാഷണത്തിന്റെ മുന്നില് ഞങ്ങള് മൂന്നു ഭാഷയുടെ മാര്ഗങ്ങളില് മുഴുവന് പരിഗണന നടത്തുന്നു. ഇംഗ്ലീഷ്-ഫ്രെഞ്ച്/ഇറ്റാലിയന്/സ്പാനിഷ് മ മോഡലിന്റെ സ്വഭാവങ്ങളെക്കുറിച്ച് വെളിച്ചമാക്കുന്നതിനാല്, പെണ്കുട്ടികളെയും അതിന്റെ കണ്ടുപിടിക്കുന്നതിനാല്, നമ്മുടെ കണ്ടുപിടികള് മAbstract
Сэтгэл хандлага нь хэл технологийг нөлөөлдөг асуудлын явдал гэж ихэвчлэн анзаарсан. Саяхан судалгаагаар хэл дээр өөр өөр хэлбэртэй байж болох боломжтой. Гэвч одоогийн оюун шалгалтын ихэнх үйл ажиллагааны нэр тоог синтетик нөхцөлд бага хэмжээнд төвлөрүүлдэг. Ийм протоколууд грамматикийн гендер хэлний чухал төлөвлөгөөг харуулдаг. Энэ нь гендер зөвлөгөөний морфосинтактик хэлбэрээр дүрслэгдсэн, олон хэлбэрээр илэрхийлэгдсэн хэлбэрээр тэмдэглэгдсэн. Энэ хязгаарыг давхарлахын тулд бид байгалийн, гендер-сэтгэл хөдлөлтэй MuST-SHE корпус (Bentivogli et al., 2020) хоёр шинэ хэлний анзаарлын давхар (POS болон солилцооны хэлбэрээр) баялагдсан бөгөөд гендер шинжлэх ухааны хэлбэрээр ямар өөр хэлбэрээр нөлөөлд Бид илтгэлийн хөрөнгө оруулалтын тухай анхаарлаа 3 хэл замаар (Англи-Француз/Итали/Испан) олон талын үнэлгээ хийдэг. Мөн өөр хэлбэрийн өгөгдлийн, өөр хэлбэрийн хэмжээний хэмжээний технологи дээр сург Загварын үйл ажиллагаа, гендер хандлага, олон түвшинд грануляр байдлын тухай гэрлийг тодорхойлоход бидний олж мэдсэн зүйлс нийтлэг үр дүнээс гадна зориулсан шинжилгээний үнэ цэнэтэй.Abstract
Kebiasaan jenis dikenali sebahagian besar sebagai fenomena problematik yang mempengaruhi teknologi bahasa, dengan kajian baru-baru ini menyatakan bahawa ia mungkin berlainan di seluruh bahasa. Namun, kebanyakan praktek penilaian semasa mengadopsi fokus aras perkataan pada set sempit nama pekerjaan di bawah syarat sintetik. Such protocols overlook key features of grammatical gender languages, which are characterized by morphosyntactic chains of gender agreement, marked on a variety of lexical items and parts-of-speech (POS). Untuk mengatasi keterangan ini, kami memperkaya MuST-SHE corpus (Bentivogli et al., 2020) secara semulajadi, sensitif-jenis dengan dua lapisan annotasi bahasa baru (POS dan rantai perjanjian), dan mengeksplorasi seberapa banyak kategori leksik berbeza dan fenomena perjanjian terpengaruh oleh skews jenis. Berfokus pada terjemahan ucapan, kami melakukan penilaian berbilang-muka pada tiga arah bahasa (Inggeris-Perancis/Itali/Sepanyol), dengan model dilatih pada jumlah data berbeza dan teknik segmen perkataan berbeza. Dengan melemparkan cahaya pada perilaku model, bias jenis, dan pengesan pada beberapa tahap granularitas, penemuan kami menekankan nilai analisis dedikasi melebihi hasil keseluruhan aggregat.Abstract
Il-preġudizzju bejn is-sessi huwa rikonoxxut fil-biċċa l-kbira bħala fenomenu problematiku li jaffettwa t-teknoloġiji tal-lingwi, bi studji riċenti li jenfasizzaw li jista’ jkun hemm wiċċ differenti bejn il-lingwi. Madankollu, il-biċċa l-kbira tal-prattiki attwali ta’ evalwazzjoni jadottaw fokus fuq livell ta’ kliem fuq sett dejjaq ta’ ismijiet okkupazzjonali taħt kundizzjonijiet sintetiċi. Protokolli bħal dawn jinjoraw il-karatteristiċi ewlenin tal-lingwi grammatiċi tas-sessi, li huma kkaratterizzati minn katini morfosintattiċi ta’ ftehim bejn is-sessi, immarkati fuq varjetà ta’ oġġetti lexiċi u partijiet ta’ diskors (POS). Biex tingħeleb din il-limitazzjoni, aħna nifrikkaw il-MuST-SHE corpus naturali u sensittiv għas-sessi (Bentivogli et al., 2020) b’żewġ saffi ġodda ta’ annotazzjoni lingwistika (POS u ktajjen ta’ ftehim), u nesploraw sa liema punt kategoriji lexiċi differenti u fenomeni ta’ ftehim huma affettwati minn skews tas-sessi. Meta niffokaw fuq it-traduzzjoni tad-diskors, nagħmlu evalwazzjoni b’diversi aspetti fuq tliet direzzjonijiet lingwistiċi (Ingliż-Franċiż/Taljan/Spanjol), b’mudelli mħarrġa fuq ammonti varji ta’ dejta u tekniki differenti ta’ segmentazzjoni tal-kliem. Billi nixfu dawl fuq imġibiet mudell, il-preġudizzju bejn is-sessi, u l-individwazzjoni tiegħu f’diversi livelli ta’ granularità, is-sejbiet tagħna jenfasizzaw il-valur ta’ analiżi ddedikata lil hinn mir-riżultati globali aggregati.Abstract
Gender bias wordt grotendeels erkend als een problematisch fenomeen dat taaltechnologieën beïnvloedt, waarbij recente studies onderstrepen dat het in verschillende talen verschillend kan opduiken. De meeste van de huidige evaluatiepraktijken hebben echter een focus op woordniveau op een smalle reeks beroepszelfstandige naamwoorden onder synthetische omstandigheden. Dergelijke protocollen negeren belangrijke kenmerken van grammaticale gendertalen, die worden gekenmerkt door morfosyntactische ketens van genderovereenkomst, gemarkeerd op een verscheidenheid van lexicale items en delen van spraak (POS). Om deze beperking te overwinnen verrijken we het natuurlijke, gender-gevoelige MuST-SHE corpus (Bentivogli et al., 2020) met twee nieuwe linguïstische annotatielagen (POS en akkoord ketens) en onderzoeken we in hoeverre verschillende lexicale categorieën en overeenkomsten fenomenen worden beïnvloed door gender skews. We richten ons op spraakvertaling en voeren een veelzijdige evaluatie uit op drie taalrichtingen (Engels-Frans/Italiaans/Spaans), met modellen die zijn getraind op verschillende hoeveelheden gegevens en verschillende woordsegmentatietechnieken. Door licht te werpen op modelgedrag, gender bias en de detectie ervan op verschillende niveaus van granulariteit, benadrukken onze bevindingen de waarde van dedicated analyses die verder gaan dan geaggregeerde algemene resultaten.Abstract
Sjenær forvirkning er stort gjenkjent som eit problematisk fenomen som påvirkar språk-teknologi, med nyleg studier som undersøker at det kan overflate ulike språk. Dei fleste av gjeldande evalueringspraksisar har imidlertid eit ordnivåfokus på ein liten sett med profesjonalnamn under syntetiske vilkår. Desse protokollene oversjå nøkkelfunksjonar på grammatiske seksspråk, som er karakterisert av morfosyntaktiske kjeder med seks-avtale, merkt på mange leksiske elementar og deler av tale (POS). For å overføre denne grensen, røyke vi den naturlege, seks-sensitive MuST-SHE corpus (Bentivogli et al., 2020) med to nye språkstiske annotasjonslag (POS og samtalekjeder) og utforske kva storleik forskjellige leksikologiske kategoriar og samtalefenomena er påvirka av seks-sker. Fokuserer vi om taleomsetjinga, gjer vi eit fleirfaciert evaluering på tre språkkretningar (engelsk/fransk/italsk/spansk), med modeller som treng på ulike mengdar data og ulike ordsegmenteringsteknikk. Ved å gjere lys på modelleoppførsel, seks-forsikt og oppdaginga på fleire granularitetsnivåar, oppdagingane våre understrekar verdien av spesifiserte analyser enn totale resultat.Abstract
Stronniczość płci jest w dużej mierze uznawana za problematyczne zjawisko wpływające na technologie językowe, a ostatnie badania podkreślają, że może występować inaczej w poszczególnych językach. Jednak większość obecnych praktyk oceny skupia się na poziomie słowa na wąskim zbiorze rzeczowników zawodowych w warunkach syntetycznych. Protokoły takie pomijają kluczowe cechy gramatycznych języków płci, które charakteryzują się morfosyntaktycznymi łańcuchami porozumienia płci, oznaczonymi na różnych elementach leksykalnych i częściach mowy (POS). Aby przezwyciężyć to ograniczenie, wzbogacamy naturalny, wrażliwy na płeć korpus MuST-SHE (Bentivogli et al., 2020) o dwie nowe warstwy adnotacji językowej (POS i łańcuchy porozumień) oraz badamy, w jakim stopniu różne kategorie leksykaliczne i zjawiska porozumień mają wpływ na zakłócenia płci. Skupiając się na tłumaczeniu mowy, przeprowadzamy wieloaspektową ocenę na trzech kierunkach językowych (angielsko-francusko/włoski/hiszpański), z modelami przeszkolonymi na różnych ilościach danych i różnych technik segmentacji słów. Rzucając światło na zachowania modeli, uprzedzenia płci i ich wykrywanie na kilku poziomach granularności, nasze ustalenia podkreślają wartość dedykowanych analiz poza zagregowanymi ogólnymi wynikami.Abstract
O preconceito de gênero é amplamente reconhecido como um fenômeno problemático que afeta as tecnologias da linguagem, com estudos recentes ressaltando que ele pode surgir de maneira diferente entre os idiomas. No entanto, a maioria das práticas de avaliação atuais adota um foco em nível de palavra em um conjunto restrito de substantivos ocupacionais sob condições sintéticas. Esses protocolos ignoram as principais características das linguagens gramaticais de gênero, que são caracterizadas por cadeias morfossintáticas de concordância de gênero, marcadas em uma variedade de itens lexicais e partes do discurso (POS). Para superar essa limitação, enriquecemos o corpus MuST-SHE natural e sensível ao gênero (Bentivogli et al., 2020) com duas novas camadas de anotação linguística (POS e cadeias de concordância) e exploramos até que ponto diferentes categorias lexicais e fenômenos de concordância são afetadas por desvios de gênero. Com foco na tradução de fala, realizamos uma avaliação multifacetada em três direções linguísticas (inglês-francês/italiano/espanhol), com modelos treinados em diferentes quantidades de dados e diferentes técnicas de segmentação de palavras. Ao esclarecer os comportamentos do modelo, o viés de gênero e sua detecção em vários níveis de granularidade, nossas descobertas enfatizam o valor de análises dedicadas além dos resultados gerais agregados.Abstract
Prejudecățile de gen sunt recunoscute în mare măsură ca un fenomen problematic care afectează tehnologiile lingvistice, studiile recente subliniind faptul că ar putea apărea diferit în fiecare limbă. Cu toate acestea, majoritatea practicilor actuale de evaluare adoptă un accent la nivel de cuvânt asupra unui set restrâns de substantive profesionale în condiții sintetice. Astfel de protocoale trec cu vederea caracteristicile cheie ale limbajelor gramaticale de gen, care sunt caracterizate prin lanțuri morfosintactice de acord de gen, marcate pe o varietate de elemente lexicale și părți de vorbire (POS). Pentru a depăși această limită, îmbogățim corpusul MuST-SHE natural, sensibil la gen (Bentivogli et al., 2020) cu două noi straturi de adnotare lingvistică (POS și lanțuri de acord), și explorăm în ce măsură diferitele categorii lexicale și fenomene de acord sunt afectate de diferențele de gen. Concentrându-ne pe traducerea vorbirii, efectuăm o evaluare multifațată pe trei direcții lingvistice (engleză-franceză/italiană/spaniolă), cu modele instruite pe cantități variate de date și tehnici diferite de segmentare a cuvintelor. Prin punerea în lumină a comportamentelor modelului, a prejudecăților de gen și a detectării acestuia la mai multe niveluri de granularitate, constatările noastre subliniază valoarea analizelor dedicate dincolo de rezultatele globale agregate.Abstract
Гендерная предвзятость широко признается в качестве проблемного явления, влияющего на языковые технологии, при этом недавние исследования подчеркивают, что она может по-разному проявляться в разных языках. Однако в большинстве современных методов оценки акцент делается на узком наборе профессиональных существительных в синтетических условиях. Такие протоколы упускают из виду ключевые особенности грамматических гендерных языков, которые характеризуются морфосинтаксическими цепочками гендерного согласия, отмеченными на различных лексических элементах и частях речи (POS). Чтобы преодолеть это ограничение, мы обогащаем естественный, гендерно-чувствительный корпус MuST-SHE (Bentivogli et al., 2020) двумя новыми лингвистическими слоями аннотаций (POS и цепочки согласования) и исследуем, в какой степени на различные лексические категории и явления согласования влияют гендерные перекосы. Сосредоточившись на переводе речи, мы проводим многогранную оценку по трем языковым направлениям (английский-французский/итальянский/испанский), с моделями, обученными различным объемам данных и различным методам сегментации слов. Проливая свет на модели поведения, гендерную предвзятость и ее обнаружение на нескольких уровнях детализации, наши результаты подчеркивают ценность специализированных анализов, выходящих за рамки агрегированных общих результатов.Abstract
ජීන්ඩර් ප්රශ්නයක් විශාලයෙන් ප්රශ්නයක් විදිහට පරික්ෂා කරනවා භාෂා තාක්ෂණාවක් වගේ ප්රශ්නයක් වගේ නමුත්, ප්රස්තූත විශ්ලේෂණ ප්රයෝජනය ගොඩක් වචන ප්රයෝජනයක් වචන ප්රයෝජනය කරනවා වචන ප්රමාණයක් සංවේ අනිවාර්ය ප්රොටොකෝල් overlook key Featuries of Gramatical Genr Links, that are characharacharacted by Morosyntactic chains of Genr Accords, Marked on a vary of lexic Items and part-of-language (POS). To overCome this Limation, we enrich the Native, Genr-sensive MuST-SHE Corus (Bentiviologie et al., 2022) with 2 new lingistic anotion layer (POS and එකඟ chains), and Explore to what estet Diffant lexic Categores and එකඟ fences are affected by sex skews. භාෂාව භාෂාවිතයෙන්, අපි භාෂාවිතය තුනක් ප්රශ්නයක් කරනවා (ඉංග්රේන්ස්-ෆ්රෑන්ස්/ඉතාලියා/ස්පැනිස්) භාෂාවිතය මොඩල් විශ්ලේෂණය, ජෙන්ඩර් විශ්වාසය, ඒ වගේ පරීක්ෂණය ගොඩක් ස්ථානයක් තියෙන්නේ, අපේ හොයාගන්නේ අවශ්ය විශ්ලේෂණයේ අවශAbstract
Spolna pristranskost je večinoma priznana kot problematičen pojav, ki vpliva na jezikovne tehnologije, nedavne študije pa poudarjajo, da se lahko pojavi različno med jeziki. Vendar se večina sedanjih ocenjevalnih praks osredotoča na ozek nabor poklicnih samostalnikov v sintetičnih pogojih. Takšni protokoli spregledajo ključne značilnosti slovničnih spolnih jezikov, za katere so značilne morfosintaktične verige spolnega dogovora, označene na različnih leksikalnih elementih in delih govora (POS). Da bi premagali to omejitev, bogatimo naravni, spolno občutljiv korpus MuST-SHE (Bentivogli et al., 2020) z dvema novima slojema jezikovnih opomb (POS in dogovorjene verige) ter raziskali, v kolikšni meri vplivajo na različne leksikalne kategorije in dogovorjene pojave spolov. S poudarkom na govornem prevajanju izvajamo večplastno vrednotenje v treh jezikovnih smereh (angleško-francoščina/italijanščina/španščina), pri čemer so modeli usposobljeni za različne količine podatkov in različne tehnike segmentacije besed. Z osvetlitvijo vedenja modela, pristranskosti spola in njegovega odkrivanja na več ravneh granularnosti naša ugotovitev poudarja vrednost namenskih analiz, ki presegajo skupne rezultate.Abstract
Waxqabadka jinsiga waxaa loo aqoonsadaa sida xaalad dhibaato leh oo ku saabsan teknolojiyo luuqada, taasoo lagu xaqiijiyey waxbarashada ugu dambeysay inay kala duwan tahay luuqadaha. Si kastaba ha ahaatee, hablada qiimeynta ee haatan badankoodu waxay koriyaan hadal-heer oo ku kalsoonaadaan noocyo fudud oo shaqaalaha ka hooseeya shuruudaha heshiiska. Qoraalkaas ayaa ka jeeda noocyo furan oo ku qoran luqadaha jimicsiga, kuwaas oo ku qoran qoraalka heshiiska jinsiga ah oo lagu qoray waxyaabo badan oo leksikal ah iyo qayb ka mid ah hadalka (POS). Si aan u adkayno xuduudahan, waxaynu hodanaynaa xuquuqda dabiicadda, jinsiga-SHE korpus (Bentivogli et al., 2020) oo leh laba sabool oo cusub oo luqada ah (POS iyo heshiiska), waxaana baaraynaa si ay ugu saameyso kooxo kala duduwan oo leksikal ah iyo heshiiska waxyaabaha lagu saameyn karo jinsiga. Fokus-socoshada turjumista hadalka, waxaynu sameeynaa qiimeyn aad u kala duduwan saddex baro oo af ah (Ingiriis-Faraansiis/Talyaani/Isbanish), waxaana sameynaya modello lagu baray tiro badan oo macluumaad kala duduwan iyo qaabab kala duduwan oo hadal kala duduwan. Sida uu iftiimiyo dabeecada modellka, dabeecada jinsiga iyo sidoo kale lagu caddeeyo heerar kala duduwan oo qoyska ah, qiimaha baaritaanka gaarka ah waxaa ku qoran qiimeynta fasalka dhamaanka.Abstract
Përparësia e gjinit njihet kryesisht si një fenomen problematik që ndikon në teknologjitë gjuhësore, me studimet e fundit që theksojnë se mund të mbikqyrë ndryshe nëpër gjuhë. However, most of current evaluation practices adopt a word-level focus on a narrow set of occupational nouns under synthetic conditions. Protokollet e tilla harrojnë karakteristikat kryesore të gjuhëve gramatike gjinore, të cilat karakterizohen nga zinxhirët morfosintaktikë të marrëveshjes gjinore, të shënuar në një varietet të elementeve lexike dhe pjesëve të fjalimit (POS). Për të kapërcyer këtë kufizim, ne e pasurojmë MuST-SHE corpus natyror, të ndjeshëm ndaj gjinit (Bentivogli et al., 2020) me dy shtresa të reja gjuhësore të anotacionit (POS dhe zinxhirë marrëveshjeje) dhe eksplorojmë në se sa kategori të ndryshme lexike dhe fenomene marrëveshjeje ndikojnë nga skews gjinore. Duke u përqëndruar në përkthimin e fjalës, ne kryejmë një vlerësim shumë-faqe në tre drejtime gjuhësh (anglisht-francez/italian/spanjoll), me modele të trajnuar në sasi të ndryshme të të dhënave dhe teknika të ndryshme të segmentimit të fjalëve. Duke hedhur dritë mbi sjelljet e modelit, paragjykimet gjinore dhe zbulimin e saj në disa nivele të granularitetit, zbulimet tona theksojnë vlerën e analizave të përkushtuara përtej rezultateve të përgjithshme të agreguara.Abstract
Ženske predrasude se uglavnom priznaju kao problematični fenomen koji utiče na jezičke tehnologije, a nedavna studija potvrđuju da bi se mogla drukčije površiti na jezicima. Međutim, većina trenutnih prakse procjene usvojila je koncentraciju na nivou reči na usku skupu profesionalnih imena pod sintetičkim uvjetima. Takvi protokoli pregledaju ključne karakteristike gramatičkih spolnih jezika, koje karakteriziraju morfosintaktički lanci spolnog sporazuma, označene na raznim leksičkim predmetima i dijelovima govora (POS). Da bi preuzeli ovu ograničenje, obogatili smo prirodni, osjetljivi muST-SHE korpus (Bentivogli et al., 2020) sa dve nove slojeve jezičke annotacije (POS i lance sporazuma), i istražili u kakvoj mjeri različite leksičke kategorije i fenomene sporazuma utječu na spolne košulje. Fokusirajući se na prevod govora, vodimo višestruku procenu o tri jezičke upute (engleski-francuski/italijanski/španjolski), sa modelima obučenim na različitim količinama podataka i različitim tehnikama segmentacije riječi. Izbacivanjem svjetla na model ponašanja, spolne predrasude i njegovo otkrivanje na nekoliko nivoa granularnosti, naši nalazi naglašavaju vrijednost posvećenih analiza izvan aggregativnih ukupnih rezultata.Abstract
Könsbias erkänns till stor del som ett problematiskt fenomen som påverkar språkteknik, och nyligen genomförda studier understryker att det kan dyka upp olika språk. De flesta nuvarande utvärderingsmetoder fokuserar dock på ordnivå på en begränsad uppsättning yrkessubstantiv under syntetiska förhållanden. Sådana protokoll förbiser viktiga drag i grammatiska genusspråk, som kännetecknas av morfosyntaktiska kedjor av könsöverenskommelse, markerade på en mängd olika lexikala objekt och delar av tal (POS). För att övervinna denna begränsning berikar vi den naturliga, könskänsliga MuST-SHE corpus (Bentivogli et al., 2020) med två nya språkliga annotationslager (POS och avtalskedjor), och undersöker i vilken utsträckning olika lexikala kategorier och avtalsfenomen påverkas av könsskillnader. Med fokus på talöversättning genomför vi en mångfacetterad utvärdering av tre språkriktningar (engelska-franska/italienska/spanska), med modeller utbildade på olika datamängder och olika ordsegmenteringstekniker. Genom att belysa modellbeteenden, könsbias och dess upptäckt på flera nivåer av granularitet betonar våra resultat värdet av dedikerade analyser utöver aggregerade övergripande resultat.Abstract
Ubaguzi wa jinsia unatambuliwa sana kama jambo tatizo linaloathiri teknolojia ya lugha, na tafiti za hivi karibuni zinaonyesha kuwa inaweza kuonekana tofauti katika lugha mbalimbali. Hata hivyo, shughuli nyingi za tathmini za sasa zinatumia lengo la neno linalohusiana na mfululizo mdogo wa vifaa vya ajira chini ya mazingira ya pamoja. Miradi kama hizi hupuuza vipengele vya lugha za kijinsia, ambazo huhusishwa na mfumo wa makubaliano ya kijinsia, ulioandikwa kwenye vitu mbalimbali vya lexico na sehemu mbalimbali za hotuba (POS). Ili kushinda mipaka hii, tunatajirisha makampuni ya asilia, yenye hisia za kijinsia na MuST-SHE (Bentivogli et al, 2020) na vipande viwili vipya vya uchunguzi wa lugha (POS na makubaliano), na kuchunguza kwa kiasi gani makundi tofauti na makubaliano yanavyoathirika na michoro ya kijinsia. Kwa kutangaza tafsiri ya hotuba, tunafanya tafiti mbalimbali kwenye maelekezo matatu ya lugha (Kiingereza-Kifaransa/Kiitalia/Kihispania), ambapo mifano imefundishwa kwa kiasi kikubwa cha taarifa na teknolojia tofauti za kutenganisha maneno. Kwa kuonyesha mwangaza juu ya tabia za mifano, upendeleo wa kijinsia, na utambuzi wake katika ngazi kadhaa za uchunguzi, matokeo yetu yanasisitiza thamani ya uchambuzi maalum zaidi ya matokeo yote yaliyotokana na uchunguzi.Abstract
பெரும்பாலாக பிரச்சனையான பொருளாக உணர்ந்து கொள்ளப்படுகிறது மொழி தொழில்நுட்பத்தை பாதிக்கும் பொருளாக, சமீபத்தில் படிப ஆயினும், தற்போதைய ஆய்வு செயல்களில் பெரும்பாலான ஒரு வார்த்தை மட்டத்தில் கவனத்தை எடுத்துக் கொள்கிறார்கள் ஒரு சிறிய வ இம்மைய நெறிமுறைகள் சிறந்த இனம் மொழிகளின் குணங்களை விட்டுவிடுகிறது, இம்மொழியில் ஒத்திசைப்படுத்தப்பட்ட பெண்களின் சங்கிலிகளால் குறிப்பிடப்பட இந்த வரம்பை வெற்றுவதற்கு, நாம் இயற்கையான, இனம் உணர்வுடைய முஸ்டி-SHE கோர்பாஸ் (பென்டிசிக்லி மற்றும் 2020) இரண்டு புதிய மொழி விளக்கம் அடுக்குகளுடன் வளர்ச்சி செய்கிறோம், மற்றும் வேறு வ பேச்சு மொழிபெயர்ப்பில் கவனம் செலுத்தப்படும் மூன்று மொழி திசைகளில் (ஆங்கிலம்- பிரெஞ்சு/இத்தாலியன்/ஸ்பானிஷ்), மாதிரிகள் மாதிரிகளில் மாறுபட மாதிரி நடத்தைகள், பெண்கள் பிரச்சனைகள் மற்றும் அதன் கண்டுபிடிப்பு பல நிலைகளில் உள்ளது, எங்கள் கண்டுபிடிப்புகள் குறிப்பிட்ட மொத்த முடிவுகளைவிடAbstract
Ýolňyz sowgatlary adatça dil teknolojilerini etjek kynçylyklary diýip tanalýar. Ýakynda öwrenmeler dilleriň arasynda başga görnüşi mümkin däldir. Ýöne häzirki deňlenme praktikalaryň köp bölegi sintetik şertlerde işleýän adlaryň gysga bir toparyna üns berýär. Beýleki protokollar gramatik jenaýat dilleriniň a çyk özelliklerine garaşýar, leňk sözleriniň birnäçe görnüşi we çykyş bolan bölekleriniň (POS) tarapyndan karakterlerle edilýär. Bu limitiňi üstüne çykarmak üçin, MuST-SHE corpus (Bentivogli et al., 2020) iki täze dil duýdurma düzümleri bilen baýlaşdyryp, leşik kategoriýalaryň we ylalaşyk düzümleriniň nähili çeşitli derejesini çözerip, jentiller çykaryplaryň tarapyndan täsirleşip barýarys. Çaltylyk terjimesine nähili möhüm bolup, üç dil gurlanyşynda (iňlisçe-fransuzça/italiýa/ispaňlýa) sany çykyp biljek we farklı söz segmentasy tekniklerinde örän nusgalar bar. Model davranışlary, jentiller biasy we onuň esasy birnäçe derejede üýtgetmegi üçin ýagtylygymyzy çykaryp, netijelerimiz çykyşymyzyň hökmünde täze analyzlaryň muňaryny ýygnaýar.Abstract
جنس کی مخالفت بہت سی مشکلات کے طور پر پہچان کی جاتی ہے جو زبان تکنولوژی پر اثر دیتی ہے، اور اچھے تحقیقات کے ساتھ یہ سمجھ رہے ہیں کہ یہ زبانوں میں مختلف طریقے سے مختلف ہو سکتا ہے۔ However, most of the current evaluation practices adopt a word-level focus on a narrow set of occupational nouns under synthetic conditions. ایسے پروٹروکولٹ گراماتیکی جنس زبانوں کی کلیدی ویژگی کو دکھا دیتے ہیں جن کو جنس موافقت کی موافقت کی موافقت کی موافقت کی موافقت کے ذریعے روشن کیا جاتا ہے، جو مختلف لکسیکی ایٹموٹوں اور بولنے کی قسموں پر علامت لگائی جاتی ہے۔ یہ محدودیت پر غالب ہونے کے لئے، ہم مائستی، جنسی-حساس مائستی-شی کورپوس (Bentivogli et al., 2020) کو دو نو زبان نوشتی لائر (POS اور معاملہ زنجیروں) کے ساتھ ثروت دیتے ہیں، اور دیکھتے ہیں کہ کس طرح مختلف لکیسی کائٹیوں اور معاملہ پڑھنے کی وجہ سے جنسی اسکوں کے ذریعہ اثر ہم کلام کی ترجمہ پر مہمانی کریں گے، ہم تین زبان کی طرف سے ایک متعدد مہمانی کریں گے (انگلیسی-فرانسوی/ایتالیایی/اسپانیایی/اسپانیایی) موڈل رفتار، جنس کی مخالفت اور اس کی تعبیر کے چند سطح پر روشنی کو پھیلانے کے ذریعہ، ہمارے معلومات نے مشترک تحلیل کا ارزش دکھایا ہے جو جمع ہونے والی نتائج کے علاوہ ہے.Abstract
Gen bias ko'pchilik tilning teknologiyani o'zgartiradigan muammolar deb belgilangan. Yaqinda o'rganish imkoniyatini o'rganish mumkin, bu tillarning ko'pchiligini o'zgartirish mumkin. Lekin, hozirda ko'pchilik qiymatni bir necha xil holatda qo'shimcha muvaffaqiyatlarni foydalanadi. Ushbu protokollar grammatikal jinsiya tillarining xususiyatlarini orqali tugatadi. Bu soʻzlarning turli leksikal elementlari va gapirish qismlari (POS) bilan belgilangan sinov bir xil narsalar bilan ishlatiladi. Bu chegarani boshqarish uchun biz tabiiy, jinsiy sensitive MuST-SHE korpus (Bentivogli et al, 2020) bilan ikkita yangi lingvistik taʼminlovchi qanday narsa bilan o'ylaymiz, va to'g'ri bog'liq tarjimalarning qanday darajaga ko'rsatuvchimiz. Talab tarjima qilishda, biz uchta tilda qiymatni bajaramiz (Ingliz-Fransuzcha/Italyani/Ispancha) va har xil maʼlumot va boshqa so'zlar qismlarini o'rganish modellari bilan o'rganamiz. Model xususiyatlarini, jinsiyalar, va uning bir necha darajada aniqlash orqali ko'rsatish orqali ishlatish mumkin. Bizning qiymatimiz hamma natijalardan ko'paytirilgan aniqlarning qiymatini oshirish mumkin.Abstract
Giới tính nam giới được nhận ra là một hiện tượng gây rối loạn về các công nghệ ngôn ngữ, và các nghiên cứu gần đây đã nhấn mạnh rằng nó có thể xuất hiện khác nhau. Tuy nhiên, hầu hết các phương pháp đánh giá hiện thời dùng từ để tập trung vào các danh từ nghề nghiệp trong trường hợp tổng hợp. Các giao thức này bỏ qua các yếu tố chủ yếu của ngôn ngữ giới tính, được đánh dấu bởi các chuỗi di truyền của thỏa thuận giới tính, được đánh dấu trên nhiều thứ ngôn ngữ và các bộ phận ngôn ngữ (POS). Để vượt qua giới hạn này, chúng ta cải thiện tiềm năng, giới tính nhạy cảm MuST-Ả Corpus (Bentley ogli et al., 2020) với hai lớp ghi chú ngôn ngữ mới (chuỗi bưu kiện và hợp đồng), và tìm hiểu xem bao nhiêu điểm độc tính và các hiện tượng hiệp ước bị ảnh hưởng bởi giới tính. Tập trung vào dịch thuật giọng nói, chúng tôi tiến hành một đánh giá đa chiều về ba hướng ngôn ngữ (Anh-Pháp/Ý/Tây Ban Nha) với các mô hình được huấn luyện về lượng lượng khác nhau của dữ liệu và các kỹ thuật phân chia từ khác nhau. Khi soi sáng về cách cư xử của mô hình, khuynh hướng giới tính và cách phát hiện nó ở nhiều mức độ hạt, các kết quả phát hiện của chúng tôi nhấn mạnh giá trị của các phân tích chuyên môn vượt qua kết quả tổng hợp.Abstract
性别偏见,谓之言语之问,近者研强,或异言之异也。 然目前多质用词级注合为名词。 此忽于语法言语之要,以形句法链为之,著于词汇目词性(POS)。 为克此限,以两新语注重(POS与协议)富自然,于性别敏感之MuST-SHE语料库(Bentivogli等,2020),并求性别扭曲于多大程度词汇类与协议。 注于音译,三言(英语 - 法语/意大利语/西班牙语)质,模形异数,分词术训练。 以明模形之行,性别偏见及数粒度之检,吾等究其超越之专析也。- Anthology ID:
- 2022.acl-long.528
- Volume:
- Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
- Month:
- May
- Year:
- 2022
- Address:
- Dublin, Ireland
- Venue:
- ACL
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 7665–7675
- Language:
- URL:
- https://aclanthology.org/2022.acl-long.528
- DOI:
- Bibkey:
- Cite (ACL):
- Dengji Guo, Zhengrui Ma, Min Zhang, and Yang Feng. 2022. Prediction Difference Regularization against Perturbation for Neural Machine Translation. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7665–7675, Dublin, Ireland. Association for Computational Linguistics.
- Cite (Informal):
- Prediction Difference Regularization against Perturbation for Neural Machine Translation (Guo et al., ACL 2022)
- Copy Citation:
- PDF:
- https://aclanthology.org/2022.acl-long.528.pdf
- Terminologies:
Export citation
@inproceedings{guo-etal-2022-prediction, title = "Prediction Difference Regularization against Perturbation for Neural Machine Translation", author = "Guo, Dengji and Ma, Zhengrui and Zhang, Min and Feng, Yang", booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.acl-long.528", pages = "7665--7675", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="guo-etal-2022-prediction"> <titleInfo> <title>Prediction Difference Regularization against Perturbation for Neural Machine Translation</title> </titleInfo> <name type="personal"> <namePart type="given">Dengji</namePart> <namePart type="family">Guo</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Zhengrui</namePart> <namePart type="family">Ma</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Min</namePart> <namePart type="family">Zhang</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Yang</namePart> <namePart type="family">Feng</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2022-05</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Dublin, Ireland</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">guo-etal-2022-prediction</identifier> <location> <url>https://aclanthology.org/2022.acl-long.528</url> </location> <part> <date>2022-05</date> <extent unit="page"> <start>7665</start> <end>7675</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Prediction Difference Regularization against Perturbation for Neural Machine Translation %A Guo, Dengji %A Ma, Zhengrui %A Zhang, Min %A Feng, Yang %S Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) %D 2022 %8 May %I Association for Computational Linguistics %C Dublin, Ireland %F guo-etal-2022-prediction %U https://aclanthology.org/2022.acl-long.528 %P 7665-7675
Markdown (Informal)
[Prediction Difference Regularization against Perturbation for Neural Machine Translation](https://aclanthology.org/2022.acl-long.528) (Guo et al., ACL 2022)
- Prediction Difference Regularization against Perturbation for Neural Machine Translation (Guo et al., ACL 2022)
ACL
- Dengji Guo, Zhengrui Ma, Min Zhang, and Yang Feng. 2022. Prediction Difference Regularization against Perturbation for Neural Machine Translation. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7665–7675, Dublin, Ireland. Association for Computational Linguistics.