Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference Regterkant vir die verkeerde redes: Diagnosiëring Sintaktika Heuristics in Natuurlike Taal Inferensie ለ ስህተት ምክንያት ቀላል: Syntactic Heuristics in Natural language Inference الصواب للأسباب الخاطئة: تشخيص الاستدلال النحوي في الاستدلال اللغوي الطبيعي 奡湬쒱얟⁒敡獯渠쎼쎧쎼渠獡쒟㨠哉饢槉饴汩⁄楬⁉湦敲敮捥❤愠卩湴慫瑩欠䡥畲楳瑩捩⁄楡杮潳楮朊 Правилно за грешните причини: диагностициране на синтактичната евристика в естествените езикови изводи ভুল কারণের অধিকার: স্বাভাবিক ভাষার প্রতিরোধে সিন্ট্যাকটিক হিউরিস্টিক ডায়াগইন করা হচ্ছে གནད་དོན་མེད་པའི་རྒྱུ་མཚན་ལ་ཐད་ནས་དབྱེ་རིགས་སྣང་ཚུལ་མཐུན་ནུས་པ་ཡིན། Pravo za pogrešne razloge: Diagnoziranje sintaktičke Heuristike u prirodnom jeziku Correcte per les raons equivocades: Diagnotzar l'herística sintàctica en la inferència de llenguatges naturals Správné ze špatných důvodů: Diagnostika syntaktické heuristiky v inferenci přirozeného jazyka Ret af de forkerte årsager: Diagnose Syntaktisk Heuristik i Natural Language Inference Richtig aus den falschen Gründen: Diagnose syntaktischer Heuristik in der natürlichen Sprache Σωστό για Λάθος Λόγους: Διάγνωση Συντακτικής Χειριστικής σε Συμπέρασμα Φυσικής Γλώσσας Lo correcto por las razones equivocadas: diagnóstico de la heurística sintáctica en la inferencia del lenguaje natural Õige valedel põhjustel: süntaktilise heuristika diagnoosimine looduskeele järeldustes درست برای دلایل اشتباهی: شناسایی سنتاکتیک هوریستیک در تفاوت زبان طبیعی Oikea vääristä syistä: Syntaktisen heuristiikan diagnosointi luonnollisessa kielessä Le juste pour les mauvaises raisons : diagnostic de l'heuristique syntaxique dans l'inférence en langage naturel Ceart ar na Cúiseanna Míchearta: Heuristics Syntactic a Diagnóisiú i Tátal Teanga Nádúrtha QDialogButtonBox נכון לסיבות הלא נכונות गलत कारणों के लिए सही: प्राकृतिक भाषा अनुमान में वाक्यात्मक ह्युरिस्टिक्स का निदान Pravo za pogrešne razloge: Diagnosiranje sintaktičke Heuristike u prirodnoj jezici Helyes a rossz okok miatt: Szintaktikus heurisztika diagnosztizálása természetes nyelvi fertőzésekben Սխալ պատճառների համար ճիշտ է. բնական լեզվի ինֆերենսիայի սինտակտիկ հեյուրիստիկայի ախտորոշումը Benar untuk alasan yang salah: Diagnosis Heuristik Sintaktik dalam Inferensi Bahasa Alami Giusto per le ragioni sbagliate: Diagnostica dell'euristica sintattica nell'inferenza del linguaggio naturale 間違った理由に正しい:自然言語推論における構文ヒューリスティックの診断 Tenggo kanggo Perintah sing Gak Cocok: dianggo Ketokkno Senegal Heuristik kanggo langgambar შეცდომა მიზეზების მარჯვნა: სინტექტიკური ჰერისტიკის დიაინოზაცია Natural Language Inference Жарамсыз себептердің оң жақтағы: Табиғлық тілінің инференциясының синтактикалық хиуристикасын диагнозиялау 정확한 이유는 잘못된 것이다: 자연 언어 추리 중의 문법 계발식을 진단한다 Teisingai dėl neteisingų priežasčių: sintaktinės heuristikos gamtinės kalbos infekcijos diagnozavimas Право за погрешни причини: дијагнозирање на синтактичката хеуристика во природната инференција на јазик തെറ്റായ കാരണങ്ങള് Харин буруу шалтгаануудын баруун: Байгалийн хэл хамаарлын синтактикийн хууристикийг мэдэх Betul untuk Alasan Salah: Diagnosis Heuristik Sintaktik dalam Bahasa Alami Dritt għar-Raġunijiet Żbaljati: Dijanjostikazzjoni ta’ Eristika Sintattika fl-Inferenza tal-Lingwa Naturali Juist om de verkeerde redenen: het diagnosticeren van syntactische heuristiek in Natural Language Inference Høgre for feil grunnen: Diagnosing av syntaktiske heuristikk i naturleg språk Dobre z niewłaściwych powodów: diagnozowanie heurystyki syntaktycznej w wnioskach języka naturalnego Certo pelos motivos errados: diagnosticando heurísticas sintáticas na inferência de linguagem natural Drept pentru motivele greșite: Diagnosticarea euristicii sintactice în inferența limbajului natural Правильно для неправильных причин: диагностика синтаксической эвристики в выводах на естественном языке වැරදි හේතුව සඳහා දක්ෂ: සංකේතික හෙයුරිස්ටික් ස්වභාවික භාෂාව අන්තිම Pravica iz napačnih razlogov: diagnosticiranje sintaktične heuristike v sklepanju naravnega jezika Xuquuqda sababaha khaladda ah: Diagnosing Syntactic Heuristics in luqada asalka ah E drejtë për arsyet e gabuara: Diagnozimi i Heuristikës Sintaktike në Inferencën e Gjuhave Natyrore Pravo za pogrešne razloge: Diagnosiranje sintaktičke heuristike u prirodnom jeziku Rätt av fel skäl: Diagnos av syntaktisk heuristik vid naturlig språkinferens Kuelekea kwa sababu zisizo sahihi: Kugundua Ushindi wa Kiunganishi katika Kuzuia lugha ya asili தவறான காரணங்களுக்காக வலது Ýalňyş sebäpler üçin dogry: Natural Language Inference'da Sintaktik Heuristikleri tanyşdyrmak غلط دلیلوں کے لئے دائیں: سینٹاکتیک ہوریستیک سینٹاکیسی ہوریستیک طبیعی زبان Inference میں Xato sabablar uchun oʻng: Sintactic Heuristics diagnosing Natural Luqad Inference Đúng các lí do sai: chuẩn bị tinh thần cú pháp về ngôn ngữ tự nhiên 所以然者,自然语言理之句法启发式也
Abstract
A machine learning system can score well on a given test set by relying on heuristics that are effective for frequent example types but break down in more challenging cases. We study this issue within natural language inference (NLI), the task of determining whether one sentence entails another. We hypothesize that statistical NLI models may adopt three fallible syntactic heuristics : the lexical overlap heuristic, the subsequence heuristic, and the constituent heuristic. To determine whether models have adopted these heuristics, we introduce a controlled evaluation set called HANS (Heuristic Analysis for NLI Systems), which contains many examples where the heuristics fail. We find that models trained on MNLI, including BERT, a state-of-the-art model, perform very poorly on HANS, suggesting that they have indeed adopted these heuristics. We conclude that there is substantial room for improvement in NLI systems, and that the HANS dataset can motivate and measure progress in this area.Abstract
'n Masjien leer stelsel kan goed tel op 'n gegewe toets stel deur vertrou op heuristiek wat effektief is vir dikwels voorbeeld tipes maar afbreek in meer belangrike gevalle. Ons studeer hierdie probleem binne natuurlike taal inferensie (NLI), die taak van die bepaal of een seting ander bevat. Ons hipotesis dat statistiese NLI-modelles drie val sintaktisies kan aanneem: die leksies oorvloei heuristies, die subkvensie heuristies en die konstituent heuristies. Om te bepaal of die modele hierdie heuristiek aangeneem het, introduseer ons 'n kontroleerde evalueringsstel wat genoem is HANS (Heuristiese Analisie vir NLI Sistemes), wat bevat baie voorbeelde waar die heuristiek misluk het. Ons vind dat modele wat op MNLI opgelei is, insluitend BERT, 'n staat-van-kuns-model, baie sleg uitvoer op HANS, voorstel dat hulle regtig hierdie heuristieke aangeneem het. Ons sluit dat daar betekende kamer is vir verbetering in NLI stelsels, en dat die HANS datastel kan motiveer en maat vordering in hierdie gebied.Abstract
የመኪና ትምህርት ስርዓት በተሰጠው ፈተና ላይ በመጠቀም በተጠቃሚ ምሳሌ በተጠቃሚ ነገር ግን በተጨማሪው ጉዳዮች ላይ በመታመን ይችላል፡፡ ይህንን ጉዳይ በአዳባዊ ቋንቋ ውጤት (NLI) እናስተምራለን፤ አንዱ ፍርድ ሌላውን እንዲያስፈልጋል፡፡ እና የstatistical NLI model ሦስት የሚያፈርስ ሐርተስቲካዊ ሀሪስቲ እንዲወስድ እናስባለን፤ ሌክሲካዊው የክፍለ ሀሪስቲ፣ የግንኙነት አርሪስክ እና የአርሪስቲክ አካባቢ ነው፡፡ እነዚህን አሕሪስቲ መተላለፊያዎች መሆኑን ለማረጋገጥ፣ ሐናንስ (የኦሪስቲክ Analysis የNLI ሲስተም) የተባለውን የተቆጣጠውን የቁጥጥር ማረጋገጫ እናደርጋለን፡፡ BERT የ-የ-አርእስት ሞዴል፣ በኤንኤን ላይ የተማሩት ሞዴላዎችን አግኝተዋል፡፡ እነዚህንም አርስቲክ እንዲያረጋግጡ ያረጋግጣሉ፡፡ በNLI ስርዓቶች ውስጥ ማሻሻል ውጤት አለበት፣ የሐና ዳታ ሰርቨርስቲ በዚህ ክፍል ውስጥ ውጤትን ለመፍጠር እና ለመለካት ይችላል፡፡Abstract
يمكن لنظام التعلم الآلي أن يحرز نتائج جيدة في اختبار معين من خلال الاعتماد على الأساليب التجريبية التي تكون فعالة لأنواع الأمثلة المتكررة ولكنها تتعطل في الحالات الأكثر صعوبة. ندرس هذه المسألة ضمن الاستدلال اللغوي الطبيعي (NLI) ، مهمة تحديد ما إذا كانت جملة ما تنطوي على أخرى. نحن نفترض أن نماذج NLI الإحصائية قد تتبنى ثلاثة أساليب استكشافية نحوية غير معصومة: الاستدلال المعجمي المتداخل ، الاستدلال التالي ، الاستدلال المكون. لتحديد ما إذا كانت النماذج قد اعتمدت هذه الأساليب التجريبية ، نقدم مجموعة تقييم خاضعة للرقابة تسمى HANS (التحليل الإرشادي لأنظمة NLI) ، والتي تحتوي على العديد من الأمثلة حيث يفشل الاستدلال. نجد أن النماذج المدربة على MNLI ، بما في ذلك نموذج BERT ، وهو أحدث طراز ، تؤدي أداءً ضعيفًا للغاية على HANS ، مما يشير إلى أنها اعتمدت بالفعل هذه الأساليب التجريبية. نستنتج أن هناك مجالًا كبيرًا للتحسين في أنظمة NLI ، وأن مجموعة بيانات HANS يمكنها تحفيز وقياس التقدم في هذا المجال.Abstract
Makina öyrənmə sistemi çoxlu məsəllər üçün faydalı heuristik vasitəsilə verilən sınaqda yaxşı müəyyən edə bilər, amma daha çətin vəziyyətlərdə fərqli olar. Biz bu məsələni təbiətli dil inference (NLI) içində öyrənirik, bir cümlənin başqa bir cümlənin olmadığını təsdiqləmə məqsədi. Biz statistik NLI modellərinin üç düşən sintaktik heuristik vasitəsini qəbul edə biləcəyini iddia edirik: leksik heuristik, sonrakı heuristik və komponent heuristik. Modellərin bu heuristikləri qəbul etdiyini təsdiqləmək üçün, HANS adlı təsdiqlənmiş təsdiqlənmə quruluş quruluşu təsdiqləyirik. MNLI-də təhsil edilmiş modellərin, BERT-də, sanat modeli, HANS-də çox pis işlər görür, bu heuristik həqiqətən qəbul etdiklərini təsdiqləyirik. NLI sistemlərində yaxşılıq etmək üçün çox böyük yer var və HANS verilən quruluğu bu bölgedə tədbir göstərmək və ölçüyə bilər.Abstract
Системата за машинно обучение може да постигне добър резултат на даден тест набор, като разчита на евристика, която е ефективна за чести примерни типове, но се разпада в по-трудни случаи. Проучваме този въпрос в рамките на естествения езиков извод (НЛИ), задачата да определим дали едно изречение води до друго. Хипотезираме, че статистическите модели могат да приемат три фалшиви синтактични евристика: лексикалната евристика на припокриване, евристиката на подсеквението и съставната евристика. За да се определи дали моделите са приели тези евристики, ние въвеждаме контролиран набор от оценки наречен Хеуристичен анализ за НЛИ системи, който съдържа много примери, при които евристиката се проваля. Намираме, че моделите, обучени по MNLI, включително BERT, най-модерен модел, се представят много зле на HANS, което предполага, че те наистина са приели тези евристика. Извеждаме заключението, че има значително място за подобрение в системите за НЛИ и че наборът от данни може да мотивира и измерва напредъка в тази област.Abstract
একটি মেশিন শিক্ষা শিক্ষা ব্যবস্থা হিউরিস্টিক্সের উপর নির্ভর করে ভালোভাবে স্কোর করতে পারে, যা প্রায়শ উদাহরণের জন্য কার্যকর, কিন্ আমরা এই বিষয়টিকে প্রাকৃতিক ভাষার আক্রান্তির মধ্যে গবেষণা করছি (এনলি)। এই বিষয়টি সিদ্ধান্ত নিয়ে যাচ্ছি যে একটি We hypothesize that statistical NLI models may adopt three fallible syntactic heuristics: the lexical overlap heuristic, the subsequence heuristic, and the constituent heuristic. এই হিউরিস্টিক্সের মডেল গ্রহণ করেছে কিনা তা নির্ধারণ করার জন্য আমরা একটি নিয়ন্ত্রিত মূল্যায়ন সেটের পরিচালিত করেছি যার নাম হাএনএস (এনলি সিস্টেমের জন্য হ আমরা খুঁজে পাচ্ছি যে মডেল এমএনলিতে প্রশিক্ষণ প্রশিক্ষণ প্রদান করা হয়েছে, যার মধ্যে বের্ট, একটি রাষ্ট্র-শিল্প মডেল, হাএনএসে খুব খারাপ কাজ করে আমরা উপসংহার প্রদান করেছি যে এনলি সিস্টেমে উন্নয়নের জন্য গুরুত্বপূর্ণ রুম রয়েছে এবং হাএনএস ডাটাসেট এই এলাকায় উন্নয়ন এবং উন্নয়নের জন্Abstract
རྩིས་འཁོར་གྱི་ཤེས་འཇུག་མ་ལག་གིས་ལྟར་བརྟག་བཀོད་པའི་ཚད་ལྟར་རྟགས་བཀོད་པ་ལྟར་བཀོལ་ནུས་ཡོད་པའི་ཚད་ལྟར་བརྟག་དཔེ་བས། ང་ཚོས་རང་རུང་བའི་སྐད་རིགས་ཀྱི་བསམ་ཚུལ་ནང་དུ་གཏོང་བ་འདི་ལྟ་བུ་བཏོན་ཡོད། We hypothesize that statistical NLI models may adopt three fallible syntactic heuristics: the lexical overlap heuristic, the subsequence heuristic, and the constituent heuristic. Examples of the following: To determine whether models have adopted these heuristics, we introduce a controlled evaluation set called HANS (Heuristic Analysis for NLI Systems), which contains many examples where the heuristics fail. ང་ཚོས་MINLI་གི་མིག་གཟུགས་སྡུད་ཀྱི་མིག་གཟུགས་རིས་འདི་ལྟ་བུ་བཏོན་ཡོད། BERT་ཀྱི་གནས་སྟངས་གཟུགས་ཀྱི་མིག ང་ཚོས་NLI་རིམ་ལ་ཡར་རྒྱས་གཏོང་ཆེན་པོ་ཡོད་པའི་ཁང་ཆེ་རྐྱེན་ཡོད་པ་ལྟར། HANS་གནས་ཚུལ་སྒྲིག་ཆ་འཕྲིན་ཡིག་ཆ་ཚོས་Abstract
Sistem učenja mašine može dobro rezultirati na određenom testu oslanjanjem na heuristiku koji su učinkoviti za česte primjere, ali razbiti se u više izazovnih slučajeva. Proučavamo ovaj problem u prirodnoj infekciji jezika (NLI), zadatak odlučivanja da li jedna rečenica uključuje drugu rečenicu. Pretpostavljamo da statistički modeli NLI mogu usvojiti tri padajuće sintaktičke heurističke metode: leksički preklapanje heurističke metode, sekvenčne heurističke metode i sastavne heurističke metode. Da bi utvrdili da li su modeli usvojili ovu heuristiku, predstavljamo kontroliranu procjenu koja se zove HANS (Heuristička analiza NLI sistema), koja sadrži mnoge primjere u kojima heuristika ne uspije. Nalazimo da modeli obučeni na MNLI, uključujući BERT, model umjetnosti, vrlo loše izvode na HANS-u, sugerirajući da su zaista usvojili ovu heuristiku. Zaključili smo da postoji značajna prostora za poboljšanje u NLI-ovim sistemima i da će HANS dataset motivirati i mjeriti napredak u ovom području.Abstract
Un sistema d'aprenentatge màquinari pot puntuar bé en un conjunt de proves en confiant en heurístics que són eficaces per tipus d'exemples freqüents però es trenquen en casos més desafiants. Estudem aquest tema dins la inferència natural del llenguatge (NLI), la tasca de determinar si una frase implica una altra. Suposem que els models estadístics de la NLI poden adoptar tres heurístics sinàctiques fallibles: la superposició lèxica heurística, la subseqüència heurística i la heurística constitutiva. Per determinar si els models han adoptat aquestes heurístiques, introduim un conjunt d'evaluació controlat anomenat HANS (Anàlisi Heuristic for NLI Systems), que conté molts exemples on l'heurística fracassa. We find that models trained on MNLI, including BERT, a state-of-the-art model, perform very poorly on HANS, suggesting that they have indeed adopted these heuristics. Conclouem que hi ha espai substancial per a millorar els sistemes de la NLI, i que el conjunt de dades HANS pot motivar i mesurar el progrés en aquesta àrea.Abstract
Systém strojového učení může v daném testovacím setu skórovat dobře tím, že se spoléhá na heuristiky, které jsou efektivní pro časté typy příkladů, ale rozpadají se v náročnějších případech. Tuto problematiku studujeme v rámci inference přirozeného jazyka (NLI), úkolu určit, zda jedna věta nese druhou. Předpokládáme hypotézu, že statistické NLI modely mohou přijmout tři omylné syntaktické heuristiky: lexikální heuristiku překrývající se, podsekvenční heuristiku a konstituční heuristiku. Pro zjištění, zda modely tyto heuristiky přijaly, představujeme řízenou hodnotící sadu s názvem HANS (Heuristická analýza pro NLI systémy), která obsahuje mnoho příkladů, kdy heuristika selhá. Zjišťujeme, že modely trénované na MNLI, včetně moderního modelu BERT, fungují na HANS velmi špatně, což naznačuje, že tyto heuristiky skutečně přijaly. Dospěli jsme k závěru, že existuje podstatný prostor pro zlepšení systémů NLI a že dataset HANS může motivovat a měřit pokrok v této oblasti.Abstract
Et maskinlæringssystem kan score godt på et givet testsæt ved at stole på heuristik, der er effektiv for hyppige eksempeltyper, men bryder sammen i mere udfordrende tilfælde. Vi studerer dette spørgsmål inden for naturlig sprogkonklusion (NLI), opgaven med at afgøre, om en sætning indebærer en anden. Vi antager, at statistiske NLI modeller kan anvende tre fejlbare syntaktiske heuristikker: den lexikale overlapning heuristisk, efterhånden heuristisk, og den konstituerende heuristisk. For at afgøre, om modellerne har anvendt denne heuristik, introducerer vi et kontrolleret evalueringssæt kaldet HANS (Heuristic Analysis for NLI Systems), som indeholder mange eksempler, hvor heuristikken fejler. Vi finder, at modeller, der er trænet på MNLI, herunder BERT, en state-of-the-art model, yder meget dårligt på HANS, hvilket tyder på, at de faktisk har brugt denne heuristik. Vi konkluderer, at der er betydelig plads til forbedringer i NLI-systemerne, og at HANS datasættet kan motivere og måle fremskridt på dette område.Abstract
Ein Machine Learning System kann bei einem bestimmten Testsatz gute Ergebnisse erzielen, indem es sich auf Heuristiken stützt, die für häufige Beispieltypen effektiv sind, aber in schwierigeren Fällen ausfallen. Wir untersuchen dieses Thema im Rahmen von Natural Language Inference (NLI), der Aufgabe zu bestimmen, ob ein Satz einen anderen beinhaltet. Wir gehen davon aus, dass statistische NLI-Modelle drei fehlbare syntaktische Heuristiken annehmen können: die lexikalische Überlappungs-Heuristik, die Subsequenz-Heuristik und die konstituierende Heuristik. Um festzustellen, ob Modelle diese Heuristiken übernommen haben, führen wir einen kontrollierten Evaluierungssatz namens HANS (Heuristic Analysis for NLI Systems) ein, der viele Beispiele enthält, bei denen Heuristiken versagen. Wir stellen fest, dass Modelle, die auf MNLI trainiert wurden, einschließlich BERT, einem hochmodernen Modell, auf HANS sehr schlecht abschneiden, was darauf hindeutet, dass sie diese Heuristiken tatsächlich übernommen haben. Wir kommen zu dem Schluss, dass es erheblichen Verbesserungsbedarf bei NLI-Systemen gibt und dass der HANS-Datensatz Fortschritte in diesem Bereich motivieren und messen kann.Abstract
Ένα σύστημα μηχανικής μάθησης μπορεί να σκοράρει καλά σε ένα δεδομένο σετ δοκιμών βασιζόμενοι σε heuristics που είναι αποτελεσματικές για συχνούς τύπους παραδειγμάτων αλλά διασπώνται σε πιο δύσκολες περιπτώσεις. Μελετάμε αυτό το ζήτημα μέσα από την εξαγωγή φυσικών γλωσσών (NLI), το καθήκον να προσδιορίσουμε αν μια πρόταση συνεπάγεται μια άλλη. Υποθέτουμε ότι τα στατιστικά μοντέλα μπορούν να υιοθετήσουν τρεις λανθασμένες συντακτικές heuristics: τη λεξική επικαλύψιμη heuristic, την υποτελεσματική heuristic και την συστατική heuristic. Για να προσδιορίσουμε αν τα μοντέλα έχουν υιοθετήσει αυτές τις heuristics, εισάγουμε ένα ελεγχόμενο σύνολο αξιολόγησης που ονομάζεται το οποίο περιέχει πολλά παραδείγματα όπου οι heuristics αποτυγχάνουν. Διαπιστώνουμε ότι τα μοντέλα που εκπαιδεύονται στο MNLI, συμπεριλαμβανομένου του BERT, ένα μοντέλο τελευταίας τεχνολογίας, αποδίδουν πολύ άσχημα στο HANS, γεγονός που υποδηλώνει ότι έχουν πράγματι υιοθετήσει αυτές τις heuristics. Συμπεραίνουμε ότι υπάρχουν σημαντικά περιθώρια βελτίωσης στα συστήματα και ότι το σύνολο δεδομένων μπορεί να παρακινήσει και να μετρήσει την πρόοδο στον τομέα αυτό.Abstract
Un sistema de aprendizaje automático puede obtener buenos resultados en un conjunto de pruebas dado si se basa en heurísticas que son eficaces para tipos de ejemplos frecuentes, pero que se desglosan en casos más desafiantes. Estudiamos este tema dentro de la inferencia del lenguaje natural (NLI), la tarea de determinar si una oración implica otra. Se plantea la hipótesis de que los modelos estadísticos de NLI pueden adoptar tres heurísticas sintácticas falibles: la heurística de superposición léxica, la heurística de subsecuencia y la heurística constituyente. Para determinar si los modelos han adoptado estas heurísticas, presentamos un conjunto de evaluación controlada llamado HANS (Análisis heurístico para sistemas NLI), que contiene muchos ejemplos en los que la heurística falla. Encontramos que los modelos entrenados en MNLI, incluido BERT, un modelo de última generación, funcionan muy mal en HANS, lo que sugiere que sí han adoptado estas heurísticas. Llegamos a la conclusión de que hay un margen sustancial de mejora en los sistemas de NLI, y que el conjunto de datos de HANS puede motivar y medir el progreso en esta área.Abstract
Masinõppesüsteem võib antud testikomplekti puhul hästi hinnata, tuginedes heuristikale, mis on tõhusad sagedaste näidete tüüpide puhul, kuid laguneb keerulisematel juhtudel. Me uurime seda teemat looduskeele järelduses (NLI), mille ülesandeks on määrata, kas üks lause sisaldab teist. Hüpoteesime, et statistilised NLI mudelid võivad kasutada kolme eksitavat süntaktilist heuristikat: leksikaalse kattumise heuristikat, alljärjekorra heuristikat ja koostisosa heuristikat. Selleks et teha kindlaks, kas mudelid on kasutusele võtnud need heuristikad, tutvustame kontrollitud hindamiskomplekti nimega HANS (Heuristic Analysis for NLI Systems), mis sisaldab palju näiteid, kus heuristika ebaõnnestub. Leiame, et MNLI-le koolitatud mudelid, sealhulgas BERT, kaasaegne mudel, toimivad HANS-il väga halvasti, mis viitab sellele, et nad on tõepoolest kasutusele võtnud need heuristika. Järeldame, et NLI süsteemides on märkimisväärselt arenguruumi ning HANSi andmekogum võib selles valdkonnas edusamme motiveerida ja mõõta.Abstract
سیستم یادگیری ماشین می تواند در یک آزمایش داده شده با توجه به هوریستیک که برای نوع مثال اغلب موثر می باشد، خوب امتیاز دهد، ولی در پرونده های مشکل بیشتری شکسته می شود. ما این مسئله را در بیماری زبان طبیعی (NLI) مطالعه میکنیم، مسئلهی تصمیم گرفتن که آیا یک جمله دیگر را میگیرد. ما فرض میکنیم که مدلهای آمار NLI میتوانند سه تنظیم سنتاکتیک فرو ریخته شود: کلاسیک بالا ریخته میشود، تعداد هوریستیک و تعداد هوریستیک. برای تصمیم گیری که آیا مدلها این هوریستیک را قبول کرده اند، ما یک مجموعه ارزیابی کنترل به نام HANS (تحلیل هوریستیک برای سیستم NLI) را معرفی می کنیم، که شامل مثالهای زیادی است که هوریستیک شکست خورد. ما فهمیدیم که مدل های آموزش یافته در MNLI، شامل BERT، یک مدل هنری، خیلی بد روی HANS انجام می دهند، و پیشنهاد می دهند که آنها واقعا این هوریستیک را قبول کرده اند. ما تصمیم می گیریم که جای بسیار زیادی برای بهترین کردن در سیستمهای NLI وجود دارد و که مجموعه دادههای HANS میتواند در این منطقه پیشرفت را انگیزه و اندازه گیری کند.Abstract
Koneoppimisjärjestelmä voi saada hyvän tuloksen tietyssä testisarjassa tukeutumalla heuristiikkaan, joka on tehokasta useimmissa esimerkkityypeissä mutta hajoaa haastavimmissa tapauksissa. Tutkimme tätä kysymystä luonnollisen kielen päättelyssä (NLI), jonka tehtävänä on selvittää, liittyykö yhteen lauseeseen toinen lause. Hypoteesimme, että tilastolliset NLI-mallit voivat omaksua kolme erehtyvää syntaktista heuristiikkaa: lexikaalisen päällekkäisen heuristiikan, subsquence heuristiikan ja constituinte heuristiikan. Selvittääksemme ovatko mallit omaksuneet nämä heuristikot, esittelemme kontrolloidun arviointisarjan nimeltä HANS (Heuristic Analysis for NLI Systems), joka sisältää monia esimerkkejä, joissa heuristiikka epäonnistuu. Havaitsemme, että MNLI: llä koulutetut mallit, mukaan lukien BERT, huipputekninen malli, toimivat hyvin huonosti HANS: llä, mikä viittaa siihen, että he ovat todellakin omaksuneet nämä heuristikot. Päätämme, että NLI-järjestelmissä on paljon parantamisen varaa ja että HANS-aineisto voi motivoida ja mitata edistymistä tällä alalla.Abstract
Un système d'apprentissage automatique peut obtenir de bons résultats sur un ensemble de tests donné en s'appuyant sur des heuristiques qui sont efficaces pour les types d'exemples fréquents mais qui se décomposent dans les cas les plus difficiles. Nous étudions cette question dans le cadre de l'inférence de langage naturel (NLI), la tâche de déterminer si une phrase en entraîne une autre. Nous émettons l'hypothèse que les modèles statistiques NLI peuvent adopter trois heuristiques syntaxiques faillibles : l'heuristique de chevauchement lexical, l'heuristique de sous-séquence et l'heuristique constitutive. Pour déterminer si les modèles ont adopté ces heuristiques, nous introduisons un jeu d'évaluation contrôlé appelé HANS (Heuristic Analysis for NLI Systems), qui contient de nombreux exemples où les heuristiques échouent. Nous constatons que les modèles formés au MNLI, y compris BERT, un modèle de pointe, fonctionnent très mal sur HANS, ce qui suggère qu'ils ont effectivement adopté ces heuristiques. Nous concluons qu'il existe une marge d'amélioration importante dans les systèmes NLI et que l'ensemble de données HANS peut motiver et mesurer les progrès dans ce domaine.Abstract
Is féidir le córas meaisínfhoghlama scór maith a fháil ar thacar tástála áirithe trí bheith ag brath ar heuristics atá éifeachtach le haghaidh cineálacha samplaí minice ach a bhriseann síos i gcásanna níos dúshlánaí. Déanaimid staidéar ar an tsaincheist seo laistigh de thátal teanga nádúrtha (NLI), an tasc a chinneadh an bhfuil abairt amháin i gceist le ceann eile. Tugaimid hipitéis go bhféadfaidh samhlacha staitistiúla LNÉ trí heuristic chomhréire inbhraite a ghlacadh: an heorastaíoch forluí foclóireachta, an heorastaíoch iar-sheichimh, agus an heorastaíoch comhpháirte. Chun a chinneadh an bhfuil na heuristics seo glactha ag samhlacha, tugaimid isteach sraith mheastóireachta rialaithe ar a dtugtar HANS (Anailís Heorastúil do Chórais LNÉ), ina bhfuil go leor samplaí ina dteipeann ar an heuristics. Feictear dúinn go n-éiríonn go han-lag ar HANS i múnlaí oilte ar MNLI, lena n-áirítear BERT, samhail den scoth, ar HANS, rud a thugann le tuiscint go bhfuil glactha acu leis na heorastálacha sin go deimhin. Bainimid de thátal as go bhfuil spás suntasach le feabhsú i gcórais LNÉ, agus gur féidir le tacar sonraí HANS dul chun cinn sa réimse seo a spreagadh agus a thomhas.Abstract
Wata shirin ayuka da aka karanta shi ya iya karatar da shi mai kyau a kan jarraba da aka ƙayyade shi, yana aminci kan heuristics, da masu amfani da wasu misãlai masu daidai, kuma ya yi sauri cikin kasuka masu ƙaranci. Munã karanta wannan masu cikin ma'abũcin harshe na natsuwa (NLI), wa'azi da za'a ƙayyade cewa wata kalma ta shiga wani. Tuna gaskata cewa misãlai na NLI za ta ɗauki sau-ukun syntactic wanda ke karya: heuristic na lokaci, da bakin heuristic, da kuma wanda ke samun heuristic. Dõmin ka ƙayyade misãlai sun ɗauki waɗannan heuristics, za'a ƙunsa da an lissafa ƙaddara tsarin hasNS (Analyn Hauristic wa Systems na NLI), wanda ke ƙunsa da misãlai masu yawa a inda heuristics za'a ɓace. Munã sãmu misalin wanda aka sanar da shi a kan MNLI, ikin BERT, wata misãlin-mai-sanawa, za'a yi amfani da shi kaɗan a kan HNS, kuma yana gaya cewa lalle ne, sun karɓi waɗannan heuristics. Munã ƙara cewa there akwai wani wuri mai girma wa improve cikin tsari na NLI, kuma da tsarin data na hasNS za ta yi amfani da kai kodi a cikin wannan wuri.Abstract
מערכת לימוד מכונות יכולה להשיג נקודות טובות במבחן מסוים על ידי תלוי בהיוריסטיקה שהיא יעילה לטיפוסים של דוגמאות לעתים קרובות אבל להתפרק במקרים מאתגרים יותר. אנחנו לומדים את הנושא הזה בתוך תוצאת שפה טבעית (NLI), המשימה של לקבוע אם משפט אחד מכיל אחר. אנו מניחים שדוגמנים סטטיסטיים של NLI יכולים לאמץ שלושה הוריסטיקות סינטקטיות שגויות: ההוריסטיקה המסתובבת הלקסית, ההוריסטיקה המסתובבת והיוריסטיקה המרכיבת. כדי לקבוע אם דוגמנים איימו את ההוריסטיקה הללו, אנחנו מכירים קבוצת עריכה שולטת שנקראת HANS (Analysis Heuristic for NLI Systems), שמכילה דוגמאות רבות שבו ההוריסטיקה נכשלת. אנחנו מוצאים שמדוגמנים מאומנים על MNLI, כולל BERT, מודל מצוין, מבצעים מאוד רע על HANS, מציעים שהם באמת איימו את ההוריסטיקה הזאת. אנחנו מסתיימים שיש מקום משמעותי לשיפור במערכות NLI, ושקובץ הנתונים HANS יכול למנוע ולמדד התקדמות באזור הזה.Abstract
एक मशीन लर्निंग सिस्टम ह्यूरिस्टिक्स पर भरोसा करके किसी दिए गए परीक्षण सेट पर अच्छी तरह से स्कोर कर सकता है जो लगातार उदाहरण प्रकारों के लिए प्रभावी होते हैं लेकिन अधिक चुनौतीपूर्ण मामलों में टूट जाते हैं। हम प्राकृतिक भाषा अनुमान (एनएलआई) के भीतर इस मुद्दे का अध्ययन करते हैं, यह निर्धारित करने का कार्य कि क्या एक वाक्य दूसरे पर जोर देता है। हम परिकल्पना करते हैं कि सांख्यिकीय एनएलआई मॉडल तीन दोषपूर्ण वाक्यात्मक ह्युरिस्टिक्स को अपना सकते हैं: लेक्सिकल ओवरलैप हेरिस्टिक, उप-अनुक्रम हेरिस्टिक, और घटक हेरिस्टिक। यह निर्धारित करने के लिए कि क्या मॉडल ने इन ह्यूरिस्टिक्स को अपनाया है, हम एक नियंत्रित मूल्यांकन सेट पेश करते हैं जिसे HANS (NLI Systems के लिए ह्यूरिस्टिक विश्लेषण) कहा जाता है, जिसमें कई उदाहरण शामिल हैं जहां heuristics विफल हो जाते हैं। हम पाते हैं कि BERT सहित MNLI पर प्रशिक्षित मॉडल, एक अत्याधुनिक मॉडल, HANS पर बहुत खराब प्रदर्शन करते हैं, यह सुझाव देते हुए कि उन्होंने वास्तव में इन ह्यूरिस्टिक्स को अपनाया है। हम निष्कर्ष निकालते हैं कि एनएलआई सिस्टम में सुधार के लिए पर्याप्त जगह है, और हंस डेटासेट इस क्षेत्र में प्रगति को प्रेरित और माप सकता है।Abstract
Sistem učenja strojeva može dobro rezultirati na određenom testu oslanjanjem na heuristiku koji su učinkoviti za česte primjere, ali razbiti se u više izazovnih slučajeva. Proučavamo ovaj problem u prirodnoj infekciji jezika (NLI), zadatak odlučivanja da li jedna rečenica uključuje drugu rečenicu. Pretpostavljamo da statistički modeli NLI mogu usvojiti tri padajuće sintaktičke heurističke metode: leksički preklapanje heurističke metode, sekvenčne heurističke metode i komponente heurističke metode. Da bi utvrdili da li su modeli usvojili ovu heuristiku, predstavljamo kontroliranu procjenu koja se zove HANS (Heuristička analiza NLI sustava), koja sadrži mnoge primjere u kojima heuristika ne uspije. Nalazimo da modeli obučeni na MNLI, uključujući BERT, model umjetnosti, vrlo loše izvode na HANS-u, sugerirajući da su zaista usvojili ovu heuristiku. Zaključili smo da postoji značajna mjesta za poboljšanje u NLI-ovim sustavima i da će HANS dataset motivirati i mjeriti napredak u ovom području.Abstract
Egy gépi tanulási rendszer jó pontszámot tud érni egy adott tesztkészleten olyan heurisztikákra támaszkodva, amelyek gyakori példák esetén hatékonyak, de nehezebb esetekben lebomlanak. Ezt a kérdést a természetes nyelvi következtetés (NLI) keretében tanulmányozzuk, annak meghatározása, hogy egyik mondat magában foglal-e egy másikat. Feltételezzük, hogy a statisztikai NLI modellek három hibás szintaktikus heurisztikát alkalmazhatnak: a lexikai átfedés heurisztikáját, az alávetés heurisztikáját és az alkotó heurisztikát. Annak megállapítására, hogy a modellek alkalmazták-e ezeket a heurisztikákat, bevezetünk egy HANS (Heuristic Analysis for NLI Systems) nevű ellenőrzött értékelő készletet, amely számos olyan példát tartalmaz, ahol a heurisztika hibás. Úgy találjuk, hogy az MNLI-n képzett modellek, köztük a BERT, egy korszerű modell, nagyon rosszul teljesítenek a HANS-on, ami arra utal, hogy valóban alkalmazták ezeket a heurisztikákat. Arra a következtetésre jutunk, hogy az NLI rendszerek jelentős fejlesztési lehetőségei vannak, és hogy a HANS adatkészlet motiválni és mérni tudja az előrehaladást ezen a területen.Abstract
Մեքենային ուսումնասիրության համակարգը կարող է լավ գնահատել տվյալ փորձարկումների համակարգի վրա հիմնվելով հաճախ օրինակների համար արդյունավետ հորիստիկայի վրա, բայց բաժանում է ավելի դժվար դեպքերում: Մենք ուսումնասիրում ենք այս խնդիրը բնական լեզվի եզրակացության մեջ, այն խնդիրը, թե արդյոք մեկ նախադասությունը ներառում է մեկ այլ նախադասություն: Մենք ենթադրում ենք, որ NSI վիճակագրական մոդելները կարող են ընդունել երեք սխալ սինտակտիկ հորիստիկ' լեքսիկական հակադրությունը հորիստիկ, հետագայում հորիստիկ և բաղադրիչ հորիստիկ: Որպեսզի որոշենք, թե արդյոք մոդելները ընդունել են այս հորիստիկան, մենք ներկայացնում ենք մի կառավարվող գնահատման համակարգ, որը կոչվում է HANS ը, որը պարունակում է շատ օրինակներ, երբ հորիստիկան ձախողվում է: Մենք հայտնաբերեցինք, որ MNSI-ի վրա վարժեցված մոդելները, ներառյալ BERT-ը, ամենաբարձր մոդելը, շատ վատ են աշխատում HANS ի վրա, առաջարկում են, որ նրանք իսկապես ընդունել են այս հորիստիկան: Մենք եզրակացնում ենք, որ ՆԼԻ համակարգերի զարգացման կարևոր տարածք կա, և որ ՀԱՆՍ տվյալների համակարգը կարող է խթանել և չափել առաջընթացը այս ոլորտում:Abstract
Sistem belajar mesin dapat mencetak nilai dengan baik pada set tes yang diberikan dengan bergantung pada heuristik yang efektif untuk tipe contoh yang sering tetapi pecah dalam kasus yang lebih menantang. Kami mempelajari masalah ini dalam kesimpulan bahasa alam (NLI), tugas untuk menentukan apakah satu kalimat mengandung kalimat lain. Kami hipotesis bahwa model NLI statistik dapat mengadopsi tiga heuristik sintaks yang gagal: heuristik meliputi lexik, heuristik berikutnya, dan heuristik konstitusi. Untuk menentukan apakah model telah mengadopsi heuristik ini, kami memperkenalkan set evaluasi terkendali bernama HANS (Analisi Heuristik untuk Sistem NLI), yang mengandung banyak contoh di mana heuristik gagal. Kami menemukan bahwa model yang dilatih di MNLI, termasuk BERT, model state-of-the-art, berfungsi sangat buruk pada HANS, menyarankan bahwa mereka benar-benar telah mengadopsi heuristik ini. Kami menyimpulkan bahwa ada ruang yang besar untuk memperbaiki sistem NLI, dan bahwa set data HANS dapat mendorong dan mengukur kemajuan di daerah ini.Abstract
Un sistema di apprendimento automatico può segnare bene su un determinato set di test basandosi su euristiche che sono efficaci per i tipi di esempi frequenti, ma che si scompongono in casi più difficili. Studiamo questo problema all'interno dell'inferenza del linguaggio naturale (NLI), il compito di determinare se una frase comporta un'altra. Ipotizziamo che i modelli statistici NLI possano adottare tre euristiche sintattiche fallibili: la sovrapposizione lessicale euristica, la sottoquenza euristica e l'euristica costituente. Per determinare se i modelli hanno adottato queste euristiche, introduciamo un set di valutazione controllato chiamato HANS (Heuristic Analysis for NLI Systems), che contiene molti esempi in cui l'euristica fallisce. Troviamo che i modelli formati su MNLI, tra cui BERT, un modello all'avanguardia, hanno prestazioni molto scarse su HANS, suggerendo che hanno effettivamente adottato queste euristiche. Concludiamo che vi è un notevole margine di miglioramento nei sistemi NLI e che il set di dati HANS può motivare e misurare i progressi in questo settore.Abstract
機械学習システムは、頻繁な例示タイプに有効だが、より困難なケースでは分解するヒューリスティックに依存することによって、所与のテストセットで良好なスコアを得ることができる。私たちは、この問題を自然言語推論( NLI )内で研究しています。これは、ある文が別の文を含むかどうかを判断する作業です。統計的NLIモデルは、3つの落ちやすい構文的ヒューリスティックを採用する可能性があると仮定しています:語彙的重複ヒューリスティック、ヒューリスティック、構成的ヒューリスティック。モデルがこれらのヒューリスティックを採用しているかどうかを判断するために、我々はHANS ( NLIシステムのヒューリスティック分析)と呼ばれる制御された評価セットを導入し、ヒューリスティックが失敗する多くの例を含んでいる。最先端のモデルであるBERTを含むMNLIで訓練されたモデルは、HANSに対して非常に悪いパフォーマンスを示しており、これらのヒューリスティックを実際に採用していることを示唆しています。我々は、NLIシステムには実質的な改善の余地があり、HANSデータセットはこの分野の進歩を動機づけ、測定することができると結論づけています。Abstract
Sistem cilihan pengguna bisa ditambah akeh bantuan neng ujian sing bisa ngeweh bantuan ing heuristik sing apik dhéwé, sing uwis seneng nggawe sistem sing apik trus iki dadi apik trus maneh, nanguwis kuwi nggawe cah-cah sing apik. Awak dhéwé jajal kuwi kesempatan kanggo nglanggar aturan (NLI), nggunakno nggawe gerakan kanggo meh saben nggo saben. Awak dhéwé éntuk sistem sing dadi NLI dadi bisa ngomong gunakake tresna pada-pakan seneng heuristik: lineksik antar heuristik, lineksik antar heuristik, lan akeh stir. Jewis ngerasai nung-bisa model sing dumadhi akeh heuristik iki, awak dhéwé ngewehke gunakake tau dadi nggawe HANs (Heuristik Test kanggo NLI System), sing sumulakno akeh balikat sing nganggo akeh hekuristik sing gawe ngubah. Awak dhéwé luwih akeh model sing ditambahak kanggo NLI, nambah BERT, model dadi-karat lan sampek kuwi nggawe barang apik dhéwé, suggerujak dhéwé wis ngerasakno karo hal-hal. Awak dhéwé éntuk luwih-luwih kanggo mbatalung nggawe sistem NLI, lan akeh barang nggawe dataset 'HAN' iso nggambar lan sukkanda barang iki dianggap banjur.Abstract
მაქსინის სწავლების სისტემა შეუძლია უფრო კარგი შემოწმება, რომელიც ჰერისტიკის შესახებ ეფექტიური მაგალითებისთვის, მაგრამ უფრო დარწმუნებელია. ჩვენ ამ პრობლემას ნახვადასხვა ენის ინფრენციაში (NLI) ვისწავლობთ, რომელიც განსაზღვრებას თუ არა ერთი სიტყვა სხვადასხვა. ჩვენ ჰიპოტესურებთ, რომ სტატისტიკური NLI მოდელები შეიძლება სამი შემცირებული სინტატიკური ჰესურისტიკის გადავიყენოთ: ლექსიკალური ჰესურისტიკი, შემდეგ ჰესურისტიკი და შემცირებული ჰ რომელიც მოდელები ამ ჰერისტიკის გადავიყენებენ, ჩვენ შევცვალობთ კონტროლური განსაზღვრების ნახვა, რომელიც ჰერისტიკური ანალიზი NLI სისტემებისთვის, რომელიც აქვს მრავალ მაგალითები, ჩვენ აღმოჩნეთ, რომ MNLI-ის მოდელები, რომლებიც BERT, ხელსაწყოთა მოდელზე, მუშაობელია HANS-ზე, რომლებიც აღმოჩნეთ, რომ ისინი ნამდვილად ამ ჰერისტიკის გავაკეთოთ. ჩვენ დავაკვირდებით, რომ NLI სისტემებში გაუკეთესებელი ადგილი არსებობს და რომ HANS მონაცემები შეუძლია მოტივირთოთ და გაზომისოთ პროგრესი ამ ადგილში.Abstract
Компьютер оқыту жүйесі келтірілген сынақтарды жақсы оқу мүмкіндігін қолдануға болады. Бұл көптеген мысалдар түрлеріне көмектеседі, бірақ көптеген мәселелерде көптег Біз бұл мәселеді табиғи тілінің инференциясында (NLI) зерттейміз. Бір сөйлеменің басқа сөйлеменің қатынасын анықтау тапсырмасы. Біз статистикалық NLI үлгілері үш қалды синтактикалық геуристиканы қолдануға болады: лексикалық геуристикалық, реттегі геуристикалық және соңғы геуристикалық. Бұл геуристика үлгілерін қабылдау үшін, біз HANS деп аталатын бақылау бағдарламасын (NLI жүйелердің геуристикалық анализ) келтіріп береміз. Бұл геуристиканың жаңылыс мәселелері бар. Біз MNLI үлгілерінде оқыту үлгілерін табу, BERT деген, суреттік үлгілер үлгілерінде, HANS үшін өте жаман жұмыс істейді. Олар шынымен бұл геуристиканы қолданған деп ойлайды. Біз NLI жүйелерінде жақсарту үшін маңызды орын бар деп ойлаймыз. ХаNS деректер жиыны осы аумақтағы барысын мотивациялау және өзгертуге болады.Abstract
기계 학습 시스템은 주어진 테스트 집합에서 좋은 성적을 거둘 수 있다. 왜냐하면 의존적인 계발식 방법은 빈번한 예시 유형에 효과가 있지만, 더욱 도전적인 상황에서 붕괴되기 때문이다.우리는 자연 언어 추리(NLI)에서 이 문제를 연구하는데, 즉 한 문장에 다른 문장이 포함되어 있는지 확인하는 것이다.우리는 통계 NLI 모델이 틀리기 쉬운 세 가지 문법 계발법, 즉 어휘 중첩 계발법, 하위 서열 계발법과 성분 계발법을 채택할 수 있다고 가정한다.모델이 이러한 계발식을 사용했는지 확인하기 위해 우리는 HANS(NLI 시스템의 계발식 분석)라는 제어 평가 집합을 도입했는데 그 중에는 많은 계발식 실패의 예가 포함되어 있다.우리는 MNLI에서 훈련된 모델이 가장 선진적인 모델인 버트를 포함하여 한스에게 매우 나쁘다는 것을 발견했다. 이것은 그들이 이러한 계발법을 확실히 채택했다는 것을 보여준다.우리는 NLI 시스템이 매우 큰 개선 공간을 가지고 있으며 HANS 데이터 집합은 이 분야의 진전을 격려하고 평가할 수 있다는 결론을 얻었다.Abstract
Mašininio mokymosi sistema gali gerai įvertinti tam tikrą bandymų rinkinį, remdamasi heuristika, kuri yra veiksminga dažniems pavyzdžių tipams, tačiau suskaidyta sudėtingesniais atvejais. Mes nagrinėjame šį klausimą pagal natūralią kalbos išvadą (NLI), užduotį nustatyti, ar vienas sakinys apima kitą. Mes hipotezuojame, kad statistiniai NLI modeliai gali patvirtinti tris klaidingas sintaktines heuristikas: leksinis heuristinis dubliavimasis, vėlesnis heuristinis ir sudedamoji heuristinė dalis. Siekiant nustatyti, ar modeliai priėmė šias heuristikas, įvedame kontroliuojamą vertinimo rinkinį, vadinamą HANS (NLI sistemų heuristinė analizė), kuriame pateikiama daug pavyzdžių, kai heuristika žlugsta. Mes manome, kad modeliai, parengti MNLI, įskaitant moderniausią model į BERT, labai blogai veikia HANS, ir tai rodo, kad jie iš tikrųjų priėmė šias heuristikas. Galime daryti išvadą, kad NLI sistemų tobulinimas yra didelis ir kad HANS duomenų rinkinys gali motyvuoti ir įvertinti pažangą šioje srityje.Abstract
Системот на машинско учење може да постигне добри оценки на одреден тест со зависност од хеористика која е ефикасна за чести видови примери, но се распаѓа во попредизвикувачки случаи. Го проучуваме ова прашање во рамките на природната инференција на јазикот (НЛИ), задачата да се одреди дали една реченица вклучува друга. Ние хипотезираме дека статистичките модели на НЛИ можат да усвоат три грешни синтактички хеористики: лексикалната прекривање хеористика, потеквенцијата хеористика и конститутивната хеористика. За да се одреди дали моделите ги усвоија овие хеористики, воведуваме контролиран сет на евалуација наречен ХАНС (хеуристичка анализа за НЛИ системите), кој содржи многу примери каде хеористиката не успева. Најдовме дека моделите обучени на МНЛИ, вклучувајќи го и БЕРТ, најновиот модел, работат многу лошо на ХАНС, што предлага дека навистина ги усвоиле овие хеористики. Завршуваме дека постои значително место за подобрување на системите на НЛИ и дека податоците на ХАНС можат да мотивираат и мерат напредок во оваа област.Abstract
ഒരു മെഷീന് പഠിക്കുന്ന സിസ്റ്റം കൊടുത്ത ടെസ്റ്റ് സെറ്റില് നല്ല സ്കോര്ട്ട് ചെയ്യുന്നതാണ്. അതില് ആവശ്യമായ ഉദാഹരണങ്ങള്ക്ക സ്വാഭാവിക ഭാഷയിലെ അപകടത്തിനുള്ളില് നമ്മള് ഈ പ്രശ്നം പഠിക്കുന്നു. ഒരു വാക്ക് മറ്റൊരു വാക്ക് ആവശ്യമുണ്ട We hypothesize that statistical NLI models may adopt three fallible syntactic heuristics: the lexical overlap heuristic, the subsequence heuristic, and the constituent heuristic. ഈ ഹൂരിസ്റ്റിക്സ് മോഡലുകള് ഉപയോഗിച്ചിരിക്കുന്നുവോ എന്ന് നിരീക്ഷിക്കാന്, ഹാന്സ് എന്ന പേരുള്ള നിയന്ത്രിക്കപ്പെട്ട വിലാസങ്ങള് നാം പരിചയപ് നമുക്ക് കണ്ടെത്തുന്നത് MNLI-ല് പരിശീലിക്കപ്പെട്ട മോഡലുകള്, ബെര്ട്ടില് ഒരു സ്റ്റേറ്റ് മോഡല്, ഹാന്സില് വളരെ ദുര്ബലമായി പ്രവര്ത്തിക് NLI സിസ്റ്റത്തില് മെച്ചപ്പെടുത്താനുള്ള വലിയ മുറിയുണ്ടെന്ന് നമ്മള് തീരുമാനിക്കുന്നു. ഹാന്സ് ഡാറ്റാസസെറ്റ് ഈAbstract
Машин суралцах систем нь ихэвчлэн жишээлүүд дээр үр дүнтэй хэмжээний хюристик дээр итгэх боломжтой тест дээр сайн тооцоолж чадна. Гэхдээ илүү хэцүү тохиромжтой тохиромжтой. Бид энэ асуудлыг байгалийн хэл халдвар (NLI) дотор судалж, нэг өгүүлбэрийг өөр нэг хэлбэртэй эсэхийг тодорхойлох үйл явц. Бид статистикийн НЛИ загварууд гурван багасгаж буй синтактик геуристик ашиглаж чадна гэж бодож байна: лексикийн хэмжээний хэмжээний хэмжээний хэмжээний хэмжээний хэмжээний хэмжээний хэмжээний хэмжээний хэмжээний хэмжээ Загварууд эдгээр хюристикийг хэрэглэсэн эсэхийг тодорхойлдохын тулд бид HANS (NLI системийн Heuristic Analysis for Heuristics) нэртэй хяналттай дүгнэлтийн багц гаргадаг. Бид MNLI-д сургалтын загвар олсон. БЕРТ, урлагийн загвар, ХАНС-д маш ядуу үйлдэл хийдэг. Бид NLI системд сайжруулахын тулд маш чухал өрөө байдаг гэж итгэдэг. ХаНСын өгөгдлийн сангууд энэ хэсэгт хөгжлийг урам зориулж, хэмжиж чадна.Abstract
Sistem pembelajaran mesin boleh skor dengan baik pada set ujian yang diberikan dengan bergantung pada heuristik yang berkesan untuk jenis contoh yang sering tetapi pecah dalam kes yang lebih mencabar. Kami mempelajari isu ini dalam kesimpulan bahasa semulajadi (NLI), tugas untuk menentukan sama ada satu kalimat melibatkan yang lain. Kami hipotesis bahawa model NLI statistik boleh mengadopsi tiga heuristik sintaktik yang gagal: heuristik meliputi leksik, heuristik turunan, dan heuristik konstitusi. Untuk menentukan sama ada model telah mengadopsi heuristik ini, kami memperkenalkan set penilaian terkawal yang dipanggil HANS (Analisi Heuristik untuk Sistem NLI), yang mengandungi banyak contoh di mana heuristik gagal. Kami mendapati bahawa model yang dilatih di MNLI, termasuk BERT, model terbaik, berfungsi sangat buruk pada HANS, menyarankan bahawa mereka telah mengadopsi heuristik ini. Kami menyimpulkan bahawa terdapat ruang yang besar untuk peningkatan dalam sistem NLI, dan bahawa set data HANS boleh mendorong dan mengukur kemajuan di kawasan ini.Abstract
Sistema ta’ tagħlim bil-magna tista’ tagħmel punteġġ tajjeb fuq sett ta’ test partikolari billi tiddependi fuq ġewristiċi li huma effettivi għal tipi ta’ eżempji frekwenti iżda jinqasmu f’każijiet aktar ta’ sfida. Aħna nistudjaw din il-kwistjoni fi ħdan l-inferenza lingwistika naturali (NLI), il-kompitu li niddeterminaw jekk sentenza waħda tinvolvix sentenza oħra. Aħna niipotesizzaw li mudelli NLI statistiċi jistgħu jadottaw tliet ħewristiċi sintetiċi fallibbli: il-ħewristiċi lexiċi sovrapposti, is-sussegwenza ħewristiċi, u l-ħewristiċi kostitwenti. Biex niddeterminaw jekk mudelli adottawx dawn l-ewristiċi, a ħna nintroduċux sett ta’ evalwazzjoni kkontrollata msejjaħ HANS (Analiżi Ewristika għas-Sistemi NLI), li fih ħafna eżempji fejn l-ewristiċi jfallu. We find that models trained on MNLI, including BERT, a state-of-the-art model, perform very poorly on HANS, suggesting that they have indeed adopted these heuristics. Aħna nikkonkludu li hemm lok sostanzjali għal titjib fis-sistemi NLI, u li s-sett tad-dejta HANS jista' jimmotiva u jkejjel il-progress f'dan il-qasam.Abstract
Een machine learning systeem kan goed scoren op een bepaalde testset door te vertrouwen op heuristieken die effectief zijn voor frequente voorbeeldtypen, maar afbreken in moeilijkere gevallen. We bestuderen dit vraagstuk binnen Natural Language Inference (NLI), de taak om te bepalen of de ene zin een andere inhoudt. We veronderstellen dat statistische NLI modellen drie feilbare syntactische heuristieken kunnen aannemen: de lexicale overlap heuristiek, de subsequentieheuristiek en de constitutionele heuristiek. Om te bepalen of modellen deze heuristieken hebben overgenomen, introduceren we een gecontroleerde evaluatieset genaamd HANS (Heuristische Analyse voor NLI-systemen), die veel voorbeelden bevat waar de heuristieken falen. We vinden dat modellen die zijn getraind op MNLI, waaronder BERT, een state-of-the-art model, zeer slecht presteren op HANS, wat suggereert dat ze deze heuristieken inderdaad hebben overgenomen. We concluderen dat er aanzienlijke ruimte is voor verbetering in NLI systemen, en dat de HANS dataset vooruitgang op dit gebied kan motiveren en meten.Abstract
Name Vi studerer dette problemet i naturspråk-infeksjon (NLI), oppgåva til å bestemme om ein setning inneheld ein annan setning. Vi hypotiserer at statistiske NLI-modeller kan adoptera tre falbare syntaksiske heuristikk: den leksiske overlappen heuristisk, subkvensen heuristisk og konstituent heuristisk. For å bestemme om modelane har godtatt desse heuristiske verdiane, introduserer vi ein kontrollert evalueringssett kalla HANS (Heuristisk analyse for NLI-systemar), som inneheld mange eksemplar der heuristiske verdiar mislukkast. Vi finn at modeller trengte på MNLI, inkludert BERT, eit kunstmodell, utfører svært dårlig på HANS, som tyder på at dei faktisk har adoptert desse heuristiske modeller. Vi avsluttar at det finst stor rom for forbedring i NLI-systemet, og at HANS-dataset kan motivera og måle framgang i dette området.Abstract
System uczenia maszynowego może osiągnąć dobrą ocenę w danym zestawie testów polegając na heurystyce, które są skuteczne w przypadku częstych typów przykładów, ale rozpadają się w bardziej trudnych przypadkach. Badamy tę kwestię w ramach wnioskowania języka naturalnego (NLI), zadania określenia, czy jedno zdanie pociąga za sobą drugie. Zakładamy hipotezę, że statystyczne modele NLI mogą przyjmować trzy błędne heurystyki składni: heurystykę nakładającą się leksykaliczną, heurystykę podsekwencji i heurystykę składnikową. Aby określić, czy modele przyjęły te heurystyki, wprowadzamy kontrolowany zestaw oceny o nazwie HANS (heurystyczna analiza systemów NLI), który zawiera wiele przykładów, w których heurystyka się nie uda. Stwierdzimy, że modele przeszkolone na MNLI, w tym BERT, najnowocześniejszy model, działają bardzo słabo na HANS, co sugeruje, że rzeczywiście przyjęły te heurystyki. Stwierdzamy, że istnieje znaczne pole do ulepszenia systemów NLI, a zbiór danych HANS może motywować i mierzyć postępy w tej dziedzinie.Abstract
Um sistema de aprendizado de máquina pode ter uma boa pontuação em um determinado conjunto de testes, contando com heurísticas que são eficazes para tipos de exemplo frequentes, mas que falham em casos mais desafiadores. Estudamos essa questão dentro da inferência de linguagem natural (NLI), a tarefa de determinar se uma sentença implica em outra. Nossa hipótese é que os modelos estatísticos NLI podem adotar três heurísticas sintáticas falíveis: a heurística de sobreposição lexical, a heurística de subsequência e a heurística constituinte. Para determinar se os modelos adotaram essas heurísticas, introduzimos um conjunto de avaliação controlada chamado HANS (Análise Heurística para Sistemas NLI), que contém muitos exemplos em que as heurísticas falham. Descobrimos que os modelos treinados em MNLI, incluindo o BERT, um modelo de última geração, têm um desempenho muito ruim em HANS, sugerindo que eles de fato adotaram essas heurísticas. Concluímos que há espaço substancial para melhorias nos sistemas NLI e que o conjunto de dados HANS pode motivar e medir o progresso nessa área.Abstract
Un sistem de învățare automată poate obține un scor bun pe un anumit set de teste bazându-se pe euristice care sunt eficiente pentru tipurile frecvente de exemple, dar care se descompun în cazuri mai dificile. Studiem această problemă în cadrul inferenței limbajului natural (NLI), sarcina de a determina dacă o propoziție implică alta. Ipotezăm că modelele statistice NLI pot adopta trei euristice sintactice defectibile: euristică de suprapunere lexicală, euristică de subsecvență și euristică constitutivă. Pentru a determina dacă modelele au adoptat aceste euristice, introducem un set de evaluare controlat numit HANS (Heuristic Analysis for NLI Systems), care conține multe exemple în care euristica eșuează. Considerăm că modelele instruite pe MNLI, inclusiv BERT, un model de ultimă generație, au performanțe foarte slabe pe HANS, sugerând că au adoptat într-adevăr aceste euristice. Concluzionăm că există spațiu substanțial de îmbunătățire în sistemele NLI și că setul de date HANS poate motiva și măsura progresul în acest domeniu.Abstract
Система машинного обучения может хорошо оценивать заданный набор тестов, полагаясь на эвристики, которые эффективны для часто встречающихся типов примеров, но ломаются в более сложных случаях. Мы изучаем этот вопрос в рамках естественного языкового вывода (NLI), задача определения того, влечет ли за собой одно предложение другое. Мы предполагаем, что статистические модели NLI могут принимать три ошибочные синтаксические эвристики: лексическую перекрывающуюся эвристику, эвристику подпоследовательности и составляющую эвристику. Чтобы определить, приняли ли модели эти эвристики, мы вводим управляемый набор оценки под названием HANS (эвристический анализ для систем NLI), который содержит много примеров, когда эвристика терпит неудачу. Мы обнаружили, что модели, обученные на MNLI, включая BERT, современную модель, работают очень плохо на ГАНСА, предполагая, что они действительно приняли эти эвристики. Мы пришли к выводу о том, что существуют значительные возможности для совершенствования систем NLI и что набор данных HANS может стимулировать и измерять прогресс в этой области.Abstract
මැෂින් ඉගෙන ගන්න පද්ධතියක් හොඳට ප්රමාණයක් තියෙන්න පුළුවන් හෙයුරිස්ටික් වලට ප්රයෝජනය කරනවා ඒ වගේම හෙයුරිස අපි මේ ප්රශ්නයක් ස්වාභාවික භාෂාව අනුප්රශ්නය (NLI) වලින් අධ්යානය කරනවා, එක වාක්ෂාවෙන් ව අපි හිතන්නේ ස්ථානික NLI මොඩේල් තුන්දෙන්න පුළුවන් වෙන්න පුළුවන්: ලෙක්සිකාල් හෙයුරිස්ටික්, පස්සේ හෙයුරිස්ටික්, හෙයුරිස් මොඩේල් එකේ හෙයුරිස්ටික්ස් එක්ක ගත්තේ නැද්ද කියලා තියෙන්න, අපි HANS (NLI පද්ධතියේ හෙයුරිස්ටික් විශ්ලේෂණය) කියලා පාලනය කරලා අපි හොයාගත්තා මොඩේල් එක්ක MNLI එක්ක, BERT එක්ක, ස්ථානයේ ඉන්න ප්රමාණයක්, HANS එක්ක ගොඩක් නරක වැඩ කරන්න, ඔවුන් ඇත්තටම මේ හෙයුරිස් අපි අවස්ථාවෙන්නේ NLI පද්ධතියේ වැඩි කරන්න වැඩි කාමරයක් තියෙනවා කියලා, ඒ වගේම HANS දත්ත සූදානයේ මේ ප්රධානයේ ප්Abstract
Sistem strojnega učenja lahko na določenem testnem naboru dobro oceni, saj se zanaša na heuristiko, ki je učinkovita za pogoste vrste primerov, vendar se razgradi v bolj zahtevnih primerih. To vprašanje preučujemo v sklepanju naravnega jezika (NLI), naloga ugotavljanja, ali en stavek vključuje drugega. Predpostavljamo hipotezo, da lahko statistični modeli NLI sprejmejo tri napaljive sintaktične heuristike: leksikalno heuristiko prekrivanja, podsekvenčno heuristiko in sestavno heuristiko. Za ugotovitev, ali so modeli sprejeli te heuristike, uvajamo nadzorovano vrednotenje HANS (Heuristic Analysis for NLI Systems), ki vsebuje številne primere, kjer heuristika ne uspe. Ugotavljamo, da modeli, usposobljeni za MNLI, vključno z BERT, najsodobnejšim modelom, delujejo zelo slabo na HANS, kar kaže, da so dejansko sprejeli te heuristike. Sklepamo, da je mogoče v sistemih NLI precej izboljšati in da lahko nabor podatkov HANS motivira in meri napredek na tem področju.Abstract
A machine learning system can score well on a given test set by relying on heuristics that are effective for frequent example types but break down in more challenging cases. Waxaannu arintan ka baranaynaa dhibaatada afka dabiiciga ah (NLI), shaqada aan go'aanno in uu ku qoro mid kale. Waxaynu ka fekernaa in muuqashada statisticada NLI ay qaadan karto saddex syntactic oo burbursan: lexical overlap heuristic, dugaagta Heuristic, iyo xuquuqda Heuristic. Si aan u ogaano in tilmaamahan loo qaaday iyo in kale, waxaynu soo bandhignaynaa halka qiimeynta la xiriiray ee la yidhaahdo HANS (Heuristic Analys for NLI systems), kaas oo ku jira tusaalo badan oo ay ka baaqan karto heuristic. Waxaynu helnaa qaababka lagu baray MNLI, kuwaas oo ah BERT, qaab xaalad farshaxan ah, oo aad u baahan HANS, oo ku jeedinaya in ay horay u qaateen sanadkan. Waxaynu ku dhamaynaynaa in horumarinta nidaamka NLI ay leedahay qol muhiim ah, iyo in danbiyada HANS uu horumariyo iyo qiyaasi karo horumarinta meeshan.Abstract
Një sistem mësimi i makinave mund të shënojë mirë në një set të dhënë testi duke u mbështetur në heuristikë që janë efektive për tipe shembullore të shpeshta por shpërblehen në raste më të vështira. Ne studiojmë këtë çështje brenda inferencës natyrore të gjuhës (NLI), detyrën e përcaktimit nëse një fjalim përfshin një tjetër. Ne hipotezojmë se modelet statistike të NLI mund të miratojnë tre heuristikë sintaktike të gabueshme: heuristikën e mbishtypjes lexike, heuristikën e pasojë dhe heuristikën përbërëse. Për të përcaktuar nëse modelet kanë miratuar këto heuristikë, ne futim një sistem vlerësimi të kontrolluar të quajtur HANS (Analizë Heuristike për Sistemet NLI), i cili përmban shumë shembuj ku heuristikët dështojnë. Ne zbulojmë se modelet e trajnuar në MNLI, duke përfshirë BERT, një model më i avancuar, funksionojnë shumë keq në HANS, duke sugjeruar se kanë miratuar me të vërtetë këto heuristikë. We conclude that there is substantial room for improvement in NLI systems, and that the HANS dataset can motivate and measure progress in this area.Abstract
Sistem učenja mašine može dobro rezultirati na određenom testu, oslanjajući se na heuristiku koji su efikasni za česte primjere, ali razbiti se u više izazovnih slučajeva. Proučavamo ovaj problem u prirodnoj infekciji jezika (NLI), zadatak odlučivanja da li jedna rečenica uključuje drugu rečenicu. Pretpostavljamo da statistički modeli NLI mogu usvojiti tri propadajuće sintaktičke heuristike: leksički preklapanje heurističkog, sekvenčnog heurističkog i sastavnog heurističkog. Da bi utvrdili da li su modeli usvojili ovu heuristiku, predstavljamo kontroliranu procjenu koja se zove HANS (Heuristička analiza NLI sistema), koja sadrži mnoge primjere u kojima heuristika ne uspije. Nalazimo da modeli obučeni na MNLI, uključujući BERT, model umjetnosti, vrlo loše izvode na HANS-u, sugerirajući da su zaista usvojili ovu heuristiku. Zaključili smo da postoji značajna prostora za poboljšanje u NLI-ovim sistemima i da HANS dataset može motivirati i mjeriti napredak u ovoj oblasti.Abstract
Ett maskininlärningssystem kan göra bra poäng på en given testuppsättning genom att förlita sig på heuristik som är effektiv för frekventa exempeltyper men bryter ner i mer utmanande fall. Vi studerar denna fråga inom naturlig språkinferens (NLI), uppgiften att avgöra om en mening innebär en annan. Vi hypoteser att statistiska NLI-modeller kan anta tre felbara syntaktiska heuristiker: den lexikala överlappningen heuristik, den subsecventa heuristiken och den konstituerande heuristiken. För att avgöra om modellerna har antagit denna heuristik introducerar vi en kontrollerad utvärderingssats kallad HANS (Heuristic Analysis for NLI Systems), som innehåller många exempel där heuristiken misslyckas. Vi finner att modeller utbildade på MNLI, inklusive BERT, en toppmodern modell, presterar mycket dåligt på HANS, vilket tyder på att de verkligen har antagit denna heuristik. Vi drar slutsatsen att det finns betydande utrymme för förbättringar i NLI-systemen och att HANS-datauppsättningen kan motivera och mäta framsteg inom detta område.Abstract
Mfumo wa kujifunza mashine unaweza kuchukua vizuri kwenye jaribio lililopewa kwa kutegemea takwimu ambazo zinaweza kuwa na ufanisi wa a in a nyingi lakini huvunjika katika matukio ya changamoto zaidi. Tunafundisha suala hili ndani ya maambukizi ya lugha ya asili (NLI), jukumu la kuamua kama hukumu moja inahitaji mwingine. Tunapata imani kwamba mifano ya takwimu ya NLI inaweza kuchukua viungo vitatu vinavyoharibika: heuristi ya heuristi ya lexico, kipindi kinachotokana na heuristi, na viungo vikuu. Ili kuamua kama mifano imechukua utafiti huu, tunaanzisha kituo kinachodhibitiwa kinachoitwa HANS (Uchambuzi wa Heuristic kwa Mfumo wa NLI), ambacho kina mifano mingi ambapo viungo vinavyoshindwa. Tunapata mifano iliyoelekezwa kwenye MNLI, ikiwa ni pamoja na BERT, mtindo wa hali ya sanaa, unafanya vibaya sana kwenye HANS, ikipendekeza kwamba wametumia vizuri hivi. Tunahitimisha kuwa kuna chumba kikubwa cha kuboresha katika mifumo ya NLI, na kwamba seti ya data ya HANS inaweza kuhamasisha na kupima maendeleo katika eneo hili.Abstract
ஒரு இயந்திரம் கற்றல் அமைப்பு கொடுக்கப்பட்ட சோதனையின் அமைப்பில் நன்றாக மதிப்பெண்ணை முடியும். அது வெகு உதாரணத்திற்கு பயனுள்ளது, ஆனால நாம் இந்த பிரச்சனையை இயற்கையான மொழி பாதிப்பில் படிக்கிறோம், ஒரு வாக்கு மற்றொரு வாக்கில் உள்ளதா என்று தீர புள்ளிவிவரமான NLI மாதிரிகள் மூன்று வீழ்க்கும் ஒத்திசைவு ஹூரிசிக்ஸ்களை எடுத்துக் கொள்ளலாம் என்று நாம் நினைக்கிறோம். லெக்சிக்சியல் ம மாதிரிகள் இவற்றை உயர்த்தியதா என்று தீர்மானிக்க, HANS (NLI முறைமைகளுக்கான ஹியூரிஸ்டிக் ஆராய்ச்சி அமைப்புகள் என்ற ஒரு கட்டுப்படுத்தப்பட்ட மதிப MNLI மீது பயிற்சி மாதிரிகளை நாம் கண்டுபிடிக்கிறோம், BERT, ஒரு நிலை கலை மாதிரி மாதிரி, HANS மீது மிகவும் குறைவாக செய்யும், அவர்கள் உண்மைய NLI முறைமைகளில் மேம்படுத்தலுக்கு மிக முக்கியமான அறை உள்ளது என்று நாம் முடிவு செய்கிறோம். இந்த புலத்தில் HANS தகவல் அமைப்பு மAbstract
Otomatik öwrenme sistemi has juwistiklere güýçli diýip berilen testinde has gowy अंश berip biler, ýöne köplenç örnekler üçin etkinleşen, ýöne has kynçylyklaryň içine daşyryp biler. Biz bu meseleni tebigy dil alçaklarynda (NLI) öwrenýärdik, sözleriň başga bir sözleriň daşarylygyny tanamagyň göresi. Biz istatistik NLI modelleri üç düşen sintaktik heuristik üçin kabul edebiliriz. - Bu heuristikler kabul edilen nusgalary bejermek üçin, biz HANS (Heuristik Analizi NLI Sistemleri üçin) kontrol edilen çözümleme setirini tapdyrys. Bu nusgalaryň birnäçe mysal bardyr. MILI'de okuwçy nusgalary tapdyk, BERT'da ýagtylyk nusgasy bar, HANS'da gaty ýaman bir nusgasy bardyr we bu heuristikleri hakykatdanam üýtgedilýändiklerini maslahat berýärler. Biz NLI sistemalarda gelişmeler üçin esasy ýer bar we HANS veri setiriniň bu ýerdeki ýokary ýagdaýyny çykaryp biljekdigini we çözgüliniň önsümi bar.Abstract
ایک ماشین یادگیری سیسٹم بہت اچھی طرح کا امتحان کرسکتا ہے جو ہوریستیک پر بھروسہ کرتی ہے جو بہت سی مثال کے لئے اثر ہے لیکن بہت مشکل کیسیوں میں ٹکڑے ٹکڑے ہوتے ہیں. ہم اس مسئلہ کو طبیعی زبان کے کفار (NLI) میں پڑھتے ہیں، ایک جماعت دوسرے کے ساتھ کیا ہے؟ ہم فرض کرتے ہیں کہ انٹیسٹیکل نیلی موڈل تین گرنے والی سینٹکتیک ہوریسٹیکس کو قبول کرسکتے ہیں: لکسیکل اوورلیپ ہوریسٹیکس، سپس کائنس ہوریسٹیکس، اور سٹیسٹیٹ ہوریسٹیکس. یہ مثال معلوم کرنے کے لئے ہے کہ آیا مدلکوں نے ان ہوریستیکوں کو قبول کیا ہے، ہم نے ایک کنٹرولٹی ارزیابی مجموعہ کو معلوم کرلیا ہے جن کا نام HANS (NLI سیستموں کے لئے ہوریستیک تحلیل) ہے، جس میں بہت سی مثالیں ہیں جہاں ہوریست ہم دیکھتے ہیں کہ MNLI پر آموزش کئے ہوئے موڈل، BERT کے شامل، آرت کی موڈل، HANS پر بہت کم کام کرتے ہیں، اور یہ معلوم کرتے ہیں کہ انہوں نے یقیناً ان ہوریستیک کو قبول کیا ہے. ہم نے تصمیم لیا ہے کہ NLI سیستموں میں بہترین ترکیب کے لئے بہت بڑی جگہ ہے اور یہ کہ HANS ڈیٹ سٹ اس منطقه میں پیشرفت کا موثر اور اندازہ کرسکتا ہے.Abstract
Name Biz bu muammolarni aslida tilning muammolari (NLI) ichida o'rganamiz, bir so'zni boshqa so'zga ega bo'lishi vazifasini o'rganamiz. Biz hypothetika qilamiz, statistik NLI modellari uchta qo'llangan syntactik heuristik qo'llanishi mumkin: leksikal heuritik, keyingi heuristik, va quyidagi heuristik. Uslublar bu heuristika ishlatilganligini aniqlash uchun biz HANS (NLI tizimlari uchun heuristik Analysis) deb nomlangan narsalarni ko'p misollar mavjud. Biz MNLI'da o'rganilgan modellar, BERT'ning holat modeli, HANS'da juda juda ko'p bajarish mumkin. Bu hamma heyriklarni o'rganishni anglatadi. Biz murakkab qilamiz, NLI tizimlarida o'zgarishning muhim xonali mavjud, va HANS maʼlumot tizimi bu yerda davomida muvaffaqiyatlarni bajarishi va bajarishi mumkin.Abstract
Một hệ thống học máy có thể ghi điểm tốt trên một thử nghiệm đã được đặt dựa vào thần kinh có hiệu quả cho các kiểu ví dụ thường xuyên nhưng bị chia cắt trong các trường hợp khó khăn hơn. Chúng tôi nghiên cứu vấn đề này trong ngụ ý ngôn ngữ tự nhiên (NLl), nhiệm vụ xác định xem câu này có liên quan đến câu khác hay không. Chúng tôi giả định rằng các mô hình thống kê Nli có thể sử dụng ba đế chế cú pháp sai sót: từ tính chồng chéo thần kinh, thần kinh theo Hậu, và thần kinh định. Để xác định xem các mô- đun đã sử dụng thần kinh này, chúng tôi giới thiệu một bộ đánh giá được kiểm soát được gọi là HANNS (Analysis thức thức sống của NLI Systems), which chứa nhiều ví dụ nơi thần kinh thất bại. Chúng tôi thấy những mô hình được huấn luyện trên MX, bao gồm cả BERT, một mô hình thời trang siêu đẳng, thực sự rất kém với HANNS, cho thấy rằng họ thực sự đã sử dụng thần kinh này. Chúng tôi kết luận rằng có rất nhiều chỗ để cải thiện hệ thống NLI, và rằng bộ dữ liệu HAS có thể thúc đẩy và đo lường tiến trình trong lĩnh vực này.Abstract
机器学统可因启发式以给定试集上得良分,启发式法有效于频示例,而溃于更具挑战性下会。 吾于自然语言理(NLI)中究之,即定一句之任。 设计 NLI 三易句法启发式:词法重叠启发式、子序启发式、成启发式。 为此启发式法,引入 HANS(NLI 统之启发式析)之受控评集,多含启发式败之示例。 臣等伏见MNLI之范,至于先进之BERT,甚劣于HANS,明其诚用此启发式也。 臣等所论,NLI统有大改,HANS数集可以激扬此域。- Anthology ID:
- P19-1334
- Volume:
- Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics
- Month:
- July
- Year:
- 2019
- Address:
- Florence, Italy
- Venue:
- ACL
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 3428–3448
- Language:
- URL:
- https://aclanthology.org/P19-1334
- DOI:
- 10.18653/v1/P19-1334
- Bibkey:
- Cite (ACL):
- Tom McCoy, Ellie Pavlick, and Tal Linzen. 2019. Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3428–3448, Florence, Italy. Association for Computational Linguistics.
- Cite (Informal):
- Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference (McCoy et al., ACL 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/P19-1334.pdf
- Video:
- https://vimeo.com/384776891
- Code
- tommccoy1/hans + additional community code
- Data
- SNLI
- Terminologies:
Export citation
@inproceedings{mccoy-etal-2019-right, title = "Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference", author = "McCoy, Tom and Pavlick, Ellie and Linzen, Tal", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1334", doi = "10.18653/v1/P19-1334", pages = "3428--3448", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="mccoy-etal-2019-right"> <titleInfo> <title>Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference</title> </titleInfo> <name type="personal"> <namePart type="given">Tom</namePart> <namePart type="family">McCoy</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Ellie</namePart> <namePart type="family">Pavlick</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Tal</namePart> <namePart type="family">Linzen</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-07</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Florence, Italy</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">mccoy-etal-2019-right</identifier> <identifier type="doi">10.18653/v1/P19-1334</identifier> <location> <url>https://aclanthology.org/P19-1334</url> </location> <part> <date>2019-07</date> <extent unit="page"> <start>3428</start> <end>3448</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference %A McCoy, Tom %A Pavlick, Ellie %A Linzen, Tal %S Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics %D 2019 %8 July %I Association for Computational Linguistics %C Florence, Italy %F mccoy-etal-2019-right %R 10.18653/v1/P19-1334 %U https://aclanthology.org/P19-1334 %U https://doi.org/10.18653/v1/P19-1334 %P 3428-3448
Markdown (Informal)
[Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference](https://aclanthology.org/P19-1334) (McCoy et al., ACL 2019)
- Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference (McCoy et al., ACL 2019)
ACL
- Tom McCoy, Ellie Pavlick, and Tal Linzen. 2019. Right for the Wrong Reasons : Diagnosing Syntactic Heuristics in Natural Language Inference. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3428–3448, Florence, Italy. Association for Computational Linguistics.