1. Изследване на статично подрязване на редки невронни ретривъри (arXiv)

Автор: Карлос Ласанс, Симон Лупарт, Ерве Дежан, Стефан Клинчан, Никола Тонелото

Резюме: Разредените невронни ретривъри, като DeepImpact, uniCOIL и SPLADE, бяха въведени наскоро като ефикасен и ефективен начин за извършване на извличане с обърнати индекси. Те имат за цел да научат важността на термина и в някои случаи разширяването на документа, за да осигурят по-ефективно класиране на документи в сравнение с традиционните модели за извличане на думи като BM25. Въпреки това е доказано, че тези редки невронни ретривъри увеличават изчислителните разходи и латентността на обработката на заявки в сравнение с техните класически аналози. За да смекчим това, ние прилагаме добре познато семейство от техники за повишаване на ефективността на обработката на заявки върху обърнати индекси: статично съкращаване. Ние експериментираме с три статични стратегии за съкращаване, а именно съкращаване, ориентирано към документи, ориентирано към термини и агностично съкращаване, и оценяваме, върху различни набори от данни, че тези техники все още работят с редки невронни ретривъри. По-специално, статичното подрязване постига 2x ускоряване с незначителна загуба на ефективност (≤2% спад) и, в зависимост от случая на употреба, дори 4x ускоряване с минимално въздействие върху ефективността (≤8% спад). Освен това, ние показваме, че невронните прекласатори са стабилни за кандидати от статично съкратени индекси

2. Може ли замразен предварително обучен езиков модел да се използва за нулево невронно извличане на въпроси, ориентирани към обекта? (arXiv)

Автор : Yasuto Hoshi, Daisuke Miyashita, Yasuhiro Morioka, Youyang Ng, Osamu Torii, Jun Deguchi

Резюме: Невронните ретривъри за документи, включително извличане на плътни пасажи (DPR), превъзхождат класическите ретривъри за лексикално съвпадение, като BM25, когато са фино настроени и тествани върху специфични набори от данни, отговарящи на въпроси. Въпреки това беше показано, че съществуващите плътни ретривъри не обобщават добре не само извън домейн, но дори и в домейн като Wikipedia, особено когато наименуван обект във въпрос е доминираща следа за извличане. В тази статия ние предлагаме подход към обобщаване в домейна, използвайки вгражданията, генерирани от замразения езиков модел, обучен с обектите в домейна. Като не прецизираме, ние изследваме възможността богатите знания, съдържащи се в предварително обучен езиков модел, да могат да се използват за задачи за извличане. Предложеният метод превъзхожда конвенционалните DPR на въпроси, ориентирани към обекти в домейна на Wikipedia, и постига почти сравнима производителност с BM25 и най-съвременния SPAR модел. Ние също така показваме, че контекстуализираните ключове водят до силни подобрения в сравнение с BM25, когато имената на обектите се състоят от общи думи. Нашите резултати демонстрират осъществимостта на метода за извличане с нулев изстрел за въпроси, ориентирани към обекти на домейн на Wikipedia, където DPR има затруднения да се представи.