1. Надежная оптимизация инструкций для больших языковых моделей со сдвигами распределения (arXiv)

Автор: Моксин Ли, Вэньцзе Ван, Фули Фэн, Цжичжи Чжан, Тат-Сэн Чуа.

Аннотация: Большие языковые модели продемонстрировали значительную способность выполнять широкий спектр задач обработки естественного языка (NLP). Однако их производительность очень чувствительна даже к незначительным изменениям в формулировках инструкций к задачам, что привело к направлению исследований по оптимизации автоматических инструкций для повышения производительности задач НЛП. К сожалению, существующие методы оптимизации инструкций не учитывают сдвиг распределения между видимыми обучающими данными и невидимыми тестовыми данными, где тестирование на невидимой группе данных с другим распределением потенциально может привести к падению производительности. В этой статье мы делаем первый шаг к исследованию проблемы оптимизации инструкций LLM по группам данных со сдвигами распределения. Мы обнаружили, что оптимальные инструкции сталкиваются с падением производительности на LLM при определенных сдвигах распределения. С этой целью мы предлагаем структуру для получения более надежных оптимальных инструкций, которые улучшают производительность для невидимой группы данных без больших потерь для видимой группы данных. Экспериментальные результаты демонстрируют эффективность предложенной нами структуры.

2. Прогнозирование с неполными данными при сдвиге распределения независимой маски (arXiv)

Автор: Ичэнь Чжу, Цзянь Юань, Бо Цзян, Тао Линь, Хаймин Цзинь, Синьбин Ван, Чэнху Чжоу.

Аннотация: данные с пропущенными значениями повсеместно используются во многих приложениях. В последние годы наблюдается повышенное внимание к прогнозированию с использованием только неполных данных, состоящих из наблюдаемых признаков и маски, указывающей на отсутствующую закономерность. Существующие методы предполагают, что распределения обучения и тестирования одинаковы, что может быть нарушено в реальных сценариях. В данной работе мы рассматриваем прогнозирование с неполными данными при наличии сдвига распределения. Мы сосредоточимся на случае, когда лежащее в основе совместное распределение полных признаков и меток является инвариантным, но отсутствующий шаблон, то есть распределение маски, может независимо смещаться между обучением и тестированием. Чтобы достичь обобщения, мы используем наблюдение, что для каждой маски существует инвариантный оптимальный предиктор. Чтобы избежать экспоненциального взрыва при их отдельном изучении, мы совместно аппроксимируем оптимальные предикторы, используя метод двойной параметризации. Это имеет нежелательный побочный эффект, позволяя обученным предикторам полагаться на корреляцию внутри маски и корреляцию между признаками и маской. Мы выполняем декорреляцию, чтобы минимизировать этот эффект. Объединив описанные выше методы, мы предлагаем новый метод прогнозирования под названием StableMiss. Обширные эксперименты как с синтетическими, так и с реальными наборами данных показывают, что StableMiss надежен и превосходит современные методы при независимом смещении распределения маски.