Заключительный пост про NeurIPS...

Posted on Mon 27 December 2021 • Tagged with from_telegram, in_russian

Заключительный пост про NeurIPS 2021, с бору по сосенке.

Для тех, кто любит менять оптимизаторы на что-то поновее после каждой конференции - SuperAdam (передаю привет @hushpar).

Unadversarial Examples: Designing Objects for Robust Vision представляет концепцию unadversarial текстур, патчей и объектов, условно “как надо раскрашивать объекты в реальном мире, чтобы CV лучше их распознавало в разных условиях”. Своего рода антипод adversarial patches - наклеек, которые позволяют совершать adversarial атаки на физических объектах.

AugMax: Adversarial Composition of Random Augmentations for Robust Training - подход к CV аугментациям, который обеспечивает б__о__льшую устойчивость к изменению распределения. Авторы вводят разделение для аугментаций - для повышения сложности (например, adversarial атаки) и для улучшения разнообразия (например, вращения), и проектируют такой вид аугментаций, который сможет сочетать оба преимущества.

Adaptive Denoising via GainTuning тоже про устойчивость к distribution shift, на этот раз для задачи денойзинга. Для каждого тестового изображения предлагается выучивать дополнительный параметр gain, который используется для масштабирования весов основной сети.

Узнал новую для себя концепцию адаптеров для языковых (и не только) моделей из статьи Adaptive Fine-tuning for Vision and Language Pre-trained Models (саму статью не могу нагуглить, вот постер). Идея в том, чтобы добавлять внутрь крупных блоков (в данном случае - трансформер-блоков в VisualBERT) небольшие блоки-адаптеры, которые и будут дообучаться под будущие задачи. Сведущие в NLP люди рассказали, что идея не очень нова ), но в последнее время набирает популярность (см. например). Уже планирую прикрутить к computer vision задаче!

В speech recognition я не понимаю практически ничего, но Unsupervised Speech Recognition понравилась инженерным подходом к проблеме: не изобретая ничего особенно нового, авторы из готовых кусков собрали фреймворк для распознавания речи на неразмеченных данных (и тексты, и аудио).

Конечно, было немало статей про GANы, но я, как дилетант, обратил внимание только на т.н. StyleGAN 3 - Alias-Free Generative Adversarial Networks, авторы анализировали и успешно решили проблему т.н. texture sticking - артефакта, заметного при интерполяции в латентном пространстве и потому не позволяющего генерировать правдоподобные видео и анимации. Отдельно процитирую “This entire project consumed 92 GPU years” - это больше GPU-времени, чем я потратил за всю карьеру. 😱

Дискуссировали с коллегами про самое заметное название статьи, шорт-лист составили:

  • Vector-valued Gaussian Processes on Riemannian Manifolds via Gauge Independent Projected Kernels 🤓
  • A Gang of Adversarial Bandits 🦹
  • You Never Cluster Alone 💔

Наконец, каким-то чертом меня занесло на туториал по NLP для редких языков, где ребята из Африки рассказывали, как им сложно учить языковые модели из-за отсутствия больших качественных датасетов. Но ничего нового не узнал, TL;DR - авторы рекомендуют использовать претрейны с более популярных языков, аугментации, шумную разметку эвристиками, multi-task learning, но все эти трюки все равно резко теряет ценность, как только появляется достаточное количество качественно размеченных данных (вот это поворот, конечно).

source