Продолжим про NeurIPS 2021....

Posted on Fri 24 December 2021 • Tagged with from_telegram, in_russian

Продолжим про NeurIPS 2021. Как и обещал, сегодня про дистилляцию, self-supervision, metric learning.

Does Knowledge Distillation Really Work? задается вопросом, что не так с дистилляцией. Почему студент не всегда может дойти до уровня учителя в процессе дистилляции? Это проблема архитектуры, размера сети, домена, задачи, датасета? Авторы приходят к выводу, что корень всех зол именно в оптимизации.

Analyzing the Confidentiality of Undistillable Teachers in Knowledge Distillation - статья про nasty teachers и skeptical students. Если вы делаете какой-нибудь ML as a service, вы наверняка хотите, чтобы его было сложнее дистиллировать, для этого и нужны недистиллируемые модели. Авторы предлагают добавить новый лосс для учителя, чтобы усложнить его дистилляцию, а потом предлагают лосс для студентов, который позволяет лучше извлекать данные даже из такого учителя.

Provable Guarantees for Self-Supervised Deep Learning with Spectral Contrastive Loss тоже ставит занятный теоретический вопрос: почему вообще self-supervised обучение с contrastive лоссом позволяет выучить линейно разделяемые классы? Для ответа на вопрос авторы вводят идею augmentation graph on data, анализируют его довольно неочевидными методами (пришлось гуглить Eckart–Young–Mirsky theorem!) и в конце предлагают свой лосс. Стабильно побеждают SimCLR (используя значительно меньший батч!) и BYOL, но до SimSiam пока не дотягиваются.

Hard Negative Mixing for Contrastive Learning - вообще это статья с предыдущего NeurIPS, но я наткнулся на нее только в этом году; она была упомянута на туториале по self-supervised обучению. Семплинг важен для contrastive обучения, иначе задача становится слишком простой и модель недообучается (отсюда необходимость в большом батче для моделей типа SimCLR - это позволяет найти сложные негативные примеры). В этой статье авторы предлагают синтезировать негативные примеры прямо в feature space, что слегка улучшает качество на downstream задачах.

One Loss for All: Deep Hashing with a Single Cosine Similarity based Learning Objective - снова статья про волшебный лосс, который должен решить все проблемы, на этот раз для получения хороших deep hash, т.е. таких хэшей, по которым можно не только определять дубликаты, но и измерять близость между объектами. Авторы переформулировали расстояние Хэмминга через косинусное, что и позволяет избавиться от популярной для этой задачи комбинации нескольких лоссов.

Bag of Tricks and A Strong baseline for Image Copy Detection - набор трюков, использованных для одного из NeurIPS соревнований по определению похожих изображений. Главный трюк - “растягивание” дескрипторов за пределы традиционной для задачи единичной гиперсферы.

Partial success in closing the gap between human and machine vision - анализ того, насколько современные CV модели неустойчивы к изменению тестового распределения (например, применению аугментаций, изменению текстуры и так далее) в сравнении с людьми. До человеческого уровня еще далеко, но в среднем “продвинутые” модели (дистиллированные, self-supervised, adversarially trained, трансформеры) более устойчивы, чем “обычные” CNN. Тут можно снова вспомнить про inductive bias - это словосочетание, кажется, сейчас популярно.

В следующем (и последнем) посте про NeurIPS 2021 - небольшое ассорти из разных тем, от новых оптимизаторов до забавных названий статей.

source