Продолжу пересказывать некоторые странные...

Posted on Mon 13 December 2021 • Tagged with from_telegram, in_russian

Продолжу пересказывать некоторые странные факты, услышанные на NeurIPS 2021.

Наверняка вы все знаете Imagenet как датасет, на котором меряются качеством image classification. Некоторые из вас также слышали про Imagenet 1k и Imagenet 21k: первый содержит тысячу классов и около 1.5 изображений, именно его обычно используют в качестве бенчмарка, а второй - 21+k классов и почти 15М изображений. И, предположу, еще меньшая доля читателей знает, что именно за классы там используются.

Более или менее известен факт, что структура классов Imagenet 1k не очень отражает распределение из реального мира: например, там есть CD-player, диплодок и 120 пород собак; есть и сильно схожие классы (например, red wine и wine bottle). Но список классов Imagenet 21k может удивить еще сильнее: там есть такие неожиданные классы, как филантроп, вегетарианец, расист и атеист.

Полный разбор на тему нескольких тысяч неподходящих (non-imageable, offensive, sensitive) классов можно прочитать в этой статье. Некоторым читателям часть изложенного может показаться левацкой придурью, но сложность отрицать бесполезность обучения на невизуализируемых лейблах типа orphan или rheumatologist.

source