Узнал новый для себя...

Posted on Thu 09 December 2021 • Tagged with from_telegram, in_russian

Узнал новый для себя концепт - multisource weak supervision. Точнее, красивое название в новинку, а сама идея старая: вместо качественной, но дорогой разметки руками нафигачим эвристик, которые сколько-то похожи на правду.

Эвристики и другие источники слабой разметки могут быть разными - lambda text: 'enlarge your' in text, какие-нибудь регэксы, результаты внешних моделей и так далее, отсюда и multisource. Потому после применения всех внешних supervision источников нужно сделать их сколько-то согласованными, для чего, оказывается, есть уже довольно много инструментов. Среди модных хипстерских замечен Snorkel (активно рекламируемый в курсe Стeнфорда), в опенсорсе есть свежак с NeurIPS 2021 (слайды на тему).

Вообще weak supervision - отлично работающий инструмент. Например, есть миллион фотографий, нужно удалить размытые. Самый простой способ: разметить эвристикой с лаплассианом, а потом на этой разметке обучить простой классификатор. Изначальная эвристика работает не очень хорошо сама по себе - например, размытая фотография клетчатой рубашки будет иметь высокую дисперсию лаплассиана, а неразмытая фотография стены - низкую. Но обученный классификатор сильно снизит этот уровень шума.

source