Еще недавно сложно было...

Posted on Wed 02 February 2022 • Tagged with from_telegram, in_russian

Еще недавно сложно было представить, что я буду постить ссылки на разработки Сбера, но с моей колокольни кажется, что в русскоязычном ML-коммьюнити по влиянию сейчас их опережает только Яндекс, причем разрыв стремительно сокращается. Так вот, я хотел обратить внимание уважаемых читателей на pytorch-lifestream - библиотеку для создания ембеддингов для из последовательностей евентов.

Я сам этой библиотекой не пользовался и в ближайшее время не планирую, мои задачи все больше из другого домена. Но концептуально подход мне кажется очень правильным. Более того, в последнее время я все больше верю, что почти весь прикладной ML сведется к сочетанию относительно сложного representation learning и простых моделей (линейных, kNN, cosine similarity) поверх этих representations. Это в свою очередь приведет к масштабируемому разделению обязанностей: core ML команда будет пилить те самые волшебные representations, а инженеры в продуктовых командах будут учить регрессию на этих фичах.

Мои вера основана на таких наблюдениях:

1) self-supervised и contrastive методы начали прилично работать в разных доменах и модальностях, в т.ч. мультимодально (самый популярный пример - CLIP); 2) архитектуры в разных задачах все больше сближаются (см. восхищение трансформерами в твиттере Карпатого) 3) деплоить и поддерживать такие модели становится проще, чем “классический” ML (всякие бустинги и ручные фичи).

source