Tematy prac magisterskich:
1) “Badanie możliwości zrównoleglania algorytmów uczenia maszynowego opartych na mnożeniu macierzy (lm, glm, SVM).”
Magistrant: Jakub Kopka
Literatura do tematu mgr:
- Batiz-Benet, Juan, et al. „Parallelizing machine learning algorithms.” Proceedings of the 24th ACM Symposium on Parallelism in Algorithms and Architectures, Pittsburgh, PA, USA. 2012
- Meng, Xiangrui, et al. „Mllib: Machine learning in apache spark.” The Journal of Machine Learning Research 17.1 (2016): 1235-1241
- Charles Determan Jr., “A Short Introduction to the gpuR Package”
- Navdeep Gill, Erin LeDell, Yuan Tang, “H2O4GPU: Machine Learning with GPUs in R”
- Mahmoud Parsian, „Data Algorithms. Recipes for Scaling Up with Hadoop and Spark”, O’Reilly Media, July 2015 – rozdział 27 Linear Regression
2) „Badanie zożliwości zrównoleglania algorytmów opartych o analizę przeżycia (survival analysis).”
Magistrant: Sebastian Radyński-Figlarz
Analiza przeżycia na początku służyła do określenia przeżycia pacjenta, czyli ile dni/miesięcy przeżyje pacjent, który ma daną chorobę (np. praca mgr http://www.biecek.pl/PASIK/uploads/AleksandraUrbaniec.pdf ).
Obecnie analizę przeżycia stosuje się m.in w biznesie do określania czasu do odejścia pracowników na podstawie ich cech (np. stanowisko, staż pracy, wykształcenie, zarobki, itp.) jak również zastosowanie bonusów pracowniczych (np. czy istnieje statystycznie istotna różnica w odchodzeniu osób, które dostały telefon/samochód służbowy a między tymi, które nie dostały. Jednym z obiecujących algorytmów do badania możliwości zrównoleglenia są surwiwalowe lasy losowe. Możliwe wykorzystanie różnych technologii i metod zrównoleglania: H2O, Spark, Hadoop, Tensorflow, AWS EC2 i inne.
Literatura do tematu mgr:
- Mitchell, Lawrence. „A parallel random forest implementation for R.” Technical report, EPCC (2011) – zrównoleglenie algorytmu lasów losowych w R na CPU
- Liao, Yisheng, et al. „Learning random forests on the GPU.” New York University, Department of Computer Science (2013) – zrównoleglenie algorytmu lasów losowych na karcie graficznej
- Mogensen, Ulla B., Hemant Ishwaran, and Thomas A. Gerds. „Evaluating random forests for survival analysis using prediction error curves.” Journal of statistical software 50.11 (2012) – użycie lasów losowych w analizie przeżycia
- Ishwaran, Hemant, and Min Lu. „Random survival forests.” Wiley StatsRef: Statistics Reference Online (2008) – opis pakietu R używającego lasy losowe do analizy przeżycia
- Mahmoud Parsian, „Data Algorithms. Recipes for Scaling Up with Hadoop and Spark”, O’Reilly Media, July 2015 – rozdział 19 Cox Regression – zawiera opis analizy przeżycia przy pomocy regresji Coxa i proporcjonalnych hazardów. Na stronie 438 jest podany sposób zrównoleglenia analizy przeżycia przy pomocy technologii MapReduce opartej o platformę Apache Hadoop.
3) “Wykorzystanie metod redukcji wymiarowości do usprawnienia klasyfikacji krótkich tekstów na przykładzie zadania podpowiadania piktogramów emoji w wiadomościach publikowanych w serwisie społecznościowym Twitter.”
Praca pod kierunkiem naukowym dr. inż. Piotra Przybyły z IPI PAN.
Magistrant: Mateusz Hałada
Tematyka pracy bazuje na zbiorze danych z zeszłorocznego workshopu SemEval: http://www.aclweb.org/anthology/S18-1003 Zadanie polega na odgadnięciu, który z 20 znaczków emoji został dodany to tweetu na podstawie jego treści – czyli klasyfikacja. Problem w tym, że tweety są trudne do klasyfikacji ze względu na długość tekstu, która powoduje ekstremalną rzadkość macierzy danych. Zbiór danych jest duży (500000 wiadomości) i umożliwia przetestowanie metody redukcji wymiarowości jak np. normalizacja słów (stemming itp.), LDA, SVD, word2vec i inne. Będzie to wymagało pracy z API Twittera, zasobami lingwistycznymi i wybranym pakietem ML (np. R ale niekoniecznie).
4) “Zastosowanie technik głębokiego uczenia maszynowego do przewidywania cytowań w tekście artykułów naukowych.”
Praca pod kierunkiem naukowym dr. inż. Piotra Przybyły z IPI PAN.
Magistrant: Mateusz Grzela
Temat obejmuje eksperymenty z rekurencyjnymi metodami deep learning, takimi jak LSTM. Choć teoria jest dość zaawansowana, to połączenie Keras i TensorFlow, do których można znaleźć mnóstwo manuali w sieci, powinno umożliwić bezproblemowe eksperymenty z poziomu Pythona. Dane można pozyskać np. z bazy PubMed central (https://www.ncbi.nlm.nih.gov/pmc/), która zawiera tysiące artykułów open access w formacie XML (ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package), gdzie każde cytowanie jest specjalnie oznaczone. Taki model może być np. zastosowany do podpowiadania miejsc w pisanym artykule, które wymagają wsparcia cytatem.
5) “Rozpoznawanie kształtów przy zastosowaniu uczenia maszynowego i lokalnych wzorców binarnych.”
Magistrant: Przemysław Sałęga
Celem pracy jest implementacja algorytmu, który na podstawie zdjęć lub ilustracji będzie w stanie poprawnie rozpoznać znajdujące się na nich obiekty. Będzie to wymagało zastosowania algorytmu uczenia maszynowego w połączeniu operatorami lokalnych wzorców binarnych.
6) “Samouczący się skrypt do zarządzania uprawnieniami IAM w AWS.”
Magistrant: Grzegorz Urych
Zakres pracy magisterskiej:
- wykrywanie anomalii na podstawie CloudTrail / VPC Flow Log
- budowanie zachowań użytkownika i wykrywanie anomalii
- stopniowanie anomalii
- stosowne zachowanie się w danych anomaliach – przykłady:
- powiadomienie z użyciem SNS
- odcięcie użytkownika od dostępu do części środowiska
- redukcja uprawnień na koncie AWS
7) “Zrównoleganie obliczeń uczenia maszynowego w chmurze AWS”
Magistrant: —————–
Zakres pracy magisterskiej: AWS posiada wiele usług związanych z ML:
https://aws.amazon.com/machine-learning/
Tu można by było przeprowadzić szereg badań związanych zarówno z wydajności tych algorytmów, skalowalnością, optymalizacją parametrów i optymalizacją kosztów. Zwłaszcza koszty można by było powiązać z opłacalnością dla firmy (On-Premise vs Cloud).
8) “Budowa zautomatyzowanego stosu do analizy danych”
Magistrant: —————–
Zakres pracy magisterskiej: Budowa zautomatyzowanego stosu do analizy danych, który jest wysoko skalowalny, np. opartego o Kubernetes czy podobne technologie:
https://www.agilestacks.com/products/machine-learning
Temat jest trochę związany z zrównoleglaniem obliczeń, ale jest tu położony nacisk na pełną automatyzacje i skalowalność procesu.