Prace dyplomowe

Tematy prac magisterskich:

1) “Badanie możliwości zrównoleglania algorytmów uczenia maszynowego opartych na mnożeniu macierzy (lm, glm, SVM).”

Magistrant: Jakub Kopka

Literatura do tematu mgr:

  1. Batiz-Benet, Juan, et al. „Parallelizing machine learning algorithms.” Proceedings of the 24th ACM Symposium on Parallelism in Algorithms and Architectures, Pittsburgh, PA, USA. 2012
  2. Meng, Xiangrui, et al. „Mllib: Machine learning in apache spark.” The Journal of Machine Learning Research 17.1 (2016): 1235-1241
  3. Charles Determan Jr., “A Short Introduction to the gpuR Package”
  4. Navdeep Gill, Erin LeDell, Yuan Tang, “H2O4GPU: Machine Learning with GPUs in R”
  5. Mahmoud Parsian, „Data Algorithms. Recipes for Scaling Up with Hadoop and Spark”, O’Reilly Media, July 2015 – rozdział 27 Linear Regression

2)  „Badanie zożliwości zrównoleglania algorytmów opartych o analizę przeżycia (survival analysis).”

Magistrant: Sebastian Radyński-Figlarz

Analiza przeżycia na początku służyła do określenia przeżycia pacjenta, czyli ile dni/miesięcy przeżyje pacjent, który ma daną chorobę (np. praca mgr http://www.biecek.pl/PASIK/uploads/AleksandraUrbaniec.pdf ).

Obecnie analizę przeżycia stosuje się m.in w biznesie do określania czasu do odejścia pracowników na podstawie ich cech (np. stanowisko, staż pracy, wykształcenie, zarobki, itp.) jak również zastosowanie bonusów pracowniczych (np. czy istnieje statystycznie istotna różnica w odchodzeniu osób, które dostały telefon/samochód służbowy a między tymi, które nie dostały. Jednym z obiecujących algorytmów do badania możliwości zrównoleglenia są surwiwalowe lasy losowe. Możliwe wykorzystanie różnych technologii i metod zrównoleglania: H2O, Spark, Hadoop, Tensorflow, AWS EC2 i inne.

Literatura do tematu mgr:

  1. Mitchell, Lawrence. „A parallel random forest implementation for R.” Technical report, EPCC (2011)  – zrównoleglenie algorytmu lasów losowych w R na CPU
  2. Liao, Yisheng, et al. „Learning random forests on the GPU.” New York University, Department of Computer Science (2013) – zrównoleglenie algorytmu lasów losowych na karcie graficznej
  3. Mogensen, Ulla B., Hemant Ishwaran, and Thomas A. Gerds. „Evaluating random forests for survival analysis using prediction error curves.” Journal of statistical software 50.11 (2012) – użycie lasów losowych w analizie przeżycia
  4. Ishwaran, Hemant, and Min Lu. „Random survival forests.” Wiley StatsRef: Statistics Reference Online (2008) – opis pakietu R używającego lasy losowe do analizy przeżycia
  5. Mahmoud Parsian, „Data Algorithms. Recipes for Scaling Up with Hadoop and Spark”, O’Reilly Media, July 2015 – rozdział 19 Cox Regression – zawiera opis analizy przeżycia przy pomocy regresji Coxa i proporcjonalnych hazardów. Na stronie 438 jest podany sposób zrównoleglenia analizy przeżycia przy pomocy technologii MapReduce opartej o platformę Apache Hadoop.

3) “Wykorzystanie metod redukcji wymiarowości do usprawnienia klasyfikacji krótkich tekstów na przykładzie zadania podpowiadania piktogramów emoji w wiadomościach publikowanych w serwisie społecznościowym Twitter.”

Praca pod kierunkiem naukowym dr. inż. Piotra Przybyły z IPI PAN.

Magistrant: Mateusz Hałada

Tematyka pracy bazuje na zbiorze danych z zeszłorocznego workshopu SemEval: http://www.aclweb.org/anthology/S18-1003 Zadanie polega na odgadnięciu, który z 20 znaczków emoji został dodany to tweetu na podstawie jego treści – czyli klasyfikacja. Problem w tym, że tweety są trudne do klasyfikacji ze względu na długość tekstu, która powoduje ekstremalną rzadkość macierzy danych. Zbiór danych jest duży (500000 wiadomości) i umożliwia przetestowanie metody redukcji wymiarowości jak np. normalizacja słów (stemming itp.), LDA, SVD, word2vec i inne. Będzie to wymagało pracy z API Twittera, zasobami lingwistycznymi i wybranym pakietem ML (np. R ale niekoniecznie).

4) “Zastosowanie technik głębokiego uczenia maszynowego do przewidywania cytowań w tekście artykułów naukowych.”

Praca pod kierunkiem naukowym dr. inż. Piotra Przybyły z IPI PAN.

Magistrant: Mateusz Grzela

Temat obejmuje eksperymenty z rekurencyjnymi metodami deep learning, takimi jak LSTM. Choć teoria jest dość zaawansowana, to połączenie Keras i TensorFlow, do których można znaleźć mnóstwo manuali w sieci, powinno umożliwić bezproblemowe eksperymenty z poziomu Pythona. Dane można pozyskać np. z bazy PubMed central (https://www.ncbi.nlm.nih.gov/pmc/),  która zawiera tysiące artykułów open access w formacie XML (ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package), gdzie każde cytowanie jest specjalnie oznaczone. Taki model może być np. zastosowany do podpowiadania miejsc w pisanym artykule, które wymagają wsparcia cytatem.

5) “Rozpoznawanie kształtów przy zastosowaniu uczenia maszynowego i lokalnych wzorców binarnych.”

Magistrant: Przemysław Sałęga

Celem pracy jest implementacja algorytmu, który na podstawie zdjęć lub ilustracji będzie w stanie poprawnie rozpoznać znajdujące się na nich obiekty. Będzie to wymagało zastosowania algorytmu uczenia maszynowego w połączeniu operatorami lokalnych wzorców binarnych.

6) “Samouczący się skrypt do zarządzania uprawnieniami IAM w AWS.”

Magistrant: Grzegorz Urych

Zakres pracy magisterskiej:

  • wykrywanie anomalii na podstawie CloudTrail / VPC Flow Log
  • budowanie zachowań użytkownika i wykrywanie anomalii
  • stopniowanie anomalii
  • stosowne zachowanie się w danych anomaliach – przykłady:
    • powiadomienie z użyciem SNS
    • odcięcie użytkownika od dostępu do części środowiska
    • redukcja uprawnień na koncie AWS

7) “Zrównoleganie obliczeń uczenia maszynowego w chmurze AWS”

Magistrant: —————–

Zakres pracy magisterskiej: AWS posiada wiele usług związanych z ML:
https://aws.amazon.com/machine-learning/
Tu można by było przeprowadzić szereg badań związanych zarówno z wydajności tych algorytmów, skalowalnością, optymalizacją parametrów i optymalizacją kosztów. Zwłaszcza koszty można by było powiązać z opłacalnością dla firmy (On-Premise vs Cloud).

8) “Budowa zautomatyzowanego stosu do analizy danych”

Magistrant: —————–

Zakres pracy magisterskiej: Budowa zautomatyzowanego stosu do analizy danych, który jest wysoko skalowalny, np. opartego o Kubernetes czy podobne technologie:
https://www.agilestacks.com/products/machine-learning
Temat jest trochę związany z zrównoleglaniem obliczeń, ale jest tu położony nacisk na pełną automatyzacje i skalowalność procesu.