Machine Learning based analysis of users’ online behaviour

Events and activities of daily life are increasingly often taking place in the online space, including, for example, the purchase of durable goods and education. Both of these areas, shopping and learning, which until a few years ago existed almost exclusively in the traditional offline format, have...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerző: Kőrösi Gábor
További közreműködők: Farkas Richard (Témavezető)
Dokumentumtípus: Disszertáció
Megjelent: 2022-10-27
Kulcsszavak:idősor, deep learning, time-series, neural network
Tárgyszavak:
doi:10.14232/phd.11194

mtmt:34133981
Online Access:http://doktori.ek.szte.hu/11194
Leíró adatok
Tartalmi kivonat:Events and activities of daily life are increasingly often taking place in the online space, including, for example, the purchase of durable goods and education. Both of these areas, shopping and learning, which until a few years ago existed almost exclusively in the traditional offline format, have changed significantly. This change poses new challenges for professionals working in these fields, as most of the methods and methodologies used to date have become completely obsolete and unworkable in the online space. This is particularly true of the expertise of offline shop assistants or the role of teachers in brick-and-mortar educational facilities, roles which were once indispensable, but have now become outdated. The disappearance of these roles has not gone unnoticed, given that many online businesses are struggling with dwindling customer numbers and decreasing effectiveness of online learning systems (such as Massive Open Online Courses - MOOCs) with effectiveness at barely 25-30%. While it is undeniable that the online presence has created considerable challenges for business and education managers, it has also opened up new opportunities that can be exploited, notably by involving data science professionals. The topic of this idissertation is the development of different Machine Learning methods for webshop and MOOC applications based on log data analysis. What all applications have in common is the creation of aggregated databases, socalled user profiles, using log data of different widths and depths, which are used for classification, regression or even clustering. For more than fifteen years now there has been active research on the analysis of user log data. Initially, research and development were carried out in isolation on small databases in research teams or on closed internal databases in companies. In recent years, as online business and online educational interfaces have become more common, the number of real business applications and the amount and depth of data generated by each application have increased. Therefore, the previously traditional feature extraction and Machine Learning methods have been replaced by Deep Learning methods, which can provide high-quality solutions for large amounts of data, even starting from low-level data.
Mind a vásárlásról és a tanulásról is elmondható, hogy néhány évvel ezelőtt, még szinte teljesen kizárólag a hagyományos offline formátumban zajlottak, addig ez mára jelentősen megváltozott. Ez a változás új kihívások elé állítja a területen dolgozó szakembereket, hiszen a legtöbb hagyományos módszer és módszertanok nagy része teljesen elavulttá és működésképtelenné vált az online térben. Ezek a szerepekörök eltűnése azonban nem maradt észrevétlen, mivel számos online vállalkozás küzd a csökkenő ügyfélszámmal, és az online tanulási rendszerek is csupán gyenge hatékonysággal képesek működni. Bár tagadhatatlan, hogy az online jelenlét jelentős kihívásokat teremtett az üzleti és oktatási vezetők számára, ugyanakkor új lehetőségeket is megnyitott. A különböző online platformok rengeteg naplóadattal rendelkeznek, mely teret biztosít az adattudományi szakemberek bevonására, akik kepések gépi tanuláson alapuló online felhasználói viselkedés elemzése. Az elemzések egyik legfontosabb eszköze maguk log adatokat, melyek többfélék lehetnek. Ez a kutatási terület nem újkeletű, hiszen a felhasználói naplóadatok elemzésével kapcsolatban már több, mint tizenöt éve folyik aktív kutatás. A szakirodalmi áttekintése alapján megállapítható, hogy az egyik leggyakoribb megoldás az, amelyben magas-középszintű naplóadatok felhasználásával aggregált adatbázisokat, úgynevezett felhasználói profilokat hoznak létre. Ezeket később osztályozásra, regresszióra vagy akár klaszterezésre használják fel. S bár a kutatások régóta folynak, ám az utóbbi időben a felhasznált módszerek valamelyest megváltoztak. Még kezdetben a kutatás legnagyobb hányada kumulált, előfeldolgozott adatokkal dolgozott, mára új technológiai megoldások kerültek előtérbe. E fejlődésnek köszönhetően a korábban hagyományos jellemzők kinyeréseit és a gépi tanulási módszereket mára felváltották a Deep Learning-en alapuló megoldások. Ezek egyik nagy ígérete, hogy a nagy mennyiségű adatra is képesek magas minőségű megoldásokat nyújtani, és kepések akár nyers alacsony szintű adatokból kiindulva is dolgozni. A disszertáció összesen 7 fejezetet tartalmaz, amelyek a fent említett megközelítéseket felhasználó különálló tanulmányokból állnak. Az első két fejezetben a szerző bemutatja a naplóadatok gyűjtésének és előkészítésének speciális kihívásait a magas szintű naplóadatbázisokon. Továbbá bemutatja az előjelzési megoldásainak eredményeit egy valós magyar webshop adatbázisán. Emellett betekintést enged a Szegedi Tudományegyetem két tanszékének együttműködéseként kifejlesztett és elindított "Tudatos és biztonságos internethasználat" (TÉBIA) című MOOC kurzusán végzett kísérleteibe.