Pražáci si pojistili vítězství

26. června 2014
Hlavní výhru v soutěži Purchase Prediction Challenge si za brilantní datovou analýzu odnesl tým Pražáci. Při zpracování zadaného problému členové týmu uplatnili vědomosti získané na MFF UK. Předběhli 1 500 dalších účastníků a za první místo obdrželi odměnu ve výši 25 000 USD.

Hlavní výhru v soutěži Purchase Prediction Challenge si za brilantní datovou analýzu odnesl tým Pražáci. Při zpracování zadaného problému členové týmu uplatnili vědomosti získané na MFF UK. Předběhli 1 500 dalších účastníků a za první místo obdrželi odměnu ve výši 25 000 USD.

Soutěž, jejímž zadáním bylo sestavit parametry pojištění automobilu tak, aby co nejvíce odpovídaly požadavkům zákazníka, uveřejnila americká pojišťovací společnost Allstate na webu Kaggle.com. Kaggle je velmi populární platforma zabývající se datovou analýzou, kterou provádí prostřednictvím takzvaného crowdsourcingu. Její členové se analýze dat věnují profesionálně i ze zájmu. Platformu v minulosti využily společnosti Microsoft, Facebook nebo NASA.

Nejúspěšnějším řešitelem vypsané soutěže Purchase Prediction Challenge se stal tým Pražáci ve složení Mgr. Jiří Materna (MFF UK), Bc. Lukáš Drápal, MSc., (MFF UK), Ing. Jana Papoušková (ČVUT), Ing. Nomindalai Naranbaatar (Univerzita Pardubice) a Ing. Emil Škultéty (ČVUT). Všichni členové jsou zároveň zaměstnanci společnosti CGI, která jim umožnila řešit zadaný úkol částečně v pracovní době. Celé zadání si můžete prohlédnout zde

Soutěž a řešení zadaného problému za celý tým přiblížil Lukáš Drápal. Řešili jste úlohu tohoto typu poprvé, nebo jste se podobných soutěží účastnili již v minulosti?

Vedoucí našeho týmu, absolvent MFF UK Jiří Materna, je mezi soutěžícími na Kagglu „mazákem“. Má za sebou více než 20 soutěží a Purchase Prediction Challenge není první, ve které se umístil na předních místech. Pro nás ostatní to byla první soutěž tohoto druhu. Pustili jsme se do ní s vervou, spoustu se toho naučili a první místo bylo krásným bonusem.

Dokážete odhadnout, kolik času vám zabralo řešení zadaného problému?

Odhaduji, že v průměru každý člen týmu řešení problému věnoval asi 150 hodin, tj. dohromady jsme problému věnovali 750 hodin. Množství odvedené práce bylo jedním klíčem k úspěchu, bez ní bychom nedokázali vytvořit dostatečně sofistikované řešení.

Jak byste popsal zadaný problém laikovi?

Allstate, jedna z předních amerických pojišťoven, chce nabízet pojistky na automobily s parametry, které jsou šité na míru zákazníkovi. Proto dala k dispozici anonymizovaná data s údaji o zákaznících spolu s informacemi o tom, jaké varianty pojistky na jejich webové stránce zvažovali a jakou si také nakonec koupili. Naším úkolem bylo na základě údajů o zákazníkovi i prvních zvažovaných variant předpovědět, jakou si nakonec vybere. Cílem je co nejrychleji navrhnout zákazníkovi variantu pojištění, kterou potřebuje.

Která dílčí část úkolu byla pro tým nejobtížnější?

V soutěži byla použita velmi přísná skórovací metrika (systém hodnocení zaslaného řešení). Proto jsme delší dobu přešlapovali na místě. Pak nás ovšem napadlo, na čem založit optimální strategii, a v důsledku pak stála přísnost skórovací metriky na naší straně a pomohla nám k vítězství.

Vytvořili jste pro Allstate finální řešení, nebo ho bude společnost ještě dále modifikovat?

Aby mohly první tři týmy získat výhru, musí odevzdat podrobný popis svého finálního řešení. Allstate pak zkombinuje poznatky a metody z těchto tří řešení.

Postačí podle vás tato analýza tzv. velkých dat k uspokojení potřeb zákazníků pojišťovny?

Myslím, že konkrétně v tomto případě aplikace „big data“ poznatků zákazníkovi jen prospěla. Přinese to zrychlení a zjednodušení nákupního procesu. Obecněji řečeno, velká data mohou hodně dobrého přinést. Asi každému z nás volal někdy telefonní operátor s nerelevantní nabídkou. Díky analýze velkých dat stačí zavolat jen jednou, a to s opravdu dobrou nabídkou. Týká se to i uživatelů předplacených karet, o kterých operátor nemá žádné údaje. Sami jsme si vyzkoušeli, že z určitých parametrů telefonních hovorů není problém odhadnout věk či pohlaví.

Nebo jiný příklad. Snažíte se zaplatit platební kartou, nemáte ovšem dostatek peněz na účtu. Do dvou minut vám přijde SMS zpráva s nabídkou rychlého úvěru. Banka si ještě před tím stihla propočítat, že jej budete schopni splácet. Někomu může vadit, že je mu takto nahlíženo do soukromí. V pozadí je ale jen chytrý algoritmus. Na anonymizaci dat se klade velký důraz.

Chystáte se podobných soutěží účastnit i v budoucnu?

Ano, je to skvělý způsob, jak se leccos naučit a mnohé si vyzkoušet. Navíc jsme se v týmu shodli, že je to svým způsobem návykové. Všem zájemcům doporučuji, ať soutěže zveřejňované na serveru Kaggle zkusí.

K rozhovoru s Lukášem Drápalem vedoucí týmu Jiří Materna dodal, že účast v soutěži byla přínosná také proto, že problematika výborně ladila s celkovým zaměřením týmu v rámci firmy. To se orientuje na prediktivní analytiku a velká data. Tyto nové obory se někdy souhrnně označují jako datová věda (data science). Kromě poměření sil se špičkovými odborníky v této oblasti se díky sdílení znalostí naučili mnoho nového. Dále uvedl, že soutěžní řešení zadané úlohy v rámci platformy Kaggle účastníky motivuje výrazně lépe, než řešení suchých teoretických úloh.

- OMK -