Наука и футбол: как „големите данни“ променят завинаги любимата на милиони игра
„Big Data“ навлязоха в съвременния футбол навсякъде и го променят както никога досега. Фиксиране на движенията, прогнози и изкуствен интелект – числата все повече и по-надълбоко „нахлуват“ в любимата на милиони игра и откриват нова ера в нейното развитие.
Световният шампионат в Катар под егидата на FIFA започна и учените сигурно ще демонстрират своите умения, помагайки на футболните треньори да подобрят представянето на играчите и тактиката.
На 16 октомври навъсеното лице на Кристиано Роналдо стана основната спортна новина в световните медии: в мача на Манчестър Юнайтед срещу Нюкасъл португалската суперзвезда беше сменен почти 20 минути преди последния съдийски сигнал. Роналдо не е сам в своето недоволство: не всеки играч е готов да се съгласи с решението на треньора да напусне за смяна в полза на по-свеж съотборник.
По време на Световното първенство в Катар играчите ще имат повече поводи да се борят за титулярното си място на терена. От началото до последния съдийски сигнал организаторите на турнира ще изпращат за всеки играч подробен анализ на качеството на играта му. Голмайсторите ще могат да покажат колко пъти са направили скоростно ускорение и са останали без внимание. Защитниците ще имат данни за това колко пъти са създавали проблеми на противниковите играчи и колко често са пресичали топката.
Числата продължават да нахлуват все повече в любимата игра. Анализът на данни вече е включен във всичко – от трансферите и интензивността на тренировките до това как футболистите се справят с опонентите си и спазват препоръките за най-добрата посока на пасовете от всяка точка на терена.
Изучаването на данните, свързани с футболистите, е по-щателно в своята прецизност от обучението на астронавтите. Разнообразие от “елечета” и ленти улавят движението, проследяват позицията с помощта на GPS и броят ударите и пасовете с всеки крак. Камери, поставени под много различни ъгли “виждат” всичко – от спечелените противоборства до времето, през което играчът задържа топката. За да се възползват от тази информация, повечето високобюджетни клубове наемат анализатори на данни, включително математици, статистици и физици, от компании и лаборатории като Microsoft и CERN.
Констатациите на анализаторите променят играта: нападателите стрелят по-малко от далечни разстояния, фланговите полузащитници подават повече, отколкото центрират, а треньорите променят тактиката, така че отборът им да притежава най-дълго топката. Всичко това са тактически промени, зад които стои обективна информация, притекла се на помощ на интуицията на треньорите.
„Големите данни поставиха началото на нова ера във футбола”, казва Даниел Мемерт, спортен специалист във Висшето училище за физическо възпитание и спорт в Кьолн. „Те промениха философията и поведението на отборите, процеса на изучаване на противника и начинът, по който се откриват таланти и се търсят нови играчи.”
Внимателна подготовка
Един от най-ярките примери за това как големите данни са променили спорта може да се открие в една друга игра. В книгата си от 2003 г.“ Moneyball“ (екранизирана в едноименния филм през 2011 г. с участието на Брат Пит и Джона Хил ), авторът Майкъл Люис описва подробно как треньорът на Oakland Athletics Били Бийн през 2002 г. изгражда печеливш бейзболен отбор, базирайки се на личните статистики на всеки от играчите, използвайки много ограничен бюджет. Бийн е съпоставял играчите въз основа на подробни данни за ефективността, включително показатели, които преди това не са били считани за важни, като например колко често батерът (удрящия с бейсболната бухалка) достига до базата.
Бийн е имал предимство пред тези, които се опитват да повторят този фокус във футбола.
„Футболът е много по-сложен от бейзбола“, казва Мемерт.
В бейзбола само единият отбор може да отбележи точка за един опит. Освен това в този спорт в продължение на десетилетия са се събирали и изучавали мащабно статистически данни. От друга страна футболът е игра с постоянно променящи се ситуации и малък брой точки (голове), в която отборите трябва постоянно да се борят за „територия“. Поради това е много по-трудно да се разбере кой и с какви действия влияе върху резултата. От десетилетия футболните статистици се фокусират върху отбелязаните и допуснати голове и се опитват да ги моделират, за да правят прогнози.
Вариации на този метод и досега се използват за прогнозиране на резултатите от мачовете. Математически модел, предполагащ, че отбелязаните и допуснати голове са разпределени около една осреднена стойност, разработен от експерти в Оксфорд, правилно е прогнозирал победата на Италия над Англия на Европейското първенство през 2020 г. Освен това с негова помощ учените са успели предварително да назоват шест от осемте четвъртфиналисти на турнира.
Такъв успех не е необичаен. Според докторанта от Оксфорд Матю Пен, който е разработил модела за Евро 2020, прогнозите, базирани на статистика, са по-точни, отколкото много хора си мислят.
“Всеки отбор има силни страни в атака и защита. Те се определят въз основа на общия брой отбелязани голове от всеки отбор и относителната сложност на техните опоненти,” казва той. „Използвайки и решавайки голям брой уравнения за тези двата компонента, прогнозирането на резултатите от мачовете става доста по-лесно.“
Според модела на Пен най-големи шансове да вдигнат купата на световното първенство в Катар имат белгийците, следвани от Бразилия и Франция.
В предотвратяване и избягване на проблемите
Още по-интересна информация за треньорите са събитията, които се случват на терена, и как този или онзи играч им влияе.
Футболните анализатори отдавна събират подобни данни. Един от първите успехи в тази област e бил постигнат от бившия счетоводител в Кралските ВВС на Великобритания на име Чарлз Рип. През 50-те години на миналия век той e прекарал по-голямата част от времето си, гледайки мачове в Англия и събирайки данни за такива фактори като позиция на терена и последователност на подаванията. Рип е използвал получената информацията за да анализира представянето на отборите и е предлагал промени в стратегията и тактиката. В „Уулвърхемптън Уондърърс“ той е помогнал за въвеждането на по-директен и по-остър стил на игра, който не включвал напречни пасове. За пет години отборът три пъти е станал национален шампион.
Модерните технологии правят толкова лесно придобиването и анализирането на такива данни, че повечето от водещите клубове и много национални отбори още преди повече от десетилетие започнаха да наемат съответните специалисти. И говорим за далеч не най-елитните отбори. В допълнение към подготовката за своята докторска степен, Пен работи на непълен работен ден като анализатор на данни за полупрофесионалния клуб „Оксфорд Сити“ в Националната лига Юг, шесто ниво от системата на английската футболна лига.
Много анализатори приписват част от сегашния успех на Брентфорд в Английската висша лига на собствения алгоритъм на клуба, който оценява играчите в различните лиги и помага за привличането на подценени звезди. Екипът за обработка на данните към футболния клуб Ливърпул, който включва физици, по-рано работили в CERN и Университета в Кеймбридж, са разработили модел, който може да прецени дали действията на играча на терена увеличават вероятността от гол. А спортни учени от Университета в Лисабон, в партньорство с испанската Барселона, публикуваха анализ миналата година за това колко дълго се запазват възможностите за различни видове пасове в един и същи мач.
„Мисля, че най-полезното нещо, което правим в „Оксфорд Сити“, са докладите преди мачовете“, казва Пен. „Изучаваме характеристиките на играчите от другия отбор и след това правим няколко графики, показващи как играят и как се движат те, когато владеят топката. След това аз предлагам някои тактически съвети или промени.”
Преди неотдавнашен мач срещу непобеден до тогава отбор, анализът на Пен показал, че левият бек има лош резултат при удари с глава. “Така че предложих нашият висок нападател да играе отдясно,” Оксфорд е спечелил този мач.
За опитен скаут този вид информация е достъпна с просто око. Но според Пен „данните са по-малко предубедени, отколкото личното мнение“.
Няма нужда клубовете сами да генерират изходната информация за такъв вид тактически анализ. Те могат да закупят информация от търговски компании, които кодират видеозаписи от мачове, за да уловят случващото се на терена в приблизително 3000 игрови събития, включително дрибъли, подавания и борби. Първоначално такива данни са се записвали ръчно, но сега това се прави с помощта на технология, базирана на изкуствен интелект, наречена машинно зрение. Това често е придружено от обобщена статистика за такива показатели като броя на пасовете, които всеки играч е направил.
По-рано тази година Джоана Маркс, студентка по математика в Университета на Уоруик, си е партнирала с Пен в „Оксфорд Сити“, в разработването на модел, позволяващ използването на тези необработени данни за оценка на качеството на подаванията на всички играчи в лигата, тоест подробен анализ, който обикновено не е наличен в отчетите предоставяни от търговските компании.
„Трябва да отчетете какви пасове се опитват те да направят. Не можете просто да вземете коефициент за успешно завършване, тъй като някои пасове са много по-трудни от други“, обяснява Маркс. „ Моделът помага отборът да се подготви, тъй като ако вие предварително знаете, че противниковият отбор осъществява много добре пасове от някоя част на футболното поле и така вече знаете от какво да се предпазете.“
Рави Раминени е работил като анализатор на данни в Microsoft, а през 2012 година се преместил на подобна позиция в местния клуб от американската Мейджър Лийг Сокър (MLS) „Сиатъл Саундърс“. Една от първите му задачи била да използва GPS данни, за да получи информация за разстоянието, което изминават футболистите. Това било необходимо за оптимизиране на тренировките и подготвителните занятия.
„Събирайки тези данни, можем да направим изводи дали днешната тренировка е била твърде дълга или, обратно, кратка. Това се прави в опит да се предотвратят травмите.“
Проработило ли е това?
„Имахме няколко страхотни сезона, използвайки тези методи. Но не знам. Най-трудното нещо за количествено определяне е дали травмата е избегната“, казва той.
Липсата на увереност повдига въпроси относно ролята на данните за спортния успех като цяло: липсва контролен експеримент, който да тества ефективността на методите. Въпреки това, според Раминени, треньорите в Сиатъл са били отворени към неговия анализ, както по време на тренировките, така и по-късно, когато са оценявали силните страни на играчите.
“Беше ми позволено да общувам с треньорите и дори можех да говоря директно с играчите”, казва той. “В другите клубове обаче е по-различно. Понякога треньорът дори не се среща със специалиста по анализи.”
Зад кадър
Днес анализаторите обръщат все повече внимание какво се случва с играчите, които не владеят топката.
„Във футболните анализи винаги казват „за нас е важно да знаем какво прави играчът без топката“, казва Раминени.
Това е по-трудно и скъпо, тъй като изисква специални камери, които проследяват не само главните събития на терена, но и наблюдават играчите, които не са пряко замесени, а също така фиксират местоположението им около 25 пъти в секунда. По думите на Раминени компаниите, които предоставят такава технология, обикновено имат ексклузивни договори с националните първенства, което затруднява достъпа за външни лица.
„Ако бях скаут, търсещ чуждестранен играч от Южна Америка или Европа за MLS, аз нямаше да знам статистиката за играта му без топка“, казва той.
През последните години се появи още по-мощна техника, използваща изкуствен интелект, който прогнозира движенията на играчите въз основа на записаните мачове, дори ако те не са заснети от камери. Доставчиците на данни могат да използват записите от предаваните мачове навсякъде по света (достъпни без ограничения), за да осигурят изчерпателна представа за играчите с и без топка.
Един такъв модел е разработен от фирмата за изкуствен интелект DeepMind в сътрудничество с отдела за данни на футболния клуб Ливърпул.
“По този начин можете да започнете да си задавате въпроси относно тактиката или да изказвате хипотези“, обяснява ръководителят на изследователския отдел на Ливърпул, Иън Греъм, който е напуснал постдокторската си позиция по полимерна физика в Кембриджския университета, за да работи във футболната статистика.
“За всеки даден епизод от мач можете да създадете хиляди различни симулации на това, което би могло да се случи на негово място. По този начин можете да направите изводи за това колко добре е преминала атаката в даден период от играта”, казва той.
Отделите за данни като правило не са склонни да споделят подробности за това какво правят и колко добре това работи, така че публикуването на тази статия не е било приятно за Ливърпул, но това е било едно от условията за сътрудничество с компанията за ИИ DeepMind.
„Ливърпул разполага с един от най-големите и напреднали отдели за анализи във футбола, но ние нямаме достатъчно ресурси, за да разработим вътрешно тези модели“, казва Греъм. Той е сигурен, че никой друг клуб не може да си позволи това самостоятелно.
Подобно на други анализатори на данни, Греъм не иска да си приписва прекалено важна роля за успеха на отбора на футболния терен.
“Футболът е много разнообразна игра, така че отборите често губят и печелят, когато не би трябвало”, казва той. „ Случвало се е, че лошите резултати ни облекчават работата, тъй като често анализът показва, че отборът е играл добре. И ако продължат да играят добре, то ще спечелят очаквания брой мачове през сезона“.
Компютърният учен от DeepMind Карл Туайлс казва, че моделирането на движение извън кадър е първата стъпка към създаването на базиран на ИИ виртуален помощник треньор, който да използва данни в реално време, за да взема решения както във футбола, така и в други спортове.
„Представете си, че ИИ гледа резултатите от първото полувреме и предлага промяна в състава, за да постигне отборът повече“, обяснява той.
Тази методика може да бъде полезна не само на футболното поле, но и за моделиране на траекторията на самоуправляващи се автомобили и пешеходци на оживена градска улица, смята Туайлс.
Какво следва? Както всички добри учени, експертите, занимаващи се с футболна статистика, настояват, че изследванията трябва да продължат. Бившият специалист на Microsoft Сара Ръд, която е напуснала лондонския Арсенал миналата година след почти десетилетие работа върху анализите за клуба, няма търпение да получи достатъчно телеметричните данни от представянето състезателен автомобил от Формула 1, за да помогне на екипите по поддръжка да настроят и подобрят представянето му.
„Разглеждаме Формула 1 и смятаме, че би било страхотно да получим такива данни”, казва тя. „ Във футбола все още има много аспекти, които не се измерват или ако се измерват, то ние не знаем как да извлечем полезната информация от тях“.
Следващата стъпка напред могат да бъдат данните за ориентацията на играча в пространството и даже как играчът премества тялото си по време на игра.
„Технологиите все още не са достигнали необходимото ниво на детайлизация, от което се нуждаем”, каза Ръд. „Все още не улавяме едва забележимия тънък финт или изместването на центъра на тежестта, което играчът използва, за да дебалансира опонента, или вземането на малка пауза за да се залъже вратаря на противника.”
Дори базираните на ИИ анализи на Ливърпул могат да бъдат “объркващи” от непълното познаване на позицията на играча.
„Моделът може да покаже, че играчът е направил нещо неправилно, тъй като в определен момент той е трябвало да стартира да бяга, но не го е направил“, обяснява Греъм. „А той може просто да се е спънал и да лежи на тревата.”
Съвременният футбол буквално „потъва“ в данни. Как числата промениха играта?
„Мисля, че най-голямата полза от технологията е по отношение на избора на играчи“, казва Раминени.“ Друга област е стратегията за изпълнение на стандартни положения“.
От анализа на данните може да се направи едно много ясно заключение: няма нужда да удряте от прекалено голямо разстояние.
„Ако погледнете на което и да първенство по света, преди десет години играчите удряха от много по-голямо разстояние“, обяснява Раминени.“ След това аналитиците на данни се възмущаваха „Защо биете отдалеч. Шансът за гол е само 2%.“
В много отбори на играчите вече се препоръчва да не правят дълги пасове в наказателното поле, добавя той. Статистиката показва, че повечето от тях са безсмислени.
„Обемът на генерираните данни продължава да расте, което означава, че възможностите за работа ще се увеличават. Мисля, че анализите на данни са проникнали в спорта навсякъде и вече няма връщане назад“, резюмира той.