Как изследователите учат алгоритмите да определят аромати
Изследователите от Google обучават графови невронни мрежи (GNN) да разпознават как ще мирише молекула по нейната структура. Първите резултати са успешни и обнадеждаващи.
В Google си имат собствен парфюм и той е разработен от изследователски екип на компанията. Ароматът е създаван под ръководството на опитни френски парфюмери и представлява букет от ухания, такива като ванилия, жасмин, пъпеш и дива ягода. „ Получи се съвсем не лошо” –казва Алекс Вилтшко, който държи флакон от този парфюм в кухнята си.
В Google засега не планират да рекламират получилия се аромат, но като цяло сериозно се интересуват от самото понятие миризма. Наскоро изследователи от Google Brain публикуваха научната си работа за това как са научили няколко алгоритъма, използващи машинно обучение, да определят миризма на молекули по тяхната структура. Ще донесе ли това същата полза като съставянето на карти? Най-вероятно – не. Но за изследванията в областта на ароматите работата на Google може да помогне да се намерят отговори на доста стари и сериозни въпроси.
Науката за обонянието силно изостава в сравнение с много други области. Например, човечеството е разбрало природата на светлината преди няколко века. През 17 век Исак Нютон е използвал призми, които са разграждали бялата светлина на познатите ни цветове на дъгата. Следващите изследвания показали, че ние възприемаме различните цветове, защото това са вълни с различна дължина. Заглеждайки се в палитрата от цветове, на вас всичко ви е ясно. Но за миризмите не съществува такава палитра.
Ако вълните с различна дължина са базовите компоненти на светлината, то миризмите се състоят от молекули. Когато молекулите попаднат в носа, те взаимодействат с рецепторите, които подават сигнали в малка област на мозъка с името обонятелна луковица. И тогава ние си мислим „ О-о-о това са пуканки”. Учените могат да изучат дължината на вълната и да определят какъв ще бъде цвета, но с молекулите и миризмите това е невъзможно да се направи.
Въобще е доказано, че е изключително сложно да се определи миризмата на молекулата по нейната химическа структура. Премахвайки само един атом или една връзка, „ароматът на роза може да се превърне в миризма на развалени яйца”, обяснява Вилтшко, ръководител на изследователския проект в Google.
Вече е имало няколко опита да се научат алгоритмите да определят шаблони, благодарение на които една молекула може да мирише на чесън, а друга на жасмин. Още през 2015 година изследователите създали проекта DREAM Olfaction Prediction Chalenge. В рамките на този проект са събрани описания на миризми от стотици хора. На тяхна база изследователите са проверявали дали различните алгоритми, използващи машинно обучение, ще разпознават миризмите на молекулите.Някои от екипите използвали изкуствен интелект в анализа на получените данни и успели да получат успешни прогнози.
Но екипът на Вилтшко избрал друг подход. Те използвали графови невронни мрежи (GNN). На повечето алгоритми с машинно обучение е нужно подаването на информация да става чрез правоъгълна разчетна мрежа. Но не всички данни могат да бъдат в този формат. GNN са способни да обработват графи, например, мрежа от приятели в социалните мрежи или събрани академически цитати от списания. С помощта на графите може да се предскаже, кой ще бъде следващия, когото вие ще добавите като приятел в социалната мрежа. В случая с миризмите GNN може да изучава структурата на всяка молекула и да определя, например ,че в една от тях атомът на въглерода се намира на пет атома по-далеч от атома на азота.
Екипът на Google е използвал масив от данни приблизително за 5000 молекули, получен от опитни парфюмери, които са описвали миризмата на всяка молекула (например, „ дървесна”, „жасминова” или „сладникава”). Изследователите обучили невронната мрежа с две трети от тези данни, а след това проверили дали алгоритъмът може да предскаже аромата на останалите молекули. И невронната мрежа успяла.
Първата версия на GNN работила толкова добре, колкото моделите и на другите екипи. Но Вилтшко смята, ако тя се доработи, може да се постигне и по-добър резултат.
„Мисля, че ние направихме крачка напред в науката” – казва той.
Както и всеки друг инструмент, използващ машинно обучение, GNN е ограничена от качеството на данни. Андрей Кулаков, изследовател от лабораторията Cold Spring Harbor смята, че проектът сам по себе си е ценен, защото е внесъл хиляди нови молекули в съществуващите дейта мрежи, използвани за обучение на алгоритмите. Кулаков отбелязва, че не е ясно, можем ли да разберем нещо ново за обонянието на човека с помощта на цифровите модели, тъй като невронните мрежи работят по различен начин от организма на човек.
Нашето възприемане на миризми се различава от това как това се осъществява от изкуствения интелект. Две молекули могат да миришат различно, но опитният нос може да разпознае тяхната миризма като „дървесна „ или „земна”.
„Това е голямо предупреждение за нас”- казва Вилтшко.
Вилтшко признава и друга слабост на GNN в такъв важен елемент като хиралните двойки, които могат да използват едни и същи атоми и връзки, но са разположени като огледални образи един на друг. Разликата в разположението може да предизвика съвършено различни миризми, например на кимион и мента. Нашият нос ще ги разпознае като различни миризми, но GNN ще ги възприеме като един и същ аромат.
„Ние знаем, че в нашите дейта масиви има хирални двойки и разбираме, че алгоритмите не могат коректно да ги разпознаят”.-казва Вилтшко. Следващата крачка на екипа ще бъде в посока на решаването на този проблем.
В изследването нищо не се говори за смесването и комбинациите от миризми, което значително влияе на човек при възприемането на молекулите. Но и фактът, че учените са успели да разберат какви качества определят миризмата на молекулите е вече важно откритие в областта на изучаването на обонянието. Това дава надежда, че в бъдеще е възможно изследователите да съставят палитра и от аромати.