Nowy test ujawnia, że sztucznej inteligencji wciąż brakuje zdrowego rozsądku
Przetwarzanie języka naturalnego (ang. natural language processing, NLP) ,poczyniło ostatnio wielkie postępy – ale ile AI rozumie, co czyta? Mniej niż myśleliśmy, według naukowców z Wydziału Informatyki USC. W niedawnym artykule adiunkt Xiang Ren i doktorant Yuchen Lin odkryli, że pomimo postępów sztuczna inteligencja wciąż nie ma zdrowego rozsądku potrzebnego do generowania wiarygodnych zdań.
„Obecne modele maszynowego generowania tekstu mogą napisać artykuł, który może być przekonujący dla wielu ludzi, ale w zasadzie naśladują to, co widzieli w fazie szkolenia” – powiedział Lin. „Naszym celem w tym artykule jest zbadanie problemu, czy obecne najnowocześniejsze modele generowania tekstu mogą pisać zdania opisujące naturalne scenariusze w naszym codziennym życiu”.
Zrozumienie scenariuszy w życiu codziennym
W szczególności Ren i Lin przetestowali zdolność modeli do rozumowania i wykazali, że istnieje duża luka między obecnymi modelami generowania tekstu a wydajnością człowieka. Biorąc pod uwagę zestaw wspólnych rzeczowników i czasowników, najnowocześniejsze modele komputerowe NLP miały za zadanie stworzyć wiarygodne zdania opisujące codzienny scenariusz. Chociaż modele generowały zdania poprawne gramatycznie, często były logicznie niespójne.
Na przykład, oto jedno przykładowe zdanie wygenerowane przez najnowocześniejszy model przy użyciu słów „pies, frisbee, rzut, złap”:
„Dwa psy rzucają w siebie frisbee”.
Test opiera się na założeniu, że spójnych pomysłów (w tym przypadku: „człowiek rzuca frisbee, a pies je łapie”) nie można wygenerować bez głębszej świadomości pojęć zdroworozsądkowych. Innymi słowy, zdrowy rozsądek to coś więcej niż tylko prawidłowe rozumienie języka – oznacza to, że nie musisz wyjaśniać wszystkiego w rozmowie. Jest to fundamentalne wyzwanie w celu opracowania ogólnej sztucznej inteligencji – ale poza środowiskiem akademickim ma to również znaczenie dla konsumentów.
Bez zrozumienia języka czat boty i asystenci głosowi zbudowani na tych najnowocześniejszych modelach języka naturalnego są narażeni na awarie. Ma to również kluczowe znaczenie, jeśli roboty mają być bardziej obecne w środowiskach ludzkich. W końcu, jeśli poprosisz robota o gorące mleko, spodziewasz się, że będzie wiedział, że chcesz filiżankę mleka, a nie cały karton.
„Pokazujemy również, że jeśli model generacji działa lepiej w naszym teście, może przynieść korzyści również innym aplikacjom, które wymagają zdroworozsądkowego rozumowania, takich jak uczenie robotów” – powiedział Lin. „Roboty muszą rozumieć naturalne scenariusze w naszym codziennym życiu, zanim podejmą rozsądne działania w celu interakcji z ludźmi”.
Do Lin i Ren dołączyli Wangchunshu Zhou z USC, Ming Shen, Pei Zhou; Chandra Bhagavatula z Allen Institute of Artificial Intelligence; oraz Yejin Choi z Allen Institute of Artificial Intelligence i Paul G. Allen School of Computer Science & Engineering, University of Washington.
Test zdrowego rozsądku
Rozsądne rozumowanie, czyli umiejętność wyciągania wniosków na podstawie podstawowej wiedzy o świecie – na przykład fakt, że psy nie mogą rzucać sobie frisbee – od dziesięcioleci opiera się wysiłkom naukowców zajmujących się sztuczną inteligencją. Najnowocześniejsze modele uczenia głębokiego mogą teraz osiągnąć około 90% dokładności, więc wydaje się, że NLP zbliżyło się do celu.
Ale Ren, ekspert w przetwarzaniu języka naturalnego i jego uczeń Lin, potrzebowali więcej przekonywania co do dokładności tej statystyki. W swoim artykule, opublikowanym na konferencji Findings of Empirical Methods in Natural Language Processing (EMNLP) 16 listopada, kwestionują skuteczność wzorca, a tym samym poziom postępów w tej dziedzinie.
„Ludzie nabywają umiejętność komponowania zdań, ucząc się rozumienia i używania wspólnych pojęć, które rozpoznają w otaczającym ich środowisku” – powiedział Lin.
„Zdobycie tej umiejętności jest uważane za kamień milowy w rozwoju człowieka. Chcieliśmy jednak sprawdzić, czy maszyny mogą naprawdę nabyć taką zdolność generatywnego, zdrowego rozsądku”.
Aby ocenić różne modele maszyn, para opracowała ograniczone zadanie generowania tekstu o nazwie CommonGen, które może służyć jako punkt odniesienia do testowania generatywnego zdrowego rozsądku maszyn. Badacze przedstawili zbiór danych zawierający 35 141 pojęć powiązanych z 77 449 zdaniami. Okazało się, że nawet najlepiej działający model osiągnął współczynnik dokładności tylko 31,6% w porównaniu z 63,5% dla ludzi.
„Byliśmy zaskoczeni, że algorytmy nie potrafią sobie przypomnieć prostej, zdroworozsądkowej wiedzy, że„ człowiek rzucający frisbee ”powinien być o wiele bardziej rozsądny niż robi to pies” – powiedział Lin. „Odkryliśmy, że nawet najsilniejszy model, zwany T5, po treningu z dużym zbiorem danych nadal może popełniać głupie błędy”.
Wydaje się, powiedzieli naukowcy, że poprzednie testy nie rzuciły wystarczającego wyzwania modelom dotyczącym ich zdolności zdrowego rozsądku, zamiast tego naśladowały to, co widzieli w fazie treningowej.
„Poprzednie badania skupiały się przede wszystkim na dyskryminacyjnym zdrowym rozsądku” – powiedział Ren. „Testują maszyny za pomocą pytań wielokrotnego wyboru, w przypadku których przestrzeń wyszukiwania maszyny jest niewielka – zwykle jest to czterech lub pięciu kandydatów”.
Na przykład typowym miejscem przeprowadzania dyskryminacyjnych testów zdroworozsądkowych jest udzielanie odpowiedzi na pytania wielokrotnego wyboru, na przykład: „Gdzie dorośli używają kleju w sztyfcie?” A: klasa B: biuro C: szuflada biurka.
Tutaj odpowiedź brzmi oczywiście „B: biuro”. Nawet komputery mogą to rozwiązać bez większych problemów. Natomiast ustawienie generatywne jest bardziej otwarte, na przykład zadanie CommonGen, w którym model jest proszony o wygenerowanie naturalnego zdania na podstawie danych pojęć.
Ren wyjaśnia: „Dzięki szeroko zakrojonemu szkoleniu modelowemu bardzo łatwo jest dobrze wykonywać te zadania. W przeciwieństwie do tych rozróżniających zadań związanych ze zdrowym rozsądkiem, nasz proponowany test koncentruje się na generatywnym aspekcie zdrowego rozsądku maszynowego”.
Ren i Lin mają nadzieję, że zestaw danych posłuży jako nowy punkt odniesienia, który przyniesie korzyści w przyszłych badaniach nad wprowadzaniem zdrowego rozsądku do generowania języka naturalnego. W rzeczywistości mają nawet tabelę wyników przedstawiającą wyniki osiągnięte przez różne popularne modele, aby pomóc innym badaczom określić ich wykonalność dla przyszłych projektów.
„Roboty muszą rozumieć naturalne scenariusze w naszym codziennym życiu, zanim podejmą rozsądne działania w celu interakcji z ludźmi” – powiedział Lin.
„Wprowadzając zdrowy rozsądek i inną wiedzę specyficzną dla domeny do maszyn, wierzę, że pewnego dnia zobaczymy agentów AI, takich jak Samantha, w filmie Her, którzy generują naturalne reakcje i wchodzą w interakcję z naszym życiem”.