Llama 2 Long – nowy model Llama 2 od Meta
Firma Meta zaskoczyła fanów sztucznej inteligencji, prezentując nowy model AI – Llama 2 Long, który w niektórych zadaniach wyprzedza konkurencyjne modele AI, takie jak GPT-3.5 Turbo od OpenAI oraz Claude 2. Ulepszona wersja oryginalnej Llamy 2 zyskała zdolność radzenia sobie z dłuższymi sekwencjami tekstowymi, co zauważalnie zwiększyło jej kompetencje w zakresie generowania odpowiedzi na rozbudowane zapytania użytkowników1.
Podniesienie Poprzeczki w AI
Llama 2 Long powstała poprzez kontynuowanie procesu uczenia na podstawie oryginalnej Llamy 2, ale z dłuższymi sekwencjami treningowymi oraz zestawem danych, w którym długie teksty były nadreprezentowane. Ta metoda prezentowania pozwoliła Llama 2 Long na osiągnięcie wyższej wydajności, zwłaszcza w zadaniach związanych z długim kontekstem2.
Technologiczne Innowacje
Kluczową zmianą, która pozwoliła Llama 2 Long na efektywne radzenie sobie z dłuższymi sekwencjami tekstowymi, było zastosowanie modyfikacji w Rotary Positional Embedding (RoPE). Pozwoliło to na efektywniejsze mapowanie tokenów (reprezentacji słów i koncepcji) na grafie 3D, co jest kluczowe dla zachowania zrozumienia kontekstu w dłuższych sekwencjach tekstowych2.
Przewaga nad Konkurencją
Llama 2 Long zaimponowała środowisku AI, osiągając lepsze wyniki niż GPT-3.5 Turbo i Claude 2 w generowaniu odpowiedzi na zapytania użytkowników z długim kontekstem. GPT-3.5 Turbo oferuje okno kontekstowe z limitem 16,000 znaków, podczas gdy Claude 2 obsługuje okna kontekstowe do 100,000 znaków. Llama 2 Long, z oknami kontekstowymi do 32,768 tokenów, w niektórych zadaniach już przewyższa ogólną wydajność GPT-3.5 Turbo2.
Społecznościowa Reakcja
Premiera Llama 2 Long wywołała falę entuzjazmu w otwartoźródłowej społeczności AI, potwierdzając, że inicjatywy otwartoźródłowe mogą skutecznie konkurować z modelami „pay to play” oferowanymi przez dobrze finansowane startupy. Wydajność Llama 2 Long stanowi ważne potwierdzenie dla otwartoźródłowego podejścia Meta do AI generatywnej2.
Llama 2 Long to znaczący krok naprzód w dziedzinie sztucznej inteligencji, demonstrując, jak innowacje w uczeniu maszynowym i zakodowaniu pozycji mogą przyczynić się do zwiększenia wydajności modeli AI w obsłudze długich sekwencji tekstowych. Jej zdolność do wyprzedzenia uznanych modeli AI, takich jak GPT-3.5 Turbo i Claude 2, podkreśla potencjał dalszych badań i rozwoju w tej ekscytującej dziedzinie.