Llama 2 Long – nowy model Llama 2 od Meta

Llama 2 Long – nowy model Llama 2 od Meta

Firma Meta zaskoczyła fanów sztucznej inteligencji, prezentując nowy model AI – Llama 2 Long, który w niektórych zadaniach wyprzedza konkurencyjne modele AI, takie jak GPT-3.5 Turbo od OpenAI oraz Claude 2. Ulepszona wersja oryginalnej Llamy 2 zyskała zdolność radzenia sobie z dłuższymi sekwencjami tekstowymi, co zauważalnie zwiększyło jej kompetencje w zakresie generowania odpowiedzi na rozbudowane zapytania użytkowników​1​.

Podniesienie Poprzeczki w AI

Llama 2 Long powstała poprzez kontynuowanie procesu uczenia na podstawie oryginalnej Llamy 2, ale z dłuższymi sekwencjami treningowymi oraz zestawem danych, w którym długie teksty były nadreprezentowane. Ta metoda prezentowania pozwoliła Llama 2 Long na osiągnięcie wyższej wydajności, zwłaszcza w zadaniach związanych z długim kontekstem​2​.

Llama 2 Long
Wykres wyników Lamy 2 Long z artykułu „ Efektywne skalowanie modeli fundamentowych w długim kontekście ” Strona: https://arxiv.org/pdf/2309.16039.pdf

Technologiczne Innowacje

Kluczową zmianą, która pozwoliła Llama 2 Long na efektywne radzenie sobie z dłuższymi sekwencjami tekstowymi, było zastosowanie modyfikacji w Rotary Positional Embedding (RoPE). Pozwoliło to na efektywniejsze mapowanie tokenów (reprezentacji słów i koncepcji) na grafie 3D, co jest kluczowe dla zachowania zrozumienia kontekstu w dłuższych sekwencjach tekstowych​2​.

Przewaga nad Konkurencją

Llama 2 Long zaimponowała środowisku AI, osiągając lepsze wyniki niż GPT-3.5 Turbo i Claude 2 w generowaniu odpowiedzi na zapytania użytkowników z długim kontekstem. GPT-3.5 Turbo oferuje okno kontekstowe z limitem 16,000 znaków, podczas gdy Claude 2 obsługuje okna kontekstowe do 100,000 znaków. Llama 2 Long, z oknami kontekstowymi do 32,768 tokenów, w niektórych zadaniach już przewyższa ogólną wydajność GPT-3.5 Turbo​2​.

Społecznościowa Reakcja

Premiera Llama 2 Long wywołała falę entuzjazmu w otwartoźródłowej społeczności AI, potwierdzając, że inicjatywy otwartoźródłowe mogą skutecznie konkurować z modelami „pay to play” oferowanymi przez dobrze finansowane startupy. Wydajność Llama 2 Long stanowi ważne potwierdzenie dla otwartoźródłowego podejścia Meta do AI generatywnej​2​.

Llama 2 Long to znaczący krok naprzód w dziedzinie sztucznej inteligencji, demonstrując, jak innowacje w uczeniu maszynowym i zakodowaniu pozycji mogą przyczynić się do zwiększenia wydajności modeli AI w obsłudze długich sekwencji tekstowych. Jej zdolność do wyprzedzenia uznanych modeli AI, takich jak GPT-3.5 Turbo i Claude 2, podkreśla potencjał dalszych badań i rozwoju w tej ekscytującej dziedzinie.

Dodaj komentarz