SeamlessM4T v2: Innowacje w Tłumaczeniu AI, które Łączą Świat Poprzez Język
W sierpniu firma Meta wprowadziła na rynek swój wielofunkcyjny model tłumaczenia sztucznej inteligencji o nazwie SeamlessM4T, który obsługuje tekst w prawie 100 językach i mowę w 36 językach. Najnowsza wersja modelu, „v2”, znana jako model „Seamless Communication„, ma na celu uczynienie tłumaczeń konwersacyjnych bardziej naturalnymi i ekspresyjnymi.
Nowa architektura zawiera dwa kluczowe nowe funkcje. Pierwsza, „SeamlessExpressive„, przenosi ton głosu użytkownika do przetłumaczonej mowy, uwzględniając takie aspekty jak tonacja, głośność, emocjonalny kolor (ekscytacja, smutek, szept), tempo mówienia i przerwy. Ta innowacja jest szczególnie znacząca, biorąc pod uwagę, że obecnie tłumaczone mowy często brzmią bardzo mechanicznie. Druga funkcja, „SeamlessStreaming„, rozpoczyna tłumaczenie w trakcie mówienia osoby, umożliwiając innym szybsze usłyszenie tłumaczenia. Jest tu krótkie opóźnienie, mniejsze niż dwie sekundy, ale nie trzeba już czekać na zakończenie zdania przez mówiącego.
Chociaż nie ujawniono jeszcze, kiedy te nowe funkcje będą dostępne publicznie, można się spodziewać, że Meta zintegruje je w przyszłości ze swoimi inteligentnymi okularami, aby uczynić je bardziej praktycznymi.
SeamlessM4T jest pierwszym kompleksowym wielojęzycznym i multimodalnym modelem AI do tłumaczenia i transkrypcji. Jeden model może wykonywać tłumaczenia mowy na tekst, mowy na mowę, tekstu na mowę i tekstu na tekst dla do 100 języków, w zależności od zadania. Ten model reprezentuje znaczący postęp w umożliwianiu ludziom komunikacji w różnych językach za pomocą mowy i tekstu.