SeamlessM4T v2

SeamlessM4T v2: Innowacje w Tłumaczeniu AI, które Łączą Świat Poprzez Język

W sierpniu firma Meta wprowadziła na rynek swój wielofunkcyjny model tłumaczenia sztucznej inteligencji o nazwie SeamlessM4T, który obsługuje tekst w prawie 100 językach i mowę w 36 językach. Najnowsza wersja modelu, „v2”, znana jako model „Seamless Communication„, ma na celu uczynienie tłumaczeń konwersacyjnych bardziej naturalnymi i ekspresyjnymi​​.

Nowa architektura zawiera dwa kluczowe nowe funkcje. Pierwsza, „SeamlessExpressive„, przenosi ton głosu użytkownika do przetłumaczonej mowy, uwzględniając takie aspekty jak tonacja, głośność, emocjonalny kolor (ekscytacja, smutek, szept), tempo mówienia i przerwy. Ta innowacja jest szczególnie znacząca, biorąc pod uwagę, że obecnie tłumaczone mowy często brzmią bardzo mechanicznie. Druga funkcja, „SeamlessStreaming„, rozpoczyna tłumaczenie w trakcie mówienia osoby, umożliwiając innym szybsze usłyszenie tłumaczenia. Jest tu krótkie opóźnienie, mniejsze niż dwie sekundy, ale nie trzeba już czekać na zakończenie zdania przez mówiącego​​.

Chociaż nie ujawniono jeszcze, kiedy te nowe funkcje będą dostępne publicznie, można się spodziewać, że Meta zintegruje je w przyszłości ze swoimi inteligentnymi okularami, aby uczynić je bardziej praktycznymi​​.

SeamlessM4T jest pierwszym kompleksowym wielojęzycznym i multimodalnym modelem AI do tłumaczenia i transkrypcji. Jeden model może wykonywać tłumaczenia mowy na tekst, mowy na mowę, tekstu na mowę i tekstu na tekst dla do 100 języków, w zależności od zadania. Ten model reprezentuje znaczący postęp w umożliwianiu ludziom komunikacji w różnych językach za pomocą mowy i tekstu​​.

Dodaj komentarz