Nvidia ogłosiła nową platformę wideokonferencyjną dla programistów o nazwie Nvidia Maxine, która, jak twierdzi, może rozwiązać niektóre z najczęstszych problemów w rozmowach wideo. Oprogramowanie AI analizuje kluczowe punkty twarzy każdej osoby podczas rozmowy, a następnie inteligentnie ponownie ożywia twarz na filmie po drugiej stronie
Maxine będzie przetwarzać rozmowy wideo w chmurze przy użyciu procesorów graficznych Nvidii i podnosić jakość połączeń na wiele sposobów za pomocą sztucznej inteligencji. Korzystając ze sztucznej inteligencji, Maxine może wyrównać twarze i spojrzenia rozmówców, tak aby zawsze patrzyli bezpośrednio na kamerę, zmniejszyć wymaganą przepustowość wideo "do jednej dziesiątej wymagań standardu kompresji strumieniowego wideo H.264" tylko o przekazywanie "kluczowych punktów twarzy" i zwiększanie rozdzielczości filmów. Inne funkcje dostępne w Maxine to ponowne oświetlenie twarzy, tłumaczenie i transkrypcja w czasie rzeczywistym oraz animowane awatary.
Chociaż może to rozgrzać serca fanów Nvidii, wiele z tych funkcji nie jest nowych. Kompresja wideo i transkrypcja w czasie rzeczywistym są dość powszechne, a Microsoft, a nawet Apple wprowadziły wyrównywanie spojrzeń w Surface Pro X i FaceTime, aby zapewnić ludziom kontakt wzrokowy podczas rozmów wideo.
Maxine nie jest platformą konsumencką, ale zestawem narzędzi dla firm zewnętrznych do ulepszania własnego oprogramowania. Jednak do tej pory Nvidia ogłosiła tylko jedno partnerstwo - z firmą komunikacyjną Avaya, która będzie korzystać z wybranych funkcji Maxine. Jak pokazano na poniższym obrazku, wszyscy główni dostawcy usług w chmurze oferują Maxine w ramach usług w chmurze Nvidia GPU.
Podczas telekonferencji dyrektor generalny firmy Nvidia ds. Mediów i rozrywki Richard Kerris opisał Maxine jako "naprawdę ekscytujące i bardzo aktualne ogłoszenie" i podkreślił jej kompresję wideo opartą na sztucznej inteligencji jako szczególnie przydatną funkcję.
"Wszyscy byliśmy w czasach, w których przepustowość była ograniczeniem w naszych konferencjach, które prowadzimy obecnie na co dzień", powiedział Kerris. "Jeśli zastosujemy sztuczną inteligencję do tego problemu, możemy zrekonstruować różne sceny na obu końcach i transmitować tylko to, co jest potrzebne, a tym samym znacznie zmniejszyć przepustowość".
Nvidia twierdzi, że jej funkcja kompresji wykorzystuje metodę sztucznej inteligencji znaną jako generatywnymi sieciami współzawodniczącymi GAN do częściowej rekonstrukcji twarzy rozmówców w chmurze. Jest to ta sama technika, której używa się w wielu deepfake'ach. "Zamiast przesyłać strumieniowo cały ekran pikseli, oprogramowanie AI analizuje kluczowe punkty twarzy każdej osoby podczas rozmowy, a następnie inteligentnie ponownie ożywia twarz na filmie po drugiej stronie".
Maxine będzie przetwarzać rozmowy wideo w chmurze przy użyciu procesorów graficznych Nvidii i podnosić jakość połączeń na wiele sposobów za pomocą sztucznej inteligencji. Korzystając ze sztucznej inteligencji, Maxine może wyrównać twarze i spojrzenia rozmówców, tak aby zawsze patrzyli bezpośrednio na kamerę, zmniejszyć wymaganą przepustowość wideo "do jednej dziesiątej wymagań standardu kompresji strumieniowego wideo H.264" tylko o przekazywanie "kluczowych punktów twarzy" i zwiększanie rozdzielczości filmów. Inne funkcje dostępne w Maxine to ponowne oświetlenie twarzy, tłumaczenie i transkrypcja w czasie rzeczywistym oraz animowane awatary.
Chociaż może to rozgrzać serca fanów Nvidii, wiele z tych funkcji nie jest nowych. Kompresja wideo i transkrypcja w czasie rzeczywistym są dość powszechne, a Microsoft, a nawet Apple wprowadziły wyrównywanie spojrzeń w Surface Pro X i FaceTime, aby zapewnić ludziom kontakt wzrokowy podczas rozmów wideo.
Maxine nie jest platformą konsumencką, ale zestawem narzędzi dla firm zewnętrznych do ulepszania własnego oprogramowania. Jednak do tej pory Nvidia ogłosiła tylko jedno partnerstwo - z firmą komunikacyjną Avaya, która będzie korzystać z wybranych funkcji Maxine. Jak pokazano na poniższym obrazku, wszyscy główni dostawcy usług w chmurze oferują Maxine w ramach usług w chmurze Nvidia GPU.
Podczas telekonferencji dyrektor generalny firmy Nvidia ds. Mediów i rozrywki Richard Kerris opisał Maxine jako "naprawdę ekscytujące i bardzo aktualne ogłoszenie" i podkreślił jej kompresję wideo opartą na sztucznej inteligencji jako szczególnie przydatną funkcję.
"Wszyscy byliśmy w czasach, w których przepustowość była ograniczeniem w naszych konferencjach, które prowadzimy obecnie na co dzień", powiedział Kerris. "Jeśli zastosujemy sztuczną inteligencję do tego problemu, możemy zrekonstruować różne sceny na obu końcach i transmitować tylko to, co jest potrzebne, a tym samym znacznie zmniejszyć przepustowość".
Nvidia twierdzi, że jej funkcja kompresji wykorzystuje metodę sztucznej inteligencji znaną jako generatywnymi sieciami współzawodniczącymi GAN do częściowej rekonstrukcji twarzy rozmówców w chmurze. Jest to ta sama technika, której używa się w wielu deepfake'ach. "Zamiast przesyłać strumieniowo cały ekran pikseli, oprogramowanie AI analizuje kluczowe punkty twarzy każdej osoby podczas rozmowy, a następnie inteligentnie ponownie ożywia twarz na filmie po drugiej stronie".