„Mlcommons“ ir „Hugning Face“ komanda, kad išleistų didžiulį kalbos duomenų rinkinį AI tyrimams

„Mlcommons“, ne pelno siekianti AI saugos darbo grupė, subūrė AI Dev platformą, apkabindama veidą, kad išleistų vieną didžiausių pasaulyje viešųjų domenų balso įrašų kolekcijų AI tyrimams.

Duomenų rinkinyje, vadinamame neprižiūrimų žmonių kalba, yra daugiau nei milijonas valandų garso, apimančio mažiausiai 89 skirtingas kalbas. „Mlcommons“ sako, kad buvo motyvuota jį sukurti norėdami palaikyti mokslinius tyrimus ir plėtrą „įvairiose kalbos technologijos srityse“.

„Platesnių natūralių kalbų apdorojimo tyrimų palaikymas kitoms kalboms, išskyrus anglų kalbą, padeda komunikacijos technologijoms suteikti daugiau žmonių visame pasaulyje“, – ketvirtadienio tinklaraščio įraše rašė organizacija. „Mes tikimės, kad tyrimų bendruomenė toliau kurs ir vystytis, ypač tobulinant mažai išteklių kalbų kalbų modelius, sustiprintą kalbos atpažinimą skirtinguose akcentuose ir tarmėse bei naujų pritaikymų kalbų sintezėje.“

Tai tikrai žavus tikslas. Tačiau AI duomenų rinkiniai, tokie kaip neprižiūrimų žmonių kalba, gali kelti riziką tyrėjams, kurie pasirenka juos naudoti.

Šalesni duomenys yra viena iš tų rizikų. Įrašai neprižiūrimų žmonių kalboje buvo iš „Archive.org“, ne pelno siekiančios organizacijos, geriausiai žinomos „Wheback Machine Web Archival“ įrankiu. Kadangi daugelis „Archive.org“ bendraautorių yra angliškai kalbantys-ir amerikiečiai-beveik visi neprižiūrimų žmonių kalbos įrašai yra amerikiečių akcentuojamoje anglų kalboje, pagal „README“ oficialiame projekto puslapyje.

Tai reiškia, kad be kruopštaus filtravimo, AI sistemos, tokios kaip kalbos atpažinimo ir balso sintezatorių modeliai, apmokyti neprižiūrimų žmonių kalboje, galėtų parodyti tuos pačius išankstinius nusistatymus. Pavyzdžiui, jie gali stengtis perrašyti anglų kalbą, kuria kalbama ne gimtoji kalba, arba jiems kilti sunku generuoti sintetinius balsus kitomis kalbomis, išskyrus anglų kalbą.

Nepričiamose žmonių kalboje taip pat gali būti įrašų iš žmonių, nežinančių, kad jų balsai naudojami AI tyrimų tikslais, įskaitant komercines programas. Nors „Mlcommons“ sako, kad visi duomenų rinkinio įrašai yra vieši arba prieinami pagal „Creative Commons“ licencijas, yra galimybės klaidų.

Remiantis MIT analize, šimtai viešai prieinamų AI mokymo duomenų rinkinių trūksta licencijavimo informacijos ir juose yra klaidų. Kūrėjų šalininkai, įskaitant Ed Newton-Rex, AI etikos generalinį direktorių, orientuotą į ne pelno siekiančią organizaciją, buvo pareikšta, kad kūrėjai neturėtų būti reikalaujama „atsisakyti“ AI duomenų rinkinių dėl sunkios naštos, atsisakiusių šiems kūrėjams skirtų asmenų. .

„Daugelis kūrėjų (pvz. „Kūrėjams, kurie gali Atsisakymas, yra keli sutampantys atsisakymo metodai, kurie yra (1) neįtikėtinai painūs ir (2) beatodairiškai neišsamūs. Net jei egzistuotų tobulas universalus atsisakymas, būtų be galo nesąžininga iškelti atsisakymo naštą kūrėjams, atsižvelgiant į tai, kad generatyvinis AI naudoja savo darbą konkuruodama su jais-daugelis tiesiog nesuvoktų, kad jie galėtų atsisakyti. “

„Mlcommons“ sako, kad ji yra įsipareigojusi atnaujinti, prižiūrėti ir tobulinti neprižiūrimų žmonių kalbos kokybę. Tačiau atsižvelgiant į galimus trūkumus, kūrėjams reikėtų rimtai atsargiai.

Source link