Pagsasanay ng mga modelo ng artificial intelligence Ang Internet ay nasa sentro ng teknolohikal na inobasyon, na nagdudulot ng mga epekto sa maraming sektor at nagpapasiklab ng mga debate tungkol sa privacy, copyright, at digital sustainability. Ang mga kamakailang pag-unlad sa larangang ito, kasama ng lumalaking kapasidad ng mga kumpanya na gamitin ang malaking data, ay nagdudulot ng parehong mga pagkakataon at hamon na nakakaapekto sa mga mananaliksik, user, at tagalikha ng nilalaman.
Sa nakalipas na mga buwan, dumami ang mga hakbangin na naglalayong balansehin ang pagbuo ng artificial intelligence na may higit na proteksyon ng mga indibidwal at kolektibong karapatan. Kabilang sa mga pinakatanyag na pag-unlad ay isang bago, mas mahusay na paraan ng pagsasanay na pinamumunuan ng Unibersidad ng Cádiz, pati na rin ang mga regulasyon at teknikal na pagsasaayos na hinimok ng mga kumpanya at awtoridad upang pamahalaan ang daloy ng impormasyon sa panahon ng mga generative na modelo.
Isang paglukso sa kahusayan: ang REDIBAGG na pamamaraan mula sa Unibersidad ng Cádiz

Iniharap ng mga mananaliksik ng Andalusian REDIBAGG, isang makabagong pamamaraan na nagbibigay-daan pabilisin ang proseso ng pagsasanay ng mga modelo ng artificial intelligence ng hanggang 70% nang hindi sinasakripisyo ang pagiging maaasahan ng mga resulta. Ang pag-unlad na ito, na tinustusan ng mga pondo ng publiko at Europa, makabuluhang binabawasan ang dami ng data na kinakailangan sa yugto ng pag-aaral, na nagreresulta sa mas mababang pagkonsumo ng mga mapagkukunan ng computing at mas kaunting oras ng pagproseso.
Ang tool ay namumukod-tangi para dito mahusay na kakayahang umangkop, dahil ito ay may kakayahang magtrabaho sa malalaking volume ng data sa iba't ibang mga sitwasyon, mula sa medisina at industriya hanggang sa pananalapi. Ginagamit ng REDIBAGG ang lohika ng mga kumbinasyong modelo tulad ng nakakabit (bootstrap aggregating), ngunit ipakilala mga bagong resampling technique na bumubuo ng mas maliliit na subset ng data, binabawasan ang mga gastos sa computational. Ayon sa mga responsable sa pag-aaral, Isinagawa ang pagpapatunay sa 30 totoong set ng data gamit ang supercomputer ng Urania Nagpakita ito ng pagganap na maihahambing sa mga tradisyonal na pamamaraan, ngunit may higit na kahusayan.
Isa pang bentahe nito kadalian ng pagsasama sa mga kapaligirang malawakang ginagamit sa mundo ng machine learning, gaya ng Python at Scikit-matuto, na ginagawang madaling gamitin para sa parehong mga mananaliksik at mga propesyonal mula sa mga kumpanya ng anumang laki.
Pagsasanay sa AI at pamamahala ng mga digital na karapatan

Ang pagbuo ng lalong tumpak at makapangyarihang mga modelo ng artificial intelligence ay higit na nakasalalay sa pag-access sa malalaking volume ng impormasyon, Karamihan sa mga ito ay nagmumula sa personal na data at digital na nilalamang nabuo ng mga user sa Internet.Ang mga higanteng tech tulad ng Meta ay nag-update ng kanilang mga patakaran tungkol sa paggamit ng pampublikong data mula sa mga platform tulad ng Facebook at Instagram upang pinuhin ang kanilang mga teknolohiya sa AI, na naglalabas ng mga tanong tungkol sa mga proteksyon sa privacy at mga legal na limitasyon.
Bilang tugon sa mga hamong ito, Ang European Union ay nagtatag ng mga obligasyon sa transparency at mga mekanismo sa pag-opt out para sa mga nagbibigay ng artificial intelligence. Ang Regulasyon 2024/1689 ay nangangailangan ng malinaw na pamamaraan para sa “mag-opt out”, na nagpapahintulot sa mga may hawak ng copyright na pigilan ang kanilang mga gawa mula sa paggamit sa machine learning, pati na rin ang obligasyon na mag-ulat sa mga pinagmumulan ng data na ginamit.
Ang mga user, sa kanilang bahagi, ay may mga partikular na opsyon upang limitahan ang paggamit ng kanilang data. Ang mga platform tulad ng Meta ay nagpatupad ng mga form at opsyon sa kanilang mga dashboard ng privacy na nagbibigay-daan sa mga user na mag-opt out sa paggamit ng data para sa mga layunin ng pagsasanay sa AI. Mahalagang tandaan iyon Hindi agad tinatanggal ng pamamaraang ito ang data, ngunit hinihiling nito sa kumpanya na suriin ang bawat kahilingan alinsunod sa kasalukuyang batas.
Mga korte at ang lehitimong paggamit ng data sa AI

Sa buong mundo, ang mga korte ay nagtatakda ng mga precedent sa paggamit ng protektadong nilalaman para sa pagsasanay ng mga modelo ng artificial intelligenceSa Estados Unidos, ang isang kamakailang desisyon na pabor sa Anthropic ay itinuring na ang paggamit ng milyun-milyong aklat sa machine learning upang bumuo ng isang patas na paggamit sa ilang partikular na pagkakataon, nagbibigay daan para sa mga tech na kumpanya na mangolekta ng data nang hindi kinakailangang magbayad o humiling ng pahintulot sa karamihan ng mga kaso. Samantala, lumilitaw na ang mga awtoridad sa Europa ay nakahilig sa isang mas mahigpit at detalyadong diskarte, na nangangailangan ng mga developer na magpakita ng transparency at igalang ang mga mekanismo ng pagbubukod itinatag ng mga may hawak ng karapatan.
Ang pagkakaibang ito ay nagpapasigla sa debate tungkol sa hinaharap ng digital na ekonomiya at ang proteksyon ng mga creator. Ang takot sa "devaluation" ng nakasulat na trabaho at pag-aalala tungkol sa pagkawala ng trapiko sa web ay ilan sa mga argumento na iniharap ng mga publisher at content platform, na naghahanap ng mga bagong paraan upang mapanatili ang halaga ng orihinal na impormasyon.