বৃহস্পতিবার, OpenAI " অপারেটর "
এর একটি গবেষণা পূর্বরূপ প্রকাশ করেছে, একটি ওয়েব অটোমেশন টুল যা একটি ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে কম্পিউটার নিয়ন্ত্রণ করতে কম্পিউটার-ইউজিং এজেন্ট (CUA) নামে একটি নতুন এআই মডেল ব্যবহার করে। সিস্টেমটি অন-স্ক্রীন উপাদান যেমন বোতাম এবং টেক্সট ফিল্ডের সাথে দেখা এবং ইন্টারঅ্যাক্ট করার মাধ্যমে কাজগুলি সম্পাদন করে যা একজন মানুষ কীভাবে করবে।
operator.chatgpt.com- এ প্রতি মাসে $200 ChatGPT প্রো প্ল্যানের গ্রাহকদের জন্য অপারেটর আজ উপলব্ধ । কোম্পানিটি পরবর্তীতে প্লাস, টিম এবং এন্টারপ্রাইজ ব্যবহারকারীদের কাছে প্রসারিত করার পরিকল্পনা করেছে। OpenAI এই ক্ষমতাগুলিকে সরাসরি ChatGPT-এ একীভূত করতে চায় এবং পরে ডেভেলপারদের জন্য তার API এর মাধ্যমে CUA প্রকাশ করতে চায়।
আপনি যখন আপনার কম্পিউটার ব্যবহার করেন
তখন অপারেটর অন-স্ক্রীন সামগ্রী দেখে এবং সিমুলেটেড কীবোর্ড এবং মাউস ইনপুটগুলির মাধ্যমে কাজগুলি সম্পাদন করে৷ কম্পিউটার-ব্যবহারকারী এজেন্ট কম্পিউটারের অবস্থা বোঝার জন্য স্ক্রিনশট প্রক্রিয়া করে এবং তারপরে তার পর্যবেক্ষণের উপর ভিত্তি করে ক্লিক, টাইপ এবং স্ক্রল করার বিষয়ে সিদ্ধান্ত নেয়।
ওপেনএআই-এর রিলিজ অন্যান্য প্রযুক্তি সংস্থাগুলিকে অনুসরণ করে কারণ তারা প্রায়শই "এজেন্টিক" এআই সিস্টেমগুলিকে ধাক্কা দেয়, যা ব্যবহারকারীর পক্ষে পদক্ষেপ নিতে পারে। Google 2024 সালের ডিসেম্বরে প্রজেক্ট মেরিনার ঘোষণা করেছিল , যেটি Chrome ব্রাউজারের মাধ্যমে স্বয়ংক্রিয় কাজগুলি সম্পাদন করে এবং দুই মাস আগে, অক্টোবর 2024-এ, অ্যানথ্রপিক "কম্পিউটার ব্যবহার" নামে একটি ওয়েব অটোমেশন টুল চালু করেছে যা ডেভেলপারদের উপর ফোকাস করে যেগুলি ব্যবহারকারীর মাউস কার্সার নিয়ন্ত্রণ করতে পারে এবং পদক্ষেপ নিতে পারে। একটি কম্পিউটারে
এআই গবেষক সাইমন উইলিসন তার ব্লগে লিখেছেন , "অপারেটর ইন্টারফেসটি দেখতে অনেকটা অ্যানথ্রপিকের ক্লাউড কম্পিউটার ইউজ ডেমোর মতই দেখা যাচ্ছে, যা বামদিকে একটি চ্যাট প্যানেল এবং ডানদিকে একটি দৃশ্যমান ইন্টারফেসের সাথে ইন্টারফেস পর্যন্ত। "
OpenAI দ্বারা তৈরি একটি অপারেটর ডেমো ভিডিও।
আরস ভিডিও
যখন এআই কোড করতে পারে তখন বিকাশকারীদের কী হয়? | আরএস ফ্রন্টিয়ার্স
দেখুন এবং ব্যবস্থা নিন
আপনার পিসিকে আপনার মতো ব্যবহার করতে, কম্পিউটার-ব্যবহারকারী এজেন্ট একাধিক ধাপে কাজ করে। প্রথমে, এটি আপনার স্ক্রীন নিরীক্ষণ করার জন্য স্ক্রিনশটগুলি ক্যাপচার করে, তারপরে কাঁচা পিক্সেল ডেটা প্রক্রিয়া করার জন্য সেই চিত্রগুলি
(অতিরিক্ত শক্তিবৃদ্ধি শেখার সাথে G
PT-4o এর দৃষ্টি ক্ষমতা ব্যবহার করে) বিশ্লেষণ করে। এরপরে, এটি নির্ধারণ করে কি কি পদক্ষেপ নিতে হবে এবং তারপরে কম্পিউটার নিয়ন্ত্রণ করতে ভার্চুয়াল ইনপুটগুলি সম্পাদন করে। এই পুনরাবৃত্তিমূলক লুপ ডিজাইন কথিতভাবে সিস্টেমটিকে ত্রুটিগুলি থেকে পুনরুদ্ধার করতে এবং বিভিন্ন অ্যাপ্লিকেশন জুড়ে জটিল কাজগুলি পরিচালনা করতে দেয়৷