ویکیپدیا با هوش مصنوعی

یک تیم تحقیقاتی امکانی برای تولید مقاله ویکیپدیا با استفاده از هوش مصنوعی فراهم کرده و تا کنون ۱۰۰ مقاله در این مورد نوشته است.

منابع اطلاعاتی انسانی مانند ویکیپدیا مشکلات خاص خود را دارند. به‌عنوان مثال بسیاری از مقاله‌ها و توضیحات با وجود اهمیت هنوز راهی به این مخازن علمی پیدا نکرده‌اند.

به‌عنوان مثال Joelle Pineau یک متخصص رباتیک و هوش مصنوعی است که در حال حاضر مدیریت آزمایشگاه هوش مصنوعی فیسبوک در مونترال را در اختیار دارد. مورد دیگر Miriam Adelson محقق ترک اعتیاد است که پس از ازدواج به یک میلیاردر تبدیل شده و انجمنی جهت پیشبرد اهداف تحقیقاتی خود تاسیس کرده است. Evelyn Wang رئیس جدید دپارتمان مهندسی مکانیک دانشگاه MIT است که در تحقیقات جدید خود دستگاهی برای تولید آب از تابش خورشید و هوای بیابان طراحی کرده است. نکته‌ی جالب این که تنها یکی از این دانشمندان آن هم پس از انتشار این خبر در وبلاگ منبع،‌ دارای مقاله‌ی معرفی در ویکیپدیای انگلیسی هستند.

تیم تحقیقاتی Primer در حال توسعه‌ی یک سیستم یادگیری ماشینی هستند و در خلال این کار، متوجه فقدان مقاله برای این افراد و بسیاری دیگر شده‌اند. این هوش مصنوعی در زمان یادگیری خود این افراد را پیدا کرده و در مورد آنها توضیحاتی ارائه کرده است. رفتار آن در یافتن این افراد کاملا شبیه به انسان‌ها بوده است. با این تفاوت که هوش مصنوعی توانسته ۵۰۰ میلیون مقاله‌ی خبری، ۳۹ میلیون مقاله‌ی علمی و تمام مقالات ویکیپدیا را بخواند و سپس ۷۰ هزار خلاصه‌ی بیوگرافی در مورد دانشمندان بنویسد.

این پروژه‌ی هوش مصنوعی با نام Quicksilver در پریمر پیگیری می‌شود. نام پروژه نیز ادای احترامی به کتابی به همین نام نوشته‌ی نیل استفنسن است. در این کتاب به فناوری اشاره شده که تمام دانش بشری را جمع کرده و نه تنها از آن استفاده کرده، بلکه دانش جدیدی نیز تولید می‌کند.

تنها ۱۵ درصد از دانشمندان علوم کامپیوتر در ویکی‌پدیا شناخته‌شده هستند.

تیم پریمر نسخه‌ی متن‌بازی از تحقیقات خود و محتوای تولید شده در مسیر توسعه‌ی این هوش مصنوعی را در گیت هاب منتشر کرده است. این تیم در ابتدای کار به سراغ ۳۰ هزار متخصص کامپیوتر رفته که تنها ۱۵ درصد از آنها در ویکیپدیا شناخته شده هستند. مجموعه‌ی منتشر شده‌ی این تیم، شامل یک میلیون جمله یا عبارت خبری در توصیف این دانشمندان است. علاوه بر آن متا دیتای مقالات منبع، نقشه‌ای از مقالات رایگان منتشر شده و اطلاعاتی از ورودی‌های در ویکی‌پدیا و ویکی‌دیتا نیز در این بسته وجود دارد. نکته‌ی مهم این که این منبع متن‌باز به مرور و با پیشرفت تحقیقات کامل می‌شود. هدف تیم پریمر، کمک کردن به جامعه‌ی تحقیقات آزاد است تا ابزارهایی برای بهبود محتوای ویکی‌پدیا و ویکی‌دیتا توسعه یابد.

دانش سیال

تیم پریمر مدل‌سازی کوئیک‌سیلور را با ۳۰ هزار مقاله‌ی ویکیپدیا در مورد دانشمندان شروع کرد. سپس ورودی‌های ویکی‌دیتا و بیش از ۳ میلیون جمله و عبارت از مقالات خبری که توصیف‌کننده‌ی دانشمندان بودند به سیستم اضافه شد. در مرحله‌ی بعدی نام و توصیف ۲۰۰ هزار مولف مقالات علمی به مجموعه تزریق شد.

پس از یک روز فعالیت، ۴۰ هزار فرد کشف شدند که با وجود پوشش خبری برابر با دیگران، مقاله‌ای در معرفی آنها در ویکیپدیا موجود نبود. کوئیک‌سیلور با ادامه‌ی فعالیت خود تعداد این دانشمندان را به دو برابر افزایش داد. این سیستم افرادی را که لایق داشتن یک مقاله یا بیوگرافی در ویکیپدیا بودند کشف می‌کرد.

اطلاعات مقاله‌ها عموما نیاز به به‌روزرسانی دارد

این هوش مصنوعی در ادامه‌ی فعالیت متوجه ایراد دیگر مخازن علمی انسانی نیز شد. اکثر مقاله‌های موجود در مورد بیش از ۳۰ هزار دانشمند حاضر در ویکیپدیا، اطلاعات مرتبط کافی در متن مقاله نداشتند. به بیان دیگر این یافته به این نکته اشاره می‌کند که نوشتن مقاله در مورد اشخاص تنها شروع کار است. این مقاله باید مرتباً نگهداری و به‌روز شده و مورد بازبینی قرار بگیرد. آمارها نشان می‌دهد محتوای موجود در ویکیپدیا به‌خوبی بازنگری و اصلاح شده و اغلب آنها مقالاتی صحیح و قابل اتکا هستند؛ اما همین مقالات از اخبار روزانه، خصوصاً در مورد افراد عقب بوده و با سرعت مناسب به‌روزرسانی نمی‌شوند.

بررسی‌های کوئیک‌سیلور افراد و اتفاقات متعددی را کشف کرد که اخبار به‌روز آنها در مقاله‌های ویکیپدیا اضافه نشده است. به بیان دیگر مقالات موجود بیات شده بودند اما این هوش مصنوعی توانست جدیدترین اتفاقات پیرامون این افراد را پیدا کند.

خلاصه‌سازی اطلاعات

تولید مقاله به سبک ویکیپدیا در حال حاضر یکی از مراحل دشوار پردازش طبیعی زبان، یکی از شاخه‌های یادگیری ماشین و هوش مصنوعی است. این فعالیت به‌صورت یک وظیفه‌ی خلاصه‌سازی از چند سند و مقاله تعریف می‌شود. در این فرآیند تعدادی مقاله‌ی منبع به ماشین داده می‌شود که اطلاعاتی در مورد یک ورودی دارند. سپس هوش مصنوعی یک خلاصه در مورد آن موضوع تدوین می‌کند.

یکی از اولین تلاش‌ها برای تولید مقاله‌های ویکیپدیا به کمک هوش مصنوعی، حدود یک دهه پیش در دانشگاه کلمبیا انجام شد و از تکنیک استخراج برای تولید خلاصه مقاله استفاده می‌کرد. این تکنیک جملات مرتبط با موضوع را از مقالات استخراج کرده و آنها را به هم متصل می‌کند. مزیت این روش، انسجام متون است چون تمامی جملات توسط انسان‌ها نوشته شده‌اند. نقطه‌ی ضعف نیز در بیان محتوا نهفته است چرا که این هوش تنها توانایی تولید محتوایی را دارد که قبلا توسط انسان‌ها نوشته شده است.

روش‌های دیگری که اخیراً به کار گرفته شده‌اند، از روش انتزاعی برای تولید مقاله استفاده می‌کنند. این تکنیک از مدل زبان عصبی (neural language model) برای تولید متن استفاده می‌کند. مشکل این روش در انسجام نهفته است و محصول نهایی در برخی اوقات بی‌معنی می‌شود.

اخیرا تیمی به رهبری پیتر لیو در بخش هوش مصنوعی گوگل، تلاشی برای بهبود تولید سیستم تولید اتوماتیک مقاله برای ویکیپدیا داشته‌اند. آن ها برای شروع نگارش از روش استخراج استفاده کردند و برای نهایی کردن متن، روش انتزاعی به کار گرفته شد. نتایج این تلاش، قابل توجه و با کیفیت بوده‌اند. در واقع این سیستم ترکیبی، مقالاتی با پاراگراف‌های کاملاً مرتبط و بامعنی تولید کرده بود.

با ترکیب روش استخراج و تولید انتزاعی می‌توان با هوش مصنوعی مقاله نگارش کرد.

تیم توسعه‌دهنده‌‌ی کوئیک‌سیلور برای پروژه‌ی خود از یافته‌های تیم گوگل استفاده کرده اما اهداف آنها کمی کاربردی‌تر بوده است. آنها به‌جای استفاده از ویکیپدیا به‌عنوان مرجعی برای جمع‌بندی الگوریتم‌ها، در حال توسعه‌ی مخزنی علمی برای نگهداری مقالات هستند که البته شبیه به ویکیپدیا خواهد بود. آنها باید سیستمی طراحی کنند که هر عبارت و حقیقت موجود در متن را با منبع بررسی کرده و به آن ارجاع دهد. بعلاوه باید ساختاری برای ورودی‌ها و ارتباط آنها با منابع تدوین شود تا تغییرات نیز قابل پیگیری باشند.

در این میان بیوگرافی‌های کامل با منابع قابل اتکای زیادی وجود ندارند و نمی‌توان روش‌های یادگیری ماشین امروزی مانند seq2seq را با آنها اجرا کرد. در نهایت این تیم برای پیشبرد اهداف خود به مخزنی علمی نیاز دارد که با مدل seq2seq هماهنگ شود. در این مرحله، ارتباط مناسب ویکی‌دیتا و ویکیپدیا به تیم پریمر کمک کرد. آن ها از منابع ویکی‌دیتا برای اتصال دانشمندان مورد نظر به مقاله‌های خبری مرتبط استفاده کردند.

در نهایت باید به این نکته اشاره کرد که کوئیک‌سیلور چند ماه در معرض آزمایش بوده است. در حال حاضر هنوز این هوش مصنوعی در حال پیشرفت بوده و وبلاگ پریمر جزئیات پیشرفت آن را به مرور منتشر می‌کند. آخرین دستاورد آنها با کوئیک‌سیلور، تولید ۱۰۰ مقاله‌ی خلاصه معرفی در مورد دانشمندان بوده است.

آینده‌ی دانش

همه‌ی ما از اهمیت ویکیپدیا در جهان و همچنین آسیب‌پذیری آن آگاهیم. این وبسایت پنجمین سایت پربازدید جهان است که ماهانه میزبان ۱۵ میلیارد بازدید است. حدود ۵۰ میلیون مقاله در ۳۰۰ زبان زنده‌ی دنیا در این وبسایت منتشر شده‌اند. نکته‌ی قابل تأمل این که تمام این مقالات توسط انسان‌های داوطلب نوشته شده‌اند.

تأیید مقالات توسط نیروی انسانی در ویکیپدیا، نقطه‌ی قوت این سرویس است. فرآیند اصلاح و تایید مقالات این اطمینان را ایجاد می‌کند که ویکیپدیا قدرتمند باقی مانده و به سمت جامع شدن پیش برود.

اما وجود نیروی انسانی در هر سیستم، محدودیت‌های خاص خود را نیز دارد. با پیشرفت محبوییت این وب سایت، مقالات جانب‌دارانه و البته مقالات ناموجود، مشکل اصلی آن خواهند بود. در این میان، ویراستاران مهم‌ترین منبع اطلاعات عمومی در جهان می‌توانند از کمک یادگیری ماشینی استفاده کنند. در حال حاضر الگوریتم‌هایی برای شناسایی اهداف خرابکارانه در مقاله‌ها و همچنین مقاله‌های غیرمعتبر وحود دارد اما قطعاً ماشین‌ها عملکرد بهتری در این زمینه خواهند داشت. هوش مصنوعی می‌توانند اطلاعات غایب در مقالات ویکیپدیا را کشف کرده و آنها را خلاصه‌سازی کند. بعلاوه این سیستم‌ها می‌توانند مقاله‌های ناموجود و لازم را کشف کرده و پیش‌نویس‌های مناسب را برای آنها تألیف کنند. در نهایت به این نتیجه می‌رسیم که برای کاهش خطاهای انسانی در منابع علمی جهان، باید انسان‌ها را به کمک هوش مصنوعی توانمند کنیم.

ویکیپدیا نویسی با هوش مصنوعی هوش مصنوعی رباتیک و هوش مصنوعی سیستم یادگیری ماشین یادگیری ماشین ویکیپدیا ویکی دیتا پردازش زبان طبیعی زبان عصبی هوش مصنوعی گوگل seq2seq