جستجوی اطلاعات فارسی از طریق اینترنت

خط فارسی دارای مشكلات مختلفی است كه در جستجو و بازیابی اطلاعات، مسائل و مشكلات فراوانی را فراروی كابران اینترنت قرار میدهد. به خصوص با رشد سریع انتشارات الكترونیكی بر روی وب در شكلهای مختلف پایگاههای اطلاعاتی، وبلاگ و... هیچ قاعده مشخص و ثابتی برای رسمالخط فارسی وجود ندارد و این مسأله باعث شده تا جستجوگران مطالب فارسی با مشكلات فراوانی روبرو شوند.

اینترنت به عنوان یك محمل اطلاعاتی عظیم، منابع اطلاعاتی را در مقیاسی وسیع در دسترس مخاطبان بالقوه قرار داده است. سهولت دسترسی به منابع اطلاعاتی اعم از متن و سایر رسانهها عمدهترین مزیت اینترنت محسوب میشود. این توانایی كه هر كس ناشر آثار خود باشد عواقب ناخواستهای را نیز در پی خواهد داشت و آشكارترین معضل، آن است كه انبوهی از منابع بسیار متنوع و غیرقابل مدیریت را فراهم میآورد. افزایش سریع منابع اینترنتی نیازمند یك سازماندهی مفید و مؤثر است. هرچند در حال حاضر راهنمایهایی برای منابع اینترنتی تهیه شده است كه براساس فایلهای مقلوب ساخته شدهِ توسط موتورهای جستجو و با استفاده از قابلیتهای مختلف این موتورها از جمله؛ استفاده از عملگرهای بولی، جستجوی دقیق عبارت، محدود كردن یك جستجو به بخش خاصی از ركورد (مانند عنوان، آدرس) كوتاهسازی كلمات، جستجوی نزدیكیابی واژهها، ایجاد محدودیت زمانی و منطقهای و زبانی و .... به جستجوی اطلاعات كمك میكند اما باید تاكید كرد كه در امر بازیابی اطلاعات از اینترنت بدون نمایهسازی نظام یافته نمیتوان انتظار بازیابی مفید و مؤثر را داشت. هرچند بیشترین اطلاعات موجود بر روی اینترنت به زبان انگلیسی است، ولی حجم اطلاعات به زبان فارسی نیز با سرعت در حال افزایش است و كاربران به دلایل مختلفی علاقه زیادی به اطلاعات فارسی نشان میدهند و از آن جایی كه زبان غالب در اینترنت انگلیسی است، جستجو به زبانهای غیرانگلیسی از جمله فارسی، مسایل و مشكلات مختلفی را جدای از مشكلات عمومی اینترنت دارد.

حجم اطلاعات به زبان فارسی در روی اینترنت در اشكال مختلف آن به سرعت رشد كرده است. در حال حاضر توسعه وبلاگهای فارسی، سایتهای علمی، تبلیغاتی و دانشگاهی به زبان فارسی باعث شده است كه جایگاه زبان فارسی تا حد زبان اول ارتباطات اینترنتی نزد ایرانیان و فارسیزبانان در سراسر جهان ارتقا یابد. شاید بتوان گفت كه اولین مرجع وبلاگنویسی فارسی با انتشار راهنمای ساخت وبلاگ فارسی آغاز شده است. بدون شك دومین موج نیز با شروع به كار سایت پرشین بلاگ كه امكان راهاندازی وبلاگ برای كاربران فارسی زبان را با سهولت بیشتری فراهم میكند آغاز شده است. اما پیامد قابل توجه دیگری كه رشد وبلاگنویسی در ایران داشته است پیدایش سایتهای اینترنتی فارسی زبانی است كه صاحبان وبلاگها ایجاد كردهاند و این خود موج جدیدی از گسترش كاربرد اینترنت در جامعه ایران به حساب میآید. اكنون روی آوردن برخی از روزنامهنگاران، پژوهشگران، دانشجویان به وب فارسی و استفاده از منابع خبری، علمی و .... موجب تقویت نقش رسانهای وب فارسی شده است.

پدیده دیگری كه باعث گسترش زبان و خط فارسی در اینترنت شده است، ایجاد كتابخانههای دیجیتالی فارسی در شبكه جهانی است. با این كه از شكلگیری كتابخانههای فارسی در شبكه جهانی مدت زیادی نمیگذرد، اما با این حال به سرعت در حال رشد و گسترش است. شماری از این كتابخانهها در پایگاههای اینترنتی شكل گرفتهاند و بسیاری وبلاگهایی هستند كه برای این كار راهاندازی شدهاند. از ویژگیهای این كتابخانهها این است كه هیچ یك جنبه تجاری ندارند. آنچه در بسیاری از كتابخانههای مجازی فارسی در دسترس است تنها شامل كتاب نیست، بلكه نوشتههایی اعم از داستان، مقاله، تك نگاشت و .... نیز در میان مجموعهها دیده میشود. هم چنین آثاری كه احتمالاً هیچ گاه چاپ كاغذی ندارند و البته وجود كتابهایی كه مدتهاست نایاب هستند و مجال انتشار دوباره نیافتهاند و یا آثاری كه امروز به دلایلی بازچاپ آنها مقدور نیست، از جاذبههای كتابخانههای مجازیاند. پایگاه اینترنتی كتابهای رایگان فارسی، پایگاه اینترنتی بانی تك، كتابخانه مجازی داستانهای فارسی، آوای آزاد، پایگاه اینترنتی خوابگرد، كتابخانه دوات، پایگاه اینترنتی سخن، وبلاگ كتابخانه هرمس، پایگاه اینترنتی گفتمان، پایگاه تاریخ و فرهنگ ایران زمین، پایگاه مركز جهانی اطلاعرسانی آل البیت، كتابخانه پایگاه اینترنتی حوزه، پایگاه اینترنتی امام علی (ع)، پایگاه اینترنتی كتابخانه دیجیتال و .... شماری از این كتابخانهها هستند.

كاربران به دلایل مختلفی از قبیل «دسترسی آسان و ارزان به حجم عظیم اطلاعات، عدم نیاز اطلاعات یافته شده از اینترنت به تایپ مجدد، دسترسی سریع و اطلاعات جدید، صرفهجویی در وقت و عدم تسلط اكثر كاربران به زبان انگلیسی كه زبان غالب بر اینترنت است» به دنبال اطلاعات فارسی از اینترنت هستند. گسترش زبان و انبوهی از نوشتارها ایجاب میكند كه خط ضابطه داشته باشد و از سوی دیگر پیشرفت فنآوری و پیدایش اینترنت خواستار ضابطه و قانونمندی است. اطلاعرسانی كه جنبه بینالملی پیدا كرده است بدون دستورِ خطی سامان یافته و نظاممند میسر نیست و دستكم بر دشواریها میآفریند. در حال حاضر وبلاگهای فارسی مقام دوم یا سوم را در جهان دارا میباشد. به نظر دكتر آشوری، اگر زبان فارسی به همین صورت بیدقت در اینترنت به كار رود در سطح زبانی برای تفنن باقی خواهد ماند و كمتر حرفی جدی به این زبان زده خواهد شد. آینده زبان فارسی در اینترنت بستگی به این دارد كه نویسندگان فارسی تا چه حد كار خود را جدی بگیرند و این زبان را بازسازی كنند كه از لحاظ قدرت بیان و دقت مفاهیم و استواری ساختار دستوری به زبان انگلیسی نزدیك شود.

نبود استاندارد ثابت رسمالخط فارسی موجب این شده است كه به تعداد صفحات وب فارسی سبك و سیاق نگارش به كار رفته باشد، لذا میتوان چنین ارزیابی كرد كه اكثر وبهای فارسی در برخی خصوصیات مشترك میباشند از جمله این كه نگارش برخی از آنها زبان غیررسمی و محاورهای است و به خصوص در متون علمی اغلب واژههای بیگانه به دفعات استفاده میشود. رسمالخط مورد استفاده نیز متفاوت و سلیقهای است و برخی از آنها غلطهای تایپی و نگارشی فراوانی دارند و این خصوصیات، اغلب به جهت محدودیتهای محیط الكترونیكی و عدم تطابق رسمالخط فارسی با آن میباشد كه نمایهسازی و سپس جستجو به این زبان را با دشواریهایی رو به رو میسازد.

با توجه به این نكته كه اطلاعات ارزشمند فراوانی در اینترنت وجود دارد و اینترنت با شتابی فراوان به یك منبع اطلاعاتی ممتاز تبدیل شده است. موتورهای جستجو به عنوان یكی از اساسیترین دروازههای ورود به منابع اینترنتی دارای ضعفهایی هستند كه میتوان به این موارد اشاره كرد:

- در یك مجموعه از یافتههای بازیابی شده مدخلهای تكراری فراوانی ملاحظه میشود.
- نتایج غیر قابل پیشبینی هستند.
- نتایج چه بسا گمراه كننده باشند؛ ممكن است جستجویی در یك موتور كاوش نتیجهای نداشته، ولی در موتور دیگر دارای یافتههای فراوان باشد.
- موتورهای كاوش محتویات پایگاههای اطلاعاتی خودشان را نشان نمیدهند و از معیارهایی كه برای گنجاندن یك مدرك در فایلهایشان دارند حتی شرحی ارایه نمیكنند.
- مهار واژگانی وجود ندارد و قواعد نقطهگذاری و بزرگنویسی نیز استاندارد نیست.
- بدون بررسی عملی هر عنصر، اغلب نمیتوان میزان ربط و رابطهها را تحلیل كرد. یعنی اطلاعات كافی در مدخل نمایه نیست تا فرد بتواند دست به انتخاب بزند.
- عدم توان موتورهای جستجو در تمایز میان مداركی كه توسط فرد الف نوشته شده و مداركی كه درباره فرد الف نوشته شده است.
- منابع قابل توجهی در شبكه وب وجود دارند كه توسط موتورهای جستجو نمایه نمیشوند. به این بخش از وب اصطلاحاً وب نامریی میگویند. «وب نامریی بخش بزرگی از وب است كه موتورهای جستجو آنها را نمیتوانند نمایه كنند و عبارتند از: سایتهای دارای رمز عبور، فایلهای پی.دی.اف از متون آرشیو شده، ابزارهای تعاملی نظیر ماشین حسابها و برخی از واژهنامهها و همچنین بعضی از پایگاههای اطلاعاتی، منابع محافظت شده از طریق اسم كاربر و گذر واژه، منابع و صفحات وب بدون پیوند و صفحات افزون بر حداكثر تعداد صفحات قابل مرور.»

جستجوی اطلاعات در اینترنت به دو روش میتواند صورت گیرد یكی استفاده از جملات زبان محاورهای است و دیگری بكارگیری كلمات كلیدی. در روش استفاده از جملات زبان محاورهای كه اغلب به كاربران تازهكار پیشنهاد میشود. یكی از عیبهای بزرگ این روش تعداد نتایج جستجوی زیادی است كه بازگردانده میشود. به همین دلیل این روش توسط كاربران حرفهای و حتی توسط همه، كمتر استفاده میشود.

یكی از كاراترین و مقتدرترین روشهای جستجوی اطلاعات در دنیای وب استفاده از واژههایی است كه اصطلاحاً كلمات كلیدی نامیده میشوند. اغلب كاربران حرفهای و جستجوگران ورزیده دنیای اینترنت میتوانند با طرح بهترین كلمات كلیدی و بكار بستن قوانین تركیب آنها با هم برای نیازهای اطلاعاتی خود پاسخی در خور بیابند. در این روش توصیههای زیر برای انتخاب كلمات كلیدی و نیز جستجوی دقیق و مفید پیشنهاد میشود كه بشرح ذیل است:

1- حتیالمقدور سعی شود كلمات كلیدی از میان اصطلاحات منحصر به فرد و اسامی خاص انتخاب شود.

2- حتیالمقدور از آوردن كلمات عمومی كه عناوین بسیاری را در زیر مجموعه خود شامل میشوند، جداً خودداری كنید.

3 – همیشه اسم شخص یا نام شی یا هر چیز دیگری را كه مد نظر دارید بهطور كامل وارد كنید.

4 – دقت كنید كه اگر موتور جستجو میان حروف بزرگ و كوچك تفاوتی میگذارد، این مسأله را در طرح كلمات كلیدی خود مدنظر داشته باشید.

5 – در نظر داشته باشید اگر نتیجه جستجو صفر بود به احتمال زیاد میتواند از یك اشتباه تایپی باشد.

6 – اگر املای صحیح و كامل كلمهای را نمیدانید از كاركتر جانشین كه اغلب * و یا ؟ است استفاده كنید.

7 – اگر یك كلمه كلیدی را برای طرح دقیق و تمام و كمال یك مورد جستجو كفایت نمیكند، از تكنیكهای جستجوی عبارتی، استفاده از اپراتورهای جبر بولین (AND, OR, NOT) استفاده كنید. جستجوی عبارتی یكی از مهمترین و قدرتمندترین امكانات جستجو در اغلب موتورهای جستجو میباشد و میتوان یك عبارت یا جمله مشخص را به همان ترتیبی كه كلمات وارد شدهاند مورد جستجو قرار داد. برای این روش جستجو عبارت مورد نظر را داخل گیومه"" بگذارید.

8 - استفاده از عملگر AND : AND به مفهوم "و" برای محدود كردن دامنه جستجو از طریق تركیب كلید واژههای مختلف به كار میرود و برای تركیب كلیدهای جستجو زمانی كه برای شما مهم است كه دو یا چند كلمه كلیدی حتماً وجود داشته باشد و علامت آن در پایگاههای مختلف به صورت استفاده از عبارت AND، استفاده از + ، انتخاب عبارت ALL THE WORD از منو، انتخاب عبارت (MATCH ON ALL WORDS AND) بهوسیله كلیك كردن بر روی دكمههای رادیویی است.

9– استفاده از عملگر OR: اپراتور OR به مفهوم "یا" و برخلاف عملگر AND باعث گسترش دامنه جستجو و بازیابی اطلاعات بیشتر شده برای تركیب كلید واژههای جستجو زمانی كه انتظار دارید تنها یك، دو یا چند كلمه كلیدی حضور داشته باشند و علامت آن استفاده از عبارت OR، نحوهی اجرای ساده و معمولی آن، انتخاب عبارت ANY OF THE WORDS از منو، انتخاب عبارت (MATCH ON ANY WORDS OR) با كلیك بر روی دكمههای رادیویی میباشد. یكی از كاربردهای مهم این عملگر پوشش مفاهیم یا اصطلاحات مترادف، مرتبط یا با املاهای متفاوت است.

10 – استفاده از عملگر NOT: اپراتور NOT به مفهوم "نه" و یا به جز كه در این صورت تمامی جوابهای بازگشتی كه حاوی عبارت یا كلمه كلیدی هستند حذف خواهند گردید و برای اجرای آن تنها كافیست كه NOT را قبل از عبارت یا كلمه كلیدی مورد نظرتان با یك فاصله بیاورید.

11 – استفاده از كوتاهسازی كلید واژهها: این تكنیك به ما امكان میدهد كه با وارد كردن بخشی از یك كلید واژه بتوانیم مشتقات مختلف آن را نیز در فرآیند جستجو بازیابی كنیم. اكثر موتورهای جستجو این تكنیك را با استفاده از علامت ستاره (*) ارایه میدهند. یكی از مشكلات استفاده از این تكنیك این است كه باعث بازیابی اطلاعات غیرمرتبط و ناخواسته زیادی میشود.

12 – استفاده از عملگر نزدیكیابی: در بسیاری از موارد استفاده از عملگر AND باعث بازیابی اطلاعاتی میشود كه برای ما مفید نیست. به این دلیل كه این عملگر كلید واژهها را در هر كجای متن كه باشند بازیابی میكند. در این موارد استفاده از تكنیك نزدیكیابی میتواند از ریزش كاذب اطلاعات و یا بازیابی اطلاعات غیرمرتبط جلوگیری نماید. همه موتورهای جستجو قابلیت استفاده از این تكنیك را ندارند ولی به عنوان مثال در موتور جستجوی آلتاویستا میتوان با استفاده از عملگر NEAR از این تكنیك استفاده نمود.

13 – جستجوی تركیبی با استفاده از پرانتز: این تكنیك یكی از مهمترین تكنیكهای جستجو میباشد كه به وسیله آن میتوان تا حدود زیادی از بازیابی موارد غیرمرتبط در محیط وب جلوگیری كرد. در این روش میتوان از همه عملگرهای جستجو كه در بالا گفته شده یكجا استفاده كرد و آنها را با همدیگر تركیب نمود.

14 – جستجوی كلیدواژه در عنوان صفحات وب: این تكنیك با این پیش فرض كه عنوان یك صفحه وب تا حدود زیادی نمایانگر محتوای اطلاعات موجود در آن است به جستجوی واژههای كلیدی در عنوان سایتها میپردازد. علامت آن در موتورهای جستجو متفاوت است ولی اغلب موتورهای جستجو از طریق فهرست انتخابی و یا گزینههای دیگر این امكان را فراهم میآورند.

15 – جستجوی حوزه سایتها: با توجه به این كه به صورت قراردادی هر كشوری حوزه خاصی در محیط وب دارد، قابلیت جستجوی حوزه سایتها به ما این امكان را میدهد كه فرایند جستجو را به حوزه خاصی نظیر سایتهای وب ایران (IR) و یا سایتهای وب سازمانهای غیر انتفاعی (ORG) محدود كنیم. دستورات استفاده از این تكنیك در موتورهای جستجو مختلف میباشد.

16 – محدود كردن جستجو به زبانهای مختلف باعث میشود نتایج جستجو به زبانهای دیگر آورده نشود و انتخاب مطلب مورد نظر آسانتر است.

17 – محدود كردن جستجو به تاریخ انتشار منابع در وب: تاریخ انتشار یا به اصطلاح روزآمدی مطلب به خصوص در منابع علمی اصل مهمی است و اینگونه محدودیت باعث میشود بنا به نیاز كاربر جدیدترین و یا قدیمیترین منبع بازیابی بشود.

18 – جستجوی رسانههای مختلف؛ موسیقی، عكس، ویدئو: زمانی كه فقط نوع خاصی از رسانه مورد نیاز است به عنوان مثال زمانی كه به عكس یك شخصیت نیاز داریم، جستجو در میان عكسها باعث میشود نتیجه جستجو شامل اطلاعات دیگری در مورد آن شخصیت نباشد.

19 – جستجوی صفحات با فرمتهای مختلف: PDF, WORD, MP3, MPEG, ….: زمانی كه فرمت خاصی مورد نظر است میتوان از این تكنیك استفاده كرد . به عنوان مثال اگر مایل باشیم منبع بازیابی شده در فرمت PDF باشد، این تكنیك میتواند مفید باشد.

20 – آگاهی از پیشفرضهای جستجو در موتور جستجو: با توجه به این كه هر موتور جستجو برای تركیب واژهها یك پیشفرض دارد و اگر از هیچ گونه عملگری استفاده نشود، كلید واژهها را به صورت پیشفرض با یكی از عملگرهای جبر بولی تركیب میكند؛ آگاهی از این پیشفرض موتورهای جستجوی مختلف مهارت ما را در جستجو بالا میبرد.

21 – وب نامریی: وب نامرئی به دو دلیل كمی و كیفی اهمیت دارد كمی از این نظر كه موتورهای جستجو فقط قادر هستند حدود 16 درصد از اطلاعات موجود در اینترنت را بازیابی كنند و اندازه وب نامریی تقریبا 500 برابر وب مریی است و كیفی از این نظر كه منابع اطلاعاتی موجود در وب عمیق معمولا ارزشمند و مفید هستند و در بسیاری از موارد پاسخگوی نیاز كاربران میباشند. آشنایی با ابزارهایی كه برای شناسایی منابع وب نامریی به وجود آمدهاند و كاربران را به سایتهای مناسب راهنمایی میكنند، باعث دسترسی به این بخش عظیم از اطلاعات مفید و ارزشمند میشود. مثل سایت INVISIBLEWEB كه فهرستی از منابع نامریی را و سایت COMPLETEPLASET كه فهرستی از تقریبا 40000 پایگاه اطلاعاتی وب نامریی را ارایه میدهد.