۳۰ هزار جمله پیكره گفتمان در فضای مجازی نهایی شد

۳۰ هزار جمله پیكره گفتمان در فضای مجازی نهایی شد

آتی جو: سازمان فناوری اطلاعات ایران از نهایی شدن ۳۰ هزار جمله پیكره گفتمان در فضای مجازی با همكاری مركز علوم و تحقیقات كامپیوتری علوم اسلامی آگاهی داد.


به گزارش آتی جو به نقل از سازمان فناوری اطلاعات ایران، مركز علوم و تحقیقات كامپیوتری علوم اسلامی به سفارش سازمان فناوری اطلاعات ایران، طبق استاندارد پیكره گفتمان PENN (Pensilvania)، به تهیه پیكره های زبانی پرداخته و بعنوان خروجی نهایی طرح، ۳۰ هزار جمله پیكره گفتمان كه علاوه بر برچسب های گفتمانی شامل برچسب های اجزای كلام، نحوی و معنایی باز است را نمایش داد. داده های بزرگ به فناوری های فوق العاده ای برای پردازش داده های عظیم در مجموعه های بزرگ نیازمند است تا بتواند در زمانی معقول پاسخگوی نیازها و اهداف تحلیل و پردازش داده ها باشد. این داده ها نحوه كار سازمان ها و افراد را تحت تأثیر قرار می دهد. پردازش زبان های طبیعی یكی از زیرشاخه های با اهمیت در حوزه گسترده علوم كامپیوتر، هوش مصنوعی و باز دانش زبان شناسی محاسباتی است كه به تعامل بین كامپیوتر و زبان های طبیعی می پردازد. بازیابی اطلاعات مبحث مهمی در پردازش زبان های طبیعی محسوب می شود. مدل سازی توانایی زبانی انسان در مقاصد خیلی از جمله موارد زیر كاربرد دارد: مهندسی زبان، هوش مصنوعی، ترجمه ماشینی متون از زبانی به زبان دیگر، فناوری اطلاعات، فناوری ارتباطات، طراحی موتورهای جستجوگر، استخراج اطلاعات از متون با حجم بالا، جستجو در دادگان های زبانی بزرگ یا در اینترنت برای یافتن پاسخ های لازم به پرسش های متفاوت، پردازش متن و گفتار، دریافت فرمان های صوتی توسط ماشین و اجرای دقیق آنها، تبدیل متن به گفتار، تبدیل گفتار به متن، خلاصه سازی متون، تهیه بانك های اطلاعاتی، تهیه بانك های اصطلاحات علمی و... درك چگونگی عملكرد زبان و مدل سازی آن برای كامپیوتر از موارد مهم و حیاتی می باشد. كامپیوتر می تواند با برخورداری از دانش زبانی اهل زبان و باز خاصیت پردازش سریع، داده های زبانی را با دقت و سرعت بسیار بالایی تجزیه و تحلیل كند. به عبارتی می توان برای بخش های مختلف زبان كه ابزار موجود در فضای مجازی است مشخصه و شناسنامه یا بهتر بگوییم پیكره ای تعریف كرد كه در فضای مجازی و برای اهداف مختلف قابل استفاده باشد. بطور مثال برای نرم افزار STT یا «تبدیل گفتار به متن» ابتدا باید یك پیكره آوایی و واجی از آن زبان و برمبنای مدل هایی كه كامپیوتر قادر به درك آن باشد تهیه كرد. تصور كنید در یك جلسه تخصصی حقوقی به جهت اینكه گفتار افراد حاضر در جلسه توسط نرم افزار STT به متن تبدیل گردد، باید داده ها یا پیكره های آوایی و واژگانی تخصصی رشته حقوق موجود باشد. برای تبدیل متن به گفتار یا TTS باز نیاز به پیكره های متنی آن سوژه است. بدین سبب برای تحلیل، بازیابی و پردازش زبان مورد استفاده در فضای مجازی، نیاز به داده ها یا پیكره های موردنیاز آن زبان است. این پیكره ها داده های پایه ای تحلیل ماشینی خواهند بود. كه در سطح واج، آوا، هجا، واژه، جمله و سطح بالاتر همچون گفتمان، قابل تقسیم بندی هستند. بطور مثال در مباحث مربوط به ترجمه های ماشینی پیكره های متنی و معنایی در سطح كلمه و جمله خواهیم داشت. در تحلیل هایی كه نیاز به پردازش سطحی بالاتر همچون باشد، با گفتمان و برچسب های گفتمانی كه برای كامپیوتر قابل فهم باشد، سر و كار خواهیم داشت. تصور كنید شما تمایل داشته باشد تا ابزار الكترونیكی شما (مثلاً رایانه) بدون حضور شما به پست های الكترونیكی شما پاسخ بدهد. در این صورت ماشین نیاز دارد تا به درك جملات و پاراگراف ها بپردازد. به عبارتی نیاز به داده های برچسب خورده آن زبان دارد (یعنی جملات و گفتمان) تا بتواند از آن طریق به تحلیل پست الكترونیكی شما و در نتیجه تهیه پاسخ برای آن (با توجه به اطلاعاتی كه از وضعیت جلسات، وضعیت روانشناختی شما در آن هفته نوع رابطه شما و فردی كه به شما ای میل زده است و بسیاری موارد دیگر…) بپردازد. در همین راستا در بررسی ها و داده كاوی های مربوط به زبان فارسی در هر حوزه مثلاً كسب و كار باز می توانیم از پیكره های مربوط به آن استفاده نمود. مزیت داشتن پیكره ها در یك زبان علاوه بر موارد ذكر شده این است كه با وجود پیكره ها پردازش و تحلیل آسان تر شده و سرعت آن افزایش می یابد.

1397/12/26
14:17:40
5.0 / 5
29
این مطلب را می پسندید؟
(1)
(0)

تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
لطفا شما هم نظر دهید
= ۲ بعلاوه ۴
آتی جو