--- tags: - sentence-transformers - sentence-similarity - feature-extraction - generated_from_trainer - dataset_size:1355513 - loss:MultipleNegativesRankingLoss widget: - source_sentence: من هو مؤسس الحزب الشيوعي السوري؟ sentences: - 'أخوية سيون أخوية سيون أو جمعية سيون هو اسم تم تداوله لعدد من المنظمات بينها ما هو حقيقي وما هو خيالي إلا أن أشهرها هي منظمة أخوية تأسست وحُلت في فرنسا عام 1956 من قبل المهندس بيير بلانتار.' - 'الحزب الشيوعي السوري الحزب الشيوعي السوري من أقدم الأحزاب السورية وكان منظمة واحدة مع الحزب الشيوعي اللبناني وتعرض للعديد من الأزمات أدت للعديد من الانقسامات وهو عضو في الجبهة الوطنية التقدمية في الجمهورية العربية السورية ومن مؤسسيها أمينه العام السيدة وصال فرحة بكداش' - 'فوربس (مجلة) تأسست مجلة فوربس عام 1917 من طرف المهاجر الاسكتلندي بيرتي تشارلز فوربس (1880-1954). بعد وفاته عام 1954 تولى إدارة المجلة ابنه بروس تشارلز فوربس (1916-1964). وبعد وفاة بروس تولى الإدارة أخوه مالكولم ستيفنسون فوربس (1917-1990). بعد وفاة مالكوم أصبح ابنه الكبير ستيف فوربس (1947) الرئيس والمدير التنفيذي ورئيس تحرير مجلة فوربس. وعاودت فوربس الصدور باللغة العربية من جديد في نهايات العام 2010 في دبي وترأس تحريرها السيدة خلود العميان' - source_sentence: ما هي عاصمة تيمور الشرقية؟ sentences: - 'محمد نور الكتبي محمد نور بن محمد إبراهيم الكتبي . أحدأئمة المسجد الحرام وقاضي المدينة ، ولد في مكة المكرمة سنة 1323 هـ ، وتلقى تعليمه فيها، وأخذ عن علمائها وعن والده العلامة محمد إبراهيم الكتبي ، تولى قضاء المدينة المنورة حتى احيل للتقاعد سنة 1373 هـ ، توفى في 22شوال سنة1402 هـ .' - 'بانجيا قارة البانجيا "Pangaea": وتعني (الكل)، كما تعني الأرض باللغة الإغريقية، هي تلك القارة العملاقة كانت موجودة قبل 250 مليون عام خلت، قبل أن تنفصل لينتج عنها القارات المعروفة اليوم. البنجيا بدأت تتكسر قبل حوالي200مليون عام تقريباً. يطلق على هذه القارة في اللغة العربية أحياناً اسم "القارة الأم" لأنها أصل القارات جميعاً تدل جيولوجية القارات وأشكالها على أنها كانت متصلة معاً يوماً ما.' - 'تيمور الشرقية تقسم تيمور الشرقية إلى 13 منطقة إدارية: وتنقسم المناطق إلى 65 مقاطعة فرعية و 442 ساكو و 2225 ألدايا. تقع تيمور الشرقية في جنوب شرق آسيا وتعد جزيرة تيمور جزءاً من جزر هذه المنطقة، كما أنها أكبر جزر سوندا الصغرى وأقصاها شرقاً. يقع إلى الشمال من الجزيرة الجبلية مضيق أومباي ومضيق ويتار وبحر باندا الكبير. من الجنوب يفصل بحر تيمور الجزيرة عن أستراليا، بينما يحدها من الغرب المحافظة الاندونيسية نوسا تنقارا الشرقية. أعلى جبل في تيمور الشرقية هو تاتامايلاو (المعروف أيضا باسم جبل راميلاو) بارتفاع 2963 متر (9721 قدم). المناخ المحلي استوائي حار ورطب وعموما، يتميز بالموسمين الجاف والممطر. العاصمة وأكبر مدينة والميناء الرئيسي هي ديلي، بينما ثاني أكبر مدينة هي من بوكو في الشرق. تتألف المنطقة الشرقية لتيمور الشرقية من مدى بيتشاو ومنطقة ايرالالارو. اقترح جعل هذه المنطقة أولى المحميات في تيمور الشرقية حيث تحتوي على ما تبقى من مساحة البلاد من الغابات الاستوائية الجافة. كما أنها موطن لعدد من النباتات والأنواع الحيوانية الفريدة وهي قليلة الكثافة السكانية. يتميز الساحل الشمالي بعدد من نظم الشعاب المرجانية التي يعتقد أنها في خطر. عرفت تيمور قبل وأثناء الاستعمار بخشب الصندل. في أواخر عام 1999، تم تدمير حوالي 70 ٪ من البنية التحتية الاقتصادية في تيمور الشرقية بسبب النزاع الدائر في البلاد، كما فر نحو 260 ألف شخص غرباً. أعيد بناء قسم كبير من البنية التحتية بين عامي 2002-2005 ضمن برنامج دولي بقيادة الأمم المتحدة وبإشراف مستشارين مدنيين، و 5000 من قوات حفظ السلام (8000 عند الذروة) و 1300 ضباط شرطة. بحلول منتصف عام 2002 عاد كل اللاجئين عدا 50,000 منهم. أحد المشاريع الواعدة طويلة الأمد هو مشاركة أستراليا في تطوير موارد النفط والغاز الطبيعي في مياه جنوب شرق تيمور. منحت الإدارة الاستعمارية البرتغالية تنازلات لاستكشاف الآبار المحيطة لشركة أوسيانيك أكسبلوريشن كوربوريشين. لكن الغزو الاندونيسي في عام 1976 ألغى هذا الأمر وقسمت الموارد بين اندونيسيا وأستراليا وفقاً لمعاهدة تيمور غاب في عام 1989.حددت المعاهدة مبادئ الاستغلال المشترك للموارد البحرية في "الفجوة" التي خلفها حينها البرتغاليون في تيمور في اتفاقية الحدود البحرية المتفق عليها بين البلدين في عام 1972. قسمت ايرادات المنطقة المشتركة 50 ٪ -50 ٪. بدأت شركتا ودسايد بتروليوم وكونوكو فيلبس تنمية بعض الموارد في تيمور غاب بالنيابة عن الحكومتين في عام 1992. لم ترث تيمور الشرقية حدوداً بحرية دائمة عند حصولها على الاستقلال، بالتالي رفضت معاهدة تيمور غاب لكونها غير قانونية. تم التوقيع على اتفاق مؤقت (معاهدة بحر تيمور، وقعت عندما أصبحت تيمور الشرقية مستقلة في 20 مايو 2002) عرف منطقة التنمية النفطية المشتركة، ومنح 90 ٪ من عائدات المشاريع القائمة في هذا المجال إلى تيمور الشرقية، و 10 ٪ لأستراليا. أول تطور جديد هام في منطقة التنمية النفطية المشتركة منذ استقلال تيمور الشرقية هي أكبر مورد النفط في بحر تيمور (حقل غاز الشروق الكبير). كان استثمار هذا الحقل موضوعاً لاتفاقات منفصلة في عامي 2003 و 2005. يقع فقط 20 ٪ من الحقل ضمن منطقة التنمية النفطية المشتركة والباقي في المياه التي لا تخضع للمعاهدة (و يطالب بها البلدان). أعطت المعاهدة الأولية المؤقتة 82% من الإيرادات لأستراليا و18 ٪ فقط إلى تيمور الشرقية.' - source_sentence: من هم الخمير الحمر؟ sentences: - 'تشارلز داروين يعد داروين من أشهر علماء علم الأحياء. ألف عدة كتب في ما يخص هذا الميدان لكن نظريته الشهيرة واجهت انتقاد كبير وخصوصاً من طرف رجال الدين في جميع أنحاء العالم، دارون نفسه ظل حائراً في ما عرف بما سماه الحلقة المفقودة، التي تتوسط الانتقال من طبيعة القردة للإنسان الحديث. في عام 1859 م، قام داروين بنشر نظرية التطور مع أدلة دامغة في كتاب (أصل الأنواع) متغلباً على الرفض الذي تلقاه مسبقاً من المجتمع العلمي على نظرية تحول المخلوقات. في 1870 م، تقبل المجتمع العلمي والمجتمع عامة نظرية التطور كحقيقة.مع ذلك كان الكثير يفضلون التفسيرات الأخرى، واستمر ذلك حتى نشوء التوليفة التطويرية الحديثة، (1930 م - 1950 م) حيث أصبح هناك إجماع واسع على أن الاستمرار الطبيعي كان المحرك الأساسي للتطور. وبصياغة أخرى فإن اكتشاف داروين العلمي هو نظرية موحدة لكل علوم الأحياء وموضحة للتنوع فيها.' - 'تعدد الزوجات في المسيحية على الرغم من وجود أمثلة على تعدد الزوجات في العهد القديم، الا أن تعدد الزوجات لا يعتبر شكلاً من أشكال الزواج المقبولة داخل أغلب المذاهب المسيحية، ففي العهد الجديد دعى يسوع إلى وحدانية الزواج، وترفض اليوم معظم الطوائف المسيحية تعدد الزوجات. وان كانت هناك بعض الطوائف التي تمارس تعدد الزوجات مثل المتشددين من المورمون. وقد كان لنظرة الكنيسة حول وحدانية الزواج أثر في القوانين الغربية، فغالبية الدول الغربية لا تعترف قوانينها بأي تعدد للزوجات.' - 'الخمير الحمر الخمير الحمر (بالخميرية: ខ្មែរក្រហម خمير كراهام) كان الحزب السياسي الحاكم في كمبوديا - والتي سميت وقتها كمبوتشيا الديمقراطية - منذ عام 1975 إلى عام 1979. وهو عبارة عن حلف لمجموعة أحزاب شيوعية في كمبوديا تطورت لاحقا لتشكل "الحزب الشيوعي لكمبوتشيا" أو اختصارا ("PCK") ولاحقا "حزب كمبوتشيا الديمقراطية". عُرفت أيضا باسم منظمة "حزب الخمير الشيوعي" أو "الجيش الوطني لكمبوتشيا الديمقراطية".' - source_sentence: أين يقع مضيق أطرانط؟ sentences: - 'مضيق أطرانط مضيق أطرانط أو مضيق أوترانتو، حوض بحري يقع بين إيطاليا وألبانيا ( بالكرواتية: Otrantska vrata ), (بالألبانية: Kanali i Otrantos; بالإيطالية: Canale d''Otranto) ويصل البحر الأدرياتيكي بالبحر الأيوني يبلغ عرضه 72 كم، ويُعزى اسم المضيق إلى المدينة الإيطالية أطرانط (أو أوترانتو) والتي تطل على المضيق من ضفته الغربية.ويفصل بين المضيق وبين خليج ميسينا شبه جزيرة سالنتو والمسماة بكعب إيطاليا.وكان هذا المضيق ساحة معارك خلال الحرب العالمية الأولى,حيث كانت إيطاليا وحلفائها فرنسا والمملكة المتحدة يسعون إلى عرقلة وصول قوات الإمبراطورية النمساوية المجرية إلى البحر الأبيض المتوسط عبر إغلاق المضيق غلالة نارية. ما أدى لحدوث معركة مضيق أطرانط 1917.كما شهد المضيق خلال الحرب العالمية الثانية معركة صغرى بين إيطاليا من جهة والمملكة المتحدة وأستراليا من جهة ثانية.' - 'نقرس زادت معدلات الإصابة بالنِقْرس خلال العقود الأخيرة، حيث أُصيب ما يتراوح بين 1-2% من سكان الغرب في أحد مراحلهم العمرية. ويُعتقد أن هذه الزيادة ترجع إلى ارتفاع عوامل الخطورة بين السكان، مثل المتلازمة الأيضية وزيادة المتوسط المتوقع للأعمار وتغيير النظام الغذائي (الحمية). عُرف مرض النِقْرس تاريخياً بـ "داء الملوك" أو "مرض الأغنياء".' - 'بي كي (فيلم) بي كاي (أيضا يقرأ Peekay) هوفيلم دراما وخيال علمي كوميدي هندي من إخراج وانتاجراجكومار هيراني مع فيدو فينود شوبرا المشارك في الانتاج. الفيلم من بطولة عامر خان وأنوشكا شارما و سوشانت سينغ راجبوت وكان الموعد الأول لإصدار الفيلم في 25 ديسمبر عام2013م. لكن تأجل موعد التصوير لذلك تم تأجيل موعد الإصدار إلى يوم 19 من شهر ديسمبر عام2014م.وحقق الفيلم ايرادات كبيرة جداًوصلت الي 792 كرور ليصبح وقتها اعلي فيلم هندي تحقيقاً للايرادات في التاريخ قبل ان يهبط الي المركز الثاني خلف فيلم عامر الذي تبعه دانجال والذي حقق ايرادات وصلت الي 2,007 كرور وصرح المخرج هيراني ان الفيلم سيكون هجاء حول "God and godmen"بعد نجاح فيلم ثلاثة بلهاء ، بدأ المخرج راجكومار هيراني والكاتب أبهيجات جوشي العمل من أجل مشروعهما التالي وقد كتبوا قصة عن شخصية لديها القدرة على الدخول في عقل الأشخاص الآخرين لجعل هؤلاء الأشخاص أفضل. وقد قضوا سنة واحدة لكتابة القصة ولكنهم اكتشفوا ان القصة ستكون مشابهة كثيراً لقصة فيلم Inception وبعد مشاهدة الفيلم، شعر هيراني وجوشي بالصدمة من التشابه بين الفيلمين. وفي نهاية المطاف، قرروا الغاء الفيلم، ثم أعاد هيراني وجوشي إعادة صياغة السيناريو والنص ،وقد استغرق الأمر خمس سنوات لصناعة الفيلم وثلاث سنوات لكتابته.' - source_sentence: اين يوجد مقر شركة هيتاشي؟ sentences: - 'نيتروجين النتروجين عنصر شائع في الكون، حيث يدخل في تركيب درب التبانة والمجموعة الشمسية، وعلى كوكب الأرض يشكّل غاز النتروجين 78% من الغلاف الجوي للأرض، وبالتالي هو أكثر العناصر الكيميائية النقية من حيث الوفرة؛ أما في القشرة الأرضية، فمن النادر أن يوجد عنصر النتروجين على شكل أملاح لاعضوية. بالمقابل، يدخل عنصر النتروجين في الطبيعة -بشكل عضوي- في تركيب جميع الأنسجة الحيّة، وذلك بشكل أساسي في الأحماض الأمينية (وبالتالي في البروتينات)، وكذلك في الأحماض النووية حمض نووي ريبوزي منقوص الأكسجين وحمض نووي ريبوزي؛ وفي الصناعة يشكّل النتروجين العديد من المركّبات المهمة كالأمونيا وحمض النتريك والسيانيد، ويدخل أيضاً كعنصر مهم في صناعة الأسمدة.' - 'هيتاشي مجموعة هيتاشي ليمتد (株式会社日立製作所).شركة يابانية عالمية متعددة النشاطات. مقرها الرئيسي في طوكيو في اليابان. حققت سنة 2009 إيرادات فاقت 99 مليار دولار وتشغل حوالي 400,120 شخص.' - 'منطقة لا ريوخا لا ريوخا (بالإسبانية: La Rioja) منطقة تقع في شمال إسبانيا، من سبعة عشر مناطق حكم ذاتي في إسبانيا.' pipeline_tag: sentence-similarity library_name: sentence-transformers --- > [!WARNING] > **DISCLAIMER:** This model is an **experimental version** and is provided for **research purposes only**. > Access is **not public**. > Please do not share. # SentenceTransformer This is a [sentence-transformers](https://www.SBERT.net) model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Maximum Sequence Length:** 512 tokens - **Output Dimensionality:** 768 dimensions - **Similarity Function:** Cosine Similarity ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: from sentence_transformers import SentenceTransformer ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("langtech-innovation/sentence-mRoBERTA-v0") # Run inference sentences = [ 'This is a sentence.', 'This is another sentence.', 'Això és un text de prova.', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 768] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] ``` ## Training Details ### Training Hyperparameters #### Non-Default Hyperparameters - `per_device_train_batch_size`: 128 - `learning_rate`: 2e-05 - `warmup_ratio`: 0.1 - `bf16`: True - `batch_sampler`: no_duplicates #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: no - `prediction_loss_only`: True - `per_device_train_batch_size`: 128 - `per_device_eval_batch_size`: 8 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 1 - `eval_accumulation_steps`: None - `torch_empty_cache_steps`: None - `learning_rate`: 2e-05 - `weight_decay`: 0.0 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1.0 - `num_train_epochs`: 3 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.1 - `warmup_steps`: 0 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: True - `fp16`: False - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 0 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: True - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: None - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: False - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: None - `hub_always_push`: False - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `include_for_metrics`: [] - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `eval_on_start`: False - `use_liger_kernel`: False - `eval_use_gather_object`: False - `average_tokens_across_devices`: False - `prompts`: None - `batch_sampler`: no_duplicates - `multi_dataset_batch_sampler`: proportional
### Framework Versions - Python: 3.9.16 - Sentence Transformers: 4.1.0 - Transformers: 4.52.3 - PyTorch: 2.7.1+cu126 - Accelerate: 1.7.0 - Datasets: 3.6.0 - Tokenizers: 0.21.1 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### MultipleNegativesRankingLoss ```bibtex @misc{henderson2017efficient, title={Efficient Natural Language Response Suggestion for Smart Reply}, author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil}, year={2017}, eprint={1705.00652}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```