---
title: "كيف تحقق Minds دقة تتراوح بين 80 إلى 95 بالمئة: تعمق في المنهجية"
description: "إطار التحقق وراء ادعاء الدقة بنسبة 80 إلى 95 في المئة من Minds. استقرار الاختبار المكرر، ارتباط العناصر، معايير ANES، والبحث المنشور."
canonical_url: "https://getminds.ai/blog/ar/methodology-deep-dive-how-minds-validates-80-95-accuracy"
last_updated: "2026-05-20T17:15:49.597Z"
---

# كيف تحقق Minds دقة تتراوح بين 80 إلى 95 بالمئة

يعتبر نطاق الدقة من 80 إلى 95 بالمئة هو الرقم الأهم الذي تنشره Minds عن نفسها. كما أنه الرقم الذي يجب أن يحظى بأكبر قدر من التدقيق من أي فريق شراء يقيم بحث المستجيبين الصناعيين. هذه الصفحة تقدم منهجية التشغيل التي تنتج هذا الرقم، والبحث المنشور الذي يمثل أسسًا له، وبيانات استقرار الاختبار المكرر التي تدعمه، والحدود الصريحة التي تغطيها مجموعة الدقة.

الهدف هو أن يتمكن مراجعي الشراء من قراءة هذه الصفحة، وقرارة ما إذا كانت المنهجية متينة بما يكفي لاتخاذ الإجراءات بناءً عليها، وتنفيذ تحقق داخلي خاص بهم استنادًا إلى بيانات بحثهم التاريخي الخاصة.

## ما يعنيه ادعاء الدقة من 80 إلى 95 بالمئة

الادعاء محدد: فيما يتعلق بأسئلة التفضيل المعلن وردود الفعل على المفاهيم، يتطابق توزيع الردود التي ينتجها فريق Minds مع توزيع الردود التي ينتجها فريق من المستجيبين الحقيقيين على نفس الأسئلة بنسبة من 0.80 إلى 0.95.

هذا ليس ادعاء بأن أي مستجيب اصطناعي فردي يتطابق مع أي مستجيب حقيقي فردي. إنه ادعاء يتعلق بالتوزيع الإجمالي. منهجية البحث الصناعي هي بشكل أساسي مشكلة تقدير على مستوى السكان؛ المقارنة بين المستجيبين الأفراد هي وحدة التحليل الخاطئة.

يتطابق نطاق الارتباط من 0.80 إلى 0.95 مع ما تشير إليه الأدبيات المنشورة عن أخذ العينات السيليكونية على أنه نطاق الدقة القابل للتحقيق للـ LLMs الحديثة المهيأة على قصص ديموغرافية. أي شيء أقل من 0.80 يمكن أن يشير إلى أن إنتاج الشخصيات مكسور؛ أي شيء أعلى من 0.95 في سؤال حقيقي للبحث يمكن أن يشير إلى أن شروط التحقق لم تكن مُختبرة بما فيه الكفاية.

## الأوراق الأربعة التي ترتكز عليها إطار التحقق

### Argyle, Busby, Fulton, Gubler, Rytting, Wingate (2023) - "Out of One, Many: Using Language Models to Simulate Human Samples"

نشرت في *Political Analysis*. الورقة الأساسية لأخذ العينات السيليكونية. قام Argyle وزملاؤه بتجهيز GPT-3 على القصص الديموغرافية المأخوذة من الدراسات الوطنية للانتخابات الأمريكية (ANES)، السلسلة الأطول تشغيلًا والأفضل تحققًا لمسح الرأي العام في الولايات المتحدة. قاسوا ما إذا كان نموذج اللغة المهيأ ينتج توزيعات للإجابات التي تتطابق مع توزيعات المستجيبين الفعليين للدراسات الوطنية للانتخابات الأمريكية عبر بطاريات الأسئلة المتعلقة بالمواقف السياسية.

النتيجة الرئيسية: توزيعات المستجيبين الصناعيين ارتبطت بالمرجع الأساسي للدراسات الوطنية للانتخابات الأمريكية بنسبة من 0.85 إلى 0.95 عبر بطاريات أسئلة متعددة. احتفظ الارتباط عبر الطبقات الديموغرافية (العرق، التعليم، المنطقة، الفئة العمرية) بما في ذلك المجموعات الفرعية حيث يختلف التوزيع البشري نفسه عن المتوسط السكاني. خلصت الورقة إلى أن LLMs المهيأة على القصص الديموغرافية تنتج تقديرات دلالية إحصائيًا للمواقف البشرية التي يمكن أن تحل محل بعض أشكال بيانات المستجيبين البشريين.

هذه هي الورقة التي تحدد توقع الدقة العلوية. تستهدف معايرة Minds نسبة 0.85 إلى 0.95 على بطاريات مكافئة لـ ANES؛ هذا هو المعيار التشغيلي لمنهجية إنتاج الشخصيات.

### Horton (2023) - "Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus?"

ورقة عمل NBER. اختبر Horton ما إذا كان GPT-3 المهيأ على بروفايلات الوكلاء سيعيد إنتاج نتائج معروفة لتجارب الاقتصاد السلوكي. قام بإجراء تجارب كلاسيكية (الألعاب النهائية، مهام التفضيل الاجتماعي، مقاييس الاستعداد للدفع) ضد وكلاء اصطناعيين وقارن النتائج بخطوط الأساس للمستجيبين البشريين المنشورين.

أعاد الوكلاء الاصطناعيين إنتاج النتائج النوعية بثبات عبر جميع التجارب المعاد إنتاجها. كانت أحجام التأثيرات الكمية متطابقة مع خط الأساس البشري في نطاق 10 إلى 20 في المئة عبر معظم التجارب. استنتاج Horton: LLMs دقيقة بما فيه الكفاية كوكلاء اقتصاديين محاكين لخدمة كأدوات لدراسة الطيار، وفي كثير من الحالات دقيقة بما فيه الكفاية لتحل محل تنفيذ مستجيبي البشر تمامًا.

هذه هي الورقة التي تحدد اختبار الضغط المنهجي. إذا لم يتمكن المستجيبون الاصطناعيين من إعادة إنتاج النتائج المنشورة لاقتصاد السلوك، فإن منهجية إنتاج الشخصيات تكون مكسورة. يجتاز Minds هذا اختبار الضغط في العدة القياسية لإعادة اللعبة النهائية ومهام التفضيل الاجتماعي؛ هذا جزء من ادعاء الدقة التشغيلي.

### Bisbee, Clinton, Dorff, Kenkel, Larson (2024) - "Synthetic Replication of Survey Data with Large Language Models"

نشرت في *Political Analysis*. أخذت Bisbee وزملاؤه منهجية أخذ العينات السيليكونية خطوة أبعد: اختبروا ما إذا كان المستجيبون الاصطناعيين يمكنهم إعادة إنتاج نتائج المسح المنشورة بالكامل، وليس فقط إنتاج توزيعات دقيقة على بطاريات معزولة. اختاروا عدة دراسات مسح منشورة، وحاولوا إعادة إنتاج كل واحدة باستخدام المستجيبين الصناعيين المحددين فقط عبر الـ LLM، وقاسوا الفجوة بين النسخة الاصطناعية والأصلية.

النتيجة: التقاط النسخ الاصطناعية للميل المركزي والمقادير النسبية بدقة عبر معظم الدراسات. كانت الدقة أقوى في بطاريات التفضيل المعلنة مع تنسيقات الأسئلة التقليدية. انخفضت الدقة في الأسئلة حيث كان التوزيع البشري نفسه غير معتاد (ذو ذيل كثيف، ثنائي القمة، أو مرتبط بشدة بسياق سلوك جديد).

هذه هي الورقة التي تحدد حدود ادعاء الدقة. تكون منهجية المستجيبين الاصطناعيين أدق في الأسئلة التقليدية للتفضيل المعلن؛ يتسع فجوة الدقة في أسئلة السلوك الجديد والتوزيعات الثقيلة الذيل. تتم معايرة منهجية Minds حول أنواع الأسئلة حيث تكون الدقة هي الأعظم، مع توجيه صريح لاستخدام بحوث المستجيبين الحقيقيين لأنواع الأسئلة حيث يكون فجوة الدقة أوسع.

### Aher, Arriaga, Kalai (2023) - "Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies"

نشرت في ICML. قام Aher وزملاؤه بتوسيع المنهجية لمحاكاة متعددة الأفراد، حيث اختبروا ما إذا كانت LLMs يمكن أن تحاكي مجموعات سكانية متنوعة بدلاً من وكلاء تمثيليين فرديين. قاموا بنسخ عدة تجارب كلاسيكية في علم النفس الاجتماعي (لعبة الإلتماس، دراسة جملة مسار الحدائق، تجربة صدمة ميلغرام، مهمة حكمة الجماهير) ضد المشاركين المحاكين من قبل LLM.

أنتجت السكان المحاكين أحجام التأثير الأصلية ضمن نطاقات دراسات النسخ المنشورة. أسست الورقة أن LLMs يمكن أن تحاكي التنوع على مستوى السكان، وليس فقط المستجيبين في الحالة المتوسطة، وهو أساس منهجي لأبحاث اللوحة المتعددة العقل.

هذه هي الورقة التي تدعم منهجية اللوحة. تقوم لوحة Minds مكونة من 5 إلى 50 عقلًا بالضبط كما أكد Aher وزملاؤه: محاكاة مستجيبين متعددين بملفات تعريف متنوعة، تجمع إلى توزيع، وتقارن بالمرجع الأساسي لنسخ البشر. المنهجية المصفوفة مثبتة بالبحث. هذا جزء من ادعاء الدقة التشغيلي.

## ثبات الاختبار المكرر

يقيس ثبات الاختبار المكرر ما إذا كان تشغيل نفس اللوحة ضد نفس مكتبة الشخصيات مرتين ينتج نتائج متسقة. إنه النسخة التشغيلية للسؤال الصحي: إذا لم تكن المنهجية موثوقة، فإن أي ادعاء بالدقة يكون بلا معنى.

تنتج منهجية Minds ارتباطات اختبار مكرر تتراوح بين 0.85 إلى 0.95 على بطاريات التفضيل المعلن. هذا النطاق قابل للمقارنة بثبات الاختبار المكرر لبحث لوحات بشرية نفسه، وهو ما تقرره الأدبيات البحثية للمسح حيث يتراوح عادةً من 0.80 إلى 0.90 بناءً على نوع السؤال.

عوامل المساهمة المنهجية لثبات الاختبار المكرر العالي:

ملفات تعريف الشخصية المستمرة. تنتج نفس الشخصية، التي يتم استجوابها مرتين ضد نفس المحفز، ردودًا متسقة لأن الملف التعريفي يتم تخزينه بشكل مستمر بدلاً من إنتاجه من الصفر.

التهيئة الحتمية. مخزن تهيئة الشخصية (قصة ديموغرافية، ملف السلوكيات الخمس الكبرى، قيم شوارز، هيكل السياق اللغوي) حتمي؛ يكون الـ LLM هو المصدر الوحيد للتباين في الاستجابة.

تجميع متعدد العقول. لوحة من 5 إلى 15 شخصية تستعين بمتوسط التباين لكل مستجيب. يكون التوزيع الإجمالي أكثر موثوقية من أي استجابة فردية.

يجب أن يسأل مراجعو الشراء أي بائع بحث صناعي عن رقم ثبات الاختبار المكرر بشكل خاص. البائع الذي يبلغ عن دقة إجمالية دون الإبلاغ عن ثبات الاختبار المكرر يبلغ نصف القصة.

## ارتباط على مستوى العناصر

يقيس الارتباط على مستوى العناصر ما إذا كان الارتباط بين الاصطناعي والبشري يحتفظ على مستوى السؤال الفردي، وليس فقط مستوى الدراسة الإجمالية. يمكن أن تبلغ منصة عن علاقة ارتباط إجمالية بنسبة 0.90 لكنها قد تكون تجمع على ذيل طويل من العناصر بنسبة ارتباط 0.30 وعناصر بنسبة ارتباط 0.99، وهو نتيجة تشغيلية مختلفة عن توزيع محكم بين 0.85 و0.95 على كل عنصر.

تقر تقارير منهجية Minds روابط على مستوى العناصر تتجمع في النطاق 0.70 إلى 0.90 على بطاريات التفضيل المعلن القياسية. تكون الروابط الأكثر ارتفاعًا على الأسئلة ذات الأشكال المغلقة (تصنيفات التفضيل، الخيارات الفئوية، تقييمات المقاييس). تكون أدنى الروابط على الأسئلة النصية المفتوحة الجديدة للسلوك، وهي المناطق التي يتم تسجيل فجوة الدقة في البحث المنشور كالأكبر حجمًا.

التوظيف التشغيلية: تكون نتائج المستجيبين الاصطناعيين على الأسئلة المغلقة والأشكال المفضلة المعلنة موثوقة بما يكفي للتصرف بناءً عليها دون تحفظات على مستوى السؤال. تكون النتائج على الأسئلة النصية المفتوحة الجديدة للسلوك الأفضل كمدخلات اتجاهية، مع علم الفريق أن أي استجابة فردية قد تكون في الطرف السفلي من نطاق الدقة.

## أداء المعايير ANES

تعتبر الدراسات الوطنية للانتخابات الأمريكية (ANES) المعيار الأساسي للمنهجيات الصناعية للمستجيبين لأنها:

قدمت ANES لعقود بمنهجية متسقة، منتجة مرجعًا تاريخيًا عميقًا.

تتوفر بيانات المستجيبين لكل شخص، بحيث يمكن لأي شخص مطالبة منتج صناعي ضد النسخة الأصلية.

تغطي بطاريات الأسئلة مواقف سياسية، ومواقف اجتماعية، وتقريرات سلوكية ذاتية، وسياق ديموغرافي، وهو عينة ممثلة لأنواع الأسئلة التي تُستخدم من أجلها معظم بحوث المستجيبين الصناعيين.

يتم معايرة منهجية Minds وفق معايير ANES كجزء من المعايرة القياسية. تتطابق التوزيعات الاصطناعية للمستجيبين مع المرجع الأساسي لـ ANES بنسبة بين 0.85 و0.95 على بطاريات المواقف السياسية والاجتماعية القياسية. يتراجع الارتباط إلى 0.75 إلى 0.85 في الأسئلة المتعلقة بتقارير السلوك الذاتي، وهو ما يتماشى مع الأدبيات المنشورة التي تشير إلى ويتسع الفجوة في الدقة.

يمكن لمراجعي الشراء إجراء هذا المعيار بأنفسهم: استخلاص موجة ANES منشورة، إعادة إنشاء ملفات تعريف الشخصيات في Minds، تشغيل بطاريات الأسئلة المكافئة، ومقارنة التوزيع الاصطناعي بمرجع ANES. ترى معظم المراجعات التي تجري هذا التمرين روابط في نطاق 0.85 إلى 0.95 على بطاريات التفضيل المعلن.

## أين لا ينطبق ادعاء الدقة من 80 إلى 95 بالمئة

يتم تحديد ادعاء الدقة بوضوح. لدى المنهجية حدود صريحة، وينبغي أن يحترم قرار الشراء هذه الحدود.

توقع السلوك الجديد خارج مسار تدريب LLM. يمكن أن تكون فجوة الدقة من 30 إلى 50 بالمئة في الأسئلة التي تتضمن فئات منتجات جديدة حقيقية أو أنماط سلوك لم يرها LLM إثارة كاملة عنها.

جماهير B2B المتخصصة التي لا توجد إشارات عامة على الويب عنها. يعتمد دقة المستجيبين الصناعيين على الـ LLM بعد مشاهدته إشارات معنى حول السكان. تتسع فجوة الدقة للأدوار المتخصصة للغاية في الصناعات الصغيرة؛ يوضح منهجية Minds هذا صراحةً عندما يكون ملف الشخصيات تحت العتبة الثقة.

الدراسات التنظيمية وموضوعات التحقق من الامتثال. بيانات المستجيبين الصناعيين غير مناسبة لتوثيق أي مطالبة مرفوعة بجهة تنظيمية بغض النظر عن الدقة. تتطلب السياق القانوني بيانات المستجيبين البشر الحقيقيين المسجلة.

سلوك تحت الضغط أو الوقت أو سياق الالتزام الحقيقي. يجيب المستجيبون الصناعيون على الأسئلة الافتراضية، بينما يواجه المستجيبون البشريون قرارات حقيقية بتبعات حقيقية. الاثنان غير قابلين للتبادل لقياس سياق الالتزام شديد الأهمية.

النمط الناضج للشراء هو استخدام المستجيبين الصناعيين لاكتشاف وتكرار أي برنامج بحث، واستخدام المستجيبين الحقيقيين لمرحلة التحقق النهائي عند الحاجة إلى القرار.

## كيف ينبغي لفرق الشراء التحقق من ادعاء الدقة بشكل مستقل

العملية الموصى بها للتحقق لأي فريق شراء يقيم Minds:

الخطوة 1: حدد نتيجة بحث تاريخية لدى فريقك على الملف، ويفضل أن تكون اختبار مفهوم تفضيل معلن أو اختبار رسالة بنتيجة توزيع معروفة.

الخطوة 2: أعد إنشاء ملفات تعريف الشخصيات في Minds باستخدام نفس المواصفات الديموغرافية وسياق الدور والتقسيم التي حددت عينة البحث الأصلية.

الخطوة 3: قم بتشغيل بطاريات السؤال المكافئة في Minds، باستخدام نفس المحفزات ونفس تأطير السؤال كما هو الحال في البحث الأصلي.

الخطوة 4: قارن التوزيع الاصطناعي للمستجيبين مع توزيع المستجيبين الحقيقيين. احسب الارتباط عبر الأسئلة؛ احسب الارتباط على مستوى العناصر لكل سؤال.

الخطوة 5: قرر ما إذا كانت الدقة في التحقق الخاص بالفريق تتطابق مع المنهجية المنشورة. النطاق المتوقع هو 0.80 إلى 0.95 على بطاريات التفضيلات المعلنة؛ أي شيء أقل بكثير من 0.80 يشير إلى الحاجة إلى تحسين إنتاج الشخصيات؛ أي شيء أعلى بكثير من 0.95 يشير إلى الحاجة إلى اختبار الضغط بشكل أعمق للظروف.

هذا هو النمط الذي توصي به Minds للترسيم، وقد ثبتت صحته في مراجعات الشراء التي دعمناها.

## مجموعة المنهجية

مجموعة المنهجية الكاملة التي تنتج الدقة من 80 إلى 95 بالمئة:

الطبقة 1: عمق إنتاج الشخصيات. يتم إنتاج كل شخصية من بحث عام على الويب العميق لكل ملف، وليس بمحفز يستغرق 30 ثانية. يشمل ملف الشخصية التركيب الديموغرافي والسلوكي والنفسي وسياق الدور.

الطبقة 2: تكييف النموذج السيكولوجي. يتم تكييف كل شخصية على أطر سيكولوجية مثبتة (شخصيات السلوكيات الخمس الكبرى، قيم شوارز، تركيب سياق التواصل، أنماط سلوك المشترين). التكييف هو ما ينتج توزيعات استجابة عالية الدقة.

الطبقة 3: تجميع لوحة متعددة العقول. يتم تجميع نتائج اللوحات عبر 5 إلى 50 عقلًا من أجل تحليل التوزيعات. التوزيع المجمل هو أكثر موثوقية من أي استجابة فردية.

الطبقة 4: مراقبة ثبات الاختبار المكرر. تقوم المنهجية بإجراء مراقبة للتحقق من ثبات الاختبار المكرر ضد مكتبة الشخصيات، مع الإشارة إلى الشخصيات حيث ينخفض الثبات دون العتبة.

الطبقة 5: مراقبة الارتباط على مستوى العناصر. تقوم المنهجية بمقارنة الارتباط على مستوى العناصر بالبحث المنشور كمرجع، مشيرة إلى أنواع الأسئلة حيث يتسع فجوة الدقة.

## النقطة النهائية

يستند الادعاء بدقة 80 إلى 95 بالمئة إلى بحوث أخذ العينات السيليكونية المنشورة (Argyle 2023، Horton 2023، Bisbee 2024، Aher 2023)، والتحقق من صحته من خلال مراقبة ثبات الاختبار المكرر وتحليل الارتباط على مستوى العناصر، ووضعت معايير ضد بطاريات ANES العامة التي يمكن لأي مراجع مشتريات إعادة إشغيلها بشكل مستقل. تتمتع المنهجية بحدود واضحة: تكون أكثر دقة في الأسئلة المتعلقة بتفضيلات معلنة، أقل دقة في أسئلة السلوك الجديد والجماهير المتخصصة، وليست مناسبة لأغراض التنظيم أو الدراسات في سياق الالتزام.

يرى معظم مراجعو الشراء الذين يجرون تحققًا خاصًا بهم مقابل بياناتهم البحثية التاريخية ارتباطات تتراوح بين 0.85 إلى 0.95. هذه هي الحقيقة التشغيلية لمنهجية المستجيبين الصناعيين في عام 2026: مثبتة بالبحث، مراقبة الثبات، حدود الدقة، وكافية للتنفيذ لاستخدامها في معظم الأبحاث المتعلقة بالتفضيلات المعلنة التي تنفذها فرق النمو والمنتجات والتسويق كل أسبوع.

[ابدأ حساب Minds مجاني](/?register=true)