អ៊ីនធឺណិត, ប្លុក
របៀបលុបគេហទំព័រឬបំណែករបស់វាពីសន្ទស្សន៍ Google
យោងទៅតាមគោលគំនិតនៃការបង្កើតលិបិក្រមដែលត្រូវបានអនុម័តដោយហ្គូហ្គលគណនីត្រូវបានយកពីភាពពេញលេញភាពនៃព័ត៌មាននិងការអនុលោមតាមការស្វែងរករបស់វានៅពេលចេញលទ្ធផល។ ប្រសិនបើតំបន់បណ្ដាញដែលមានមាតិកាខុសច្បាប់បញ្ចូលសន្ទស្សន៍ឬធនធានត្រូវបានបម្រុងទុកជាសារឥតបានការនោះទំព័រនៃគេហទំព័របែបនេះនឹងមិនត្រូវបានសម្គាល់នៅក្នុងមូលដ្ឋានទិន្នន័យទូទៅនៃម៉ាស៊ីនស្វែងរកទេ។ វាមានសារៈសំខាន់ណាស់សម្រាប់យើងដើម្បីរៀន ពីរបៀបលុបគេហទំព័រ ពីម៉ាស៊ីនមេដោយលទ្ធផលស្វែងរក។
ជម្រើសលិបិក្រមសូន្យសម្រាប់ Google
នៅពេលដែលកម្មវិធីប្រមូលទិន្នន័យ - កម្មវិធីសម្រាប់ប្រមូលព័ត៌មានអំពីធនធានថ្មី - នឹងស្កេនទំព័រវែបសាយដោយទំព័របន្ទាប់មកប្រសិនបើវាបំពេញតាមតម្រូវការរបស់គោលនយោបាយរបស់ Google ទាក់ទងនឹងការញែកវានឹងត្រូវបានដាក់លិបិក្រម។ ប៉ុន្តែយើងក៏នឹងរៀបរាប់ផងដែរអំពីរបៀបលុបវែបសាយត៍របស់អ្នកឬបំណែកនីមួយៗសម្រាប់ម៉ាស៊ីនស្វែងរកដោយប្រើ robots.txt - ចង្អុលហើយនៅដំណាលគ្នានោះអ្នកស្វែងរក។
ដើម្បីដកធនធានទាំងមូលពីការចេញតំបន់អត្ថបទជាក់លាក់មួយត្រូវបានបង្កើតនៅក្នុងថតឫសរបស់ម៉ាស៊ីនបម្រើដែលទីតាំងស្ថិតនៅ - robots.txt ដែលបានរៀបរាប់ខាងលើ។ តំបន់នេះត្រូវបានដំណើរការដោយម៉ាស៊ីនស្វែងរកហើយដំណើរការដោយយោងតាមការណែនាំអាន។
សូមចងចាំថាម៉ាស៊ីនស្វែងរក Google នឹងលិបិក្រមទំព័រទោះបីជាអ្នកប្រើប្រាស់មិនត្រូវបានអនុញ្ញាតឱ្យមើលក៏ដោយ។ នៅពេលដែលកម្មវិធីរុករកចេញ 401 ឬ 403 ឆ្លើយតប "ការចូលដំណើរការមិនត្រឹមត្រូវ" នេះអនុវត្តតែចំពោះអ្នកទស្សនាមិនមែនដើម្បីប្រមូលកម្មវិធីសម្រាប់ ម៉ាស៊ីនស្វែងរក នេះ ទេ។
ដើម្បីស្វែងយល់ ពីរបៀបលុប គេហទំព័រ មួយ ពីការបង្កើតលិបិក្រមស្វែងរកអ្នកគួរតែបញ្ចូលបន្ទាត់ខាងក្រោមទៅក្នុងទស្សន៍ទ្រនិចអត្ថបទ:
ភ្នាក់ងារអ្នកប្រើ: Googlebot
មិនអនុញ្ញាត: /
នេះចង្អុលបង្ហាញពីការស្វែងរកមនុស្សយន្តដែលវាត្រូវបានហាមឃាត់មិនឱ្យដាក់លិបិក្រមខ្លឹមសារទាំងស្រុងនៃគេហទំព័រនេះ។ នេះជា របៀបលុបវែបសាយ ហ្គូករបស់ Google ដើម្បីឱ្យ គេហទំព័រ នេះមិនឃ្លាំងធនធាននៅក្នុងបញ្ជីនៃ គេហទំព័រដែលបាន រកឃើញ។
ជម្រើសស្កេនសម្រាប់ពិធីការផ្សេង
ប្រសិនបើអ្នកត្រូវចុះបញ្ជីស្តង់ដារទំនាក់ទំនងបុគ្គលដែលអ្នកចង់អនុវត្តច្បាប់ជាក់លាក់សម្រាប់ការបង្កើតលិបិក្រមរបស់ Google ឧទាហរណ៍ដាច់ដោយឡែកសម្រាប់ ពិធីការវ៉ិបសាយ http / https វាគួរសរសេរផងដែរនៅក្នុង robots.txt តាមវិធីខាងក្រោម (ឧទាហរណ៍) ។
(Http://yourserver.com/robots.txt) - ឈ្មោះដែននៃវែបសាយត៍របស់អ្នក (ណាមួយ)
ភ្នាក់ងារអ្នកប្រើ: * - សម្រាប់ម៉ាស៊ីនស្វែងរក
អនុញ្ញាត: / - អនុញ្ញាតការបង្កើតលិបិក្រមពេញលេញ
របៀបលុបគេហទំព័រចេញពីការចេញផ្សាយទាំងស្រុងសម្រាប់ពិធីការ https
(Https://yourserver.com/robots.txt):
ភ្នាក់ងារអ្នកប្រើ: *
មិនអនុញ្ញាត: / ហាមឃាត់ពេញលេញលើការបង្កើតលិបិក្រម
ការដកយកចេញនូវ URL នៃធនធានពីការស្វែងរក Google របស់ជាបន្ទាន់
ប្រសិនបើអ្នកមិនចង់រងចាំការបង្កើតលិបិក្រមនោះទេហើយតំបន់បណ្តាញត្រូវបានលាក់ឱ្យបានឆាប់តាមដែលអាចធ្វើទៅបានខ្ញុំសូមណែនាំការប្រើប្រាស់សេវាកម្ម http://services.google.com/urlconsole/controller ។ pre-robots.txt គួរដាក់រួចហើយនៅក្នុងថត root នៃ server site ។ ការណែនាំគួរតែត្រូវបានសរសេរនៅក្នុងវា។
ប្រសិនបើទ្រនិចសម្រាប់ហេតុផលមួយចំនួនដែលមិនអាចរកបាននៅក្នុងថត root នោះវាគ្រប់គ្រាន់ក្នុងការបង្កើតវានៅក្នុងថតដែលមានវត្ថុដែលអ្នកចង់លាក់ពីម៉ាស៊ីនស្វែងរក។ នៅពេលដែលអ្នកធ្វើដូច្នេះហើយទាក់ទងសេវាកម្មលុបដោយស្វ័យប្រវត្តិសម្រាប់អាសយដ្ឋានអ៊ីនធឺណិត, Google នឹងមិនវិភាគថតដែលត្រូវបានបញ្ចេញនៅក្នុង robots.txt ។
រយៈពេលនៃការមើលមិនឃើញនេះត្រូវបានជួសជុលរយៈពេល 3 ខែ។ បន្ទាប់ពីកំឡុងពេលនេះថតដែលត្រូវបានដកចេញពីការចេញនឹងត្រូវបានដំណើរការឡើងវិញដោយម៉ាស៊ីនមេ Google ។
វិធីលុបវេបសាយមួយសម្រាប់ស្កេនជាផ្នែកមួយ
ពេលដែលរូបលោកស្វែងរកអានមាតិការបស់ robots.txt បន្ទាប់មកផ្អែកលើមាតិការបស់វាការសម្រេចចិត្តមួយចំនួនត្រូវបានធ្វើឡើង។ ឧទាហរណ៍អ្នកត្រូវដកចេញពីការបង្ហាញថតទាំងមូលដែលមានឈ្មោះថា anatom ។ ដើម្បីធ្វើដូចនេះវាគ្រប់គ្រាន់ហើយក្នុងការសរសេរសេចក្តីណែនាំដូចខាងក្រោម:
ភ្នាក់ងារអ្នកប្រើ: Googlebot
មិនអនុញ្ញាត: / anatom
ឬឧទាហរណ៍អ្នកមិនចង់ដាក់លិបិក្រមរូបភាពទាំងអស់ដូចជា .gif ។ ដើម្បីធ្វើដូចនេះបន្ថែមបញ្ជីដូចខាងក្រោម:
ភ្នាក់ងារអ្នកប្រើ: Googlebot
មិនអនុញ្ញាត: /*.gif$
នេះគឺជាឧទាហរណ៍មួយទៀត។ ចូរលុបព័ត៌មានអំពីទំព័រដែលបង្កើតដោយថាមវន្តពីការបញ្ចូនបន្ទាប់មកបន្ថែមធាតុខាងក្រោមទៅព្រួញ:
ភ្នាក់ងារអ្នកប្រើ: Googlebot
មិនអនុញ្ញាត: / *?
ដូច្នេះប្រហែលនិងក្បួនសម្រាប់ម៉ាស៊ីនស្វែងរកត្រូវបានចេញវេជ្ជបញ្ជា។ រឿងមួយទៀតគឺថាវាមានភាពងាយស្រួលសម្រាប់ទាំងអស់នេះដើម្បីប្រើស្លាក META ។ ហើយអ្នកគ្រប់គ្រងបណ្ដាញជាញឹកញាប់ប្រើស្តង់ដារដូចនេះដែលធ្វើនិយ័តកម្មនៃការស្វែងរកម៉ាស៊ីន។ ប៉ុន្តែយើងនឹងនិយាយអំពីរឿងនេះនៅក្នុងអត្ថបទបន្ទាប់។
Similar articles
Trending Now