放牧代码和思想
专注自然语言处理、机器学习算法
    This thing called love. Know I would've. Thrown it all away. Wouldn't hesitate.

《智能Web算法》2.4 根据用户点击改进搜索结果

整个搜索引擎的期望输出结果如下:

Starting url group: 1, current depth: 0, total known urls: 10, maxDepth: 5, maxDocs: 200, maxDocs per group: 50, pause between docs: 500(ms)
DEBUG: Filtered url: 'mailto: sfulton@betanews.com'
DEBUG: Filtered url: 'mailto: eoswald@betanews.com'
Finished url group: 1, urls processed in this group: 10, current depth: 0, total urls processed: 10
Starting url group: 2, current depth: 0, total known urls: 10, maxDepth: 5, maxDocs: 200, maxDocs per group: 50, pause between docs: 500(ms)
Finished url group: 2, urls processed in this group: 0, current depth: 0, total urls processed: 10
Starting url group: 3, current depth: 1, total known urls: 10, maxDepth: 5, maxDocs: 200, maxDocs per group: 50, pause between docs: 500(ms)
Finished url group: 3, urls processed in this group: 0, current depth: 1, total urls processed: 10
Timer (s): [Crawler processed data] --> 0.312
Starting the indexing ... Indexing completed! 

H Matrix

Index: 0  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-07.html
Index: 1  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-02.html
Index: 2  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-04.html
Index: 3  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-03.html
Index: 4  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-01.html
Index: 5  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-05.html
Index: 6  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-02.html
Index: 7  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-01.html
Index: 8  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-06.html
Index: 9  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-03.html


 0.0,  0.5,  0.5,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.0,  0.0,  0.0,  0.5,  0.0,  0.0,  0.5,  0.0
 0.0,  0.3333333333333333,  0.0,  0.0,  0.3333333333333333,  0.3333333333333333,  0.0,  0.0,  0.0,  0.0
 0.0,  0.5,  0.0,  0.5,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.5,  0.0,  0.0,  0.0,  0.0,  0.0,  0.5,  0.0
 0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  1.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0

G Matrix

 0.009999999999999998,  0.46,  0.46,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1, total:0.9999999999999999
 0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.46,  0.009999999999999998,  0.009999999999999998,  0.46,  0.009999999999999998, total:1.0
 0.009999999999999998,  0.31,  0.009999999999999998,  0.009999999999999998,  0.31,  0.31,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.009999999999999998,  0.46,  0.009999999999999998,  0.46,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.009999999999999998,  0.009999999999999998,  0.46,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.46,  0.009999999999999998, total:1.0
 0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1, total:0.9999999999999999
 0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1, total:0.9999999999999999
 0.009999999999999998,  0.009999999999999998,  0.91,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1,  0.1, total:0.9999999999999999


 Before Iteration,   PageRank convergence error: 1.0
Index: 0 -->  PageRank: 0.1
Index: 1 -->  PageRank: 0.1
Index: 2 -->  PageRank: 0.1
Index: 3 -->  PageRank: 0.1
Index: 4 -->  PageRank: 0.1
Index: 5 -->  PageRank: 0.1
Index: 6 -->  PageRank: 0.1
Index: 7 -->  PageRank: 0.1
Index: 8 -->  PageRank: 0.1
Index: 9 -->  PageRank: 0.1

 Iteration: 0,   PageRank convergence error: 0.5680996120487195
Index: 0 -->  PageRank: 0.046000000000000006
Index: 1 -->  PageRank: 0.14116000000000004
Index: 2 -->  PageRank: 0.20527600000000007
Index: 3 -->  PageRank: 0.09562876000000003
Index: 4 -->  PageRank: 0.07927367560000001
Index: 5 -->  PageRank: 0.17144061235600008
Index: 6 -->  PageRank: 0.05109219047956001
Index: 7 -->  PageRank: 0.04620140952751601
Index: 8 -->  PageRank: 0.21034402604046767
Index: 9 -->  PageRank: 0.04192499074067229

 Iteration: 1,   PageRank convergence error: 0.3129815845299978
Index: 0 -->  PageRank: 0.036117489814739515
Index: 1 -->  PageRank: 0.1166333171495197
Index: 2 -->  PageRank: 0.3162767658410926
Index: 3 -->  PageRank: 0.0703491581062498
Index: 4 -->  PageRank: 0.05552795549918724
Index: 5 -->  PageRank: 0.1976150429266708
Index: 6 -->  PageRank: 0.03444749517201088
Index: 7 -->  PageRank: 0.032783025641255965
Index: 8 -->  PageRank: 0.26269250119812343
Index: 9 -->  PageRank: 0.03196467200420652

 Iteration: 2,   PageRank convergence error: 0.16134631169079136
Index: 0 -->  PageRank: 0.030968640130559943
Index: 1 -->  PageRank: 0.0909453670989793
Index: 2 -->  PageRank: 0.367634265082729
Index: 3 -->  PageRank: 0.05384951159571472
Index: 4 -->  PageRank: 0.044851788634689534
Index: 5 -->  PageRank: 0.21018044625327262
Index: 6 -->  PageRank: 0.028715827520596156
Index: 7 -->  PageRank: 0.028142660755454685
Index: 8 -->  PageRank: 0.28769524436807536
Index: 9 -->  PageRank: 0.02792865169857408

 Iteration: 3,   PageRank convergence error: 0.07941683269310888
Index: 0 -->  PageRank: 0.027525049668010833
Index: 1 -->  PageRank: 0.07621504447831493
Index: 2 -->  PageRank: 0.3919107745971643
Index: 3 -->  PageRank: 0.04644365148207355
Index: 4 -->  PageRank: 0.040119383439948905
Index: 5 -->  PageRank: 0.21643190795672543
Index: 6 -->  PageRank: 0.02620147856041397
Index: 7 -->  PageRank: 0.02595004366439575
Index: 8 -->  PageRank: 0.2994849891045402
Index: 9 -->  PageRank: 0.025848679402654503

 Iteration: 4,   PageRank convergence error: 0.03780846527855247
Index: 0 -->  PageRank: 0.025640682173062545
Index: 1 -->  PageRank: 0.06914696346859027
Index: 2 -->  PageRank: 0.4033841861496314
Index: 3 -->  PageRank: 0.043083487060642287
Index: 4 -->  PageRank: 0.03792120898664364
Index: 5 -->  PageRank: 0.21942211100944473
Index: 6 -->  PageRank: 0.025004083154445095
Index: 7 -->  PageRank: 0.024884343613848208
Index: 8 -->  PageRank: 0.3050406073303777
Index: 9 -->  PageRank: 0.024833329791051833

 Iteration: 5,   PageRank convergence error: 0.017825523852238574
Index: 0 -->  PageRank: 0.024731794829891567
Index: 1 -->  PageRank: 0.06584160379209339
Index: 2 -->  PageRank: 0.40879797421385144
Index: 3 -->  PageRank: 0.041510851913442004
Index: 4 -->  PageRank: 0.03688383709201297
Index: 5 -->  PageRank: 0.22083255176929983
Index: 6 -->  PageRank: 0.024434312206632613
Index: 7 -->  PageRank: 0.02437733511185136
Index: 8 -->  PageRank: 0.30766037095406973
Index: 9 -->  PageRank: 0.024352831897888595

 Iteration: 6,   PageRank convergence error: 0.008400539531172695
Index: 0 -->  PageRank: 0.024304782108572273
Index: 1 -->  PageRank: 0.06428864619565504
Index: 2 -->  PageRank: 0.4113513503254205
Index: 3 -->  PageRank: 0.04076847667423677
Index: 4 -->  PageRank: 0.036393869232709916
Index: 5 -->  PageRank: 0.22149707720055614
Index: 6 -->  PageRank: 0.024165071806158414
Index: 7 -->  PageRank: 0.024138147766111
Index: 8 -->  PageRank: 0.30889602141822653
Index: 9 -->  PageRank: 0.02412658553617853

 Iteration: 7,   PageRank convergence error: 0.003961356781796342
Index: 0 -->  PageRank: 0.024103960900007524
Index: 1 -->  PageRank: 0.06355651924991575
Index: 2 -->  PageRank: 0.4125556264150054
Index: 3 -->  PageRank: 0.04041802390896325
Index: 4 -->  PageRank: 0.036162685399280026
Index: 5 -->  PageRank: 0.22181040544769817
Index: 6 -->  PageRank: 0.024038099670728178
Index: 7 -->  PageRank: 0.024025402457185156
Index: 8 -->  PageRank: 0.3094788422645092
Index: 9 -->  PageRank: 0.0240199561347554

 Iteration: 8,   PageRank convergence error: 0.0018684253739235449
Index: 0 -->  PageRank: 0.024009293194613084
Index: 1 -->  PageRank: 0.06321114405750002
Index: 2 -->  PageRank: 0.41312363142541597
Index: 3 -->  PageRank: 0.04025269747809768
Index: 4 -->  PageRank: 0.03605364502754232
Index: 5 -->  PageRank: 0.22195818876526213
Index: 6 -->  PageRank: 0.02397822321357128
Index: 7 -->  PageRank: 0.02397223556785559
Index: 8 -->  PageRank: 0.30975373796472777
Index: 9 -->  PageRank: 0.023969667835924816

 Iteration: 9,   PageRank convergence error: 8.81280285388808E-4
Index: 0 -->  PageRank: 0.02396463900604176
Index: 1 -->  PageRank: 0.06304822952269819
Index: 2 -->  PageRank: 0.4133915376760176
Index: 3 -->  PageRank: 0.04017472033557592
Index: 4 -->  PageRank: 0.03600221640242944
Index: 5 -->  PageRank: 0.22202789407038623
Index: 6 -->  PageRank: 0.023949983068556772
Index: 7 -->  PageRank: 0.023947159054055322
Index: 8 -->  PageRank: 0.30988339568855705
Index: 9 -->  PageRank: 0.023945947979913586

 Iteration: 10,   PageRank convergence error: 4.15668123305013E-4
Index: 0 -->  PageRank: 0.02394357599431246
Index: 1 -->  PageRank: 0.06297138804340181
Index: 2 -->  PageRank: 0.41351789886508133
Index: 3 -->  PageRank: 0.040137942209249426
Index: 4 -->  PageRank: 0.035977959709667745
Index: 5 -->  PageRank: 0.22206077163202675
Index: 6 -->  PageRank: 0.0239366632555817
Index: 7 -->  PageRank: 0.02393533127428419
Index: 8 -->  PageRank: 0.3099445502200057
Index: 9 -->  PageRank: 0.023934760041621567

 Iteration: 11,   PageRank convergence error: 1.9605467267954507E-4
Index: 0 -->  PageRank: 0.02393364124779236
Index: 1 -->  PageRank: 0.06293514499395904
Index: 2 -->  PageRank: 0.4135774985893067
Index: 3 -->  PageRank: 0.04012059546197562
Index: 4 -->  PageRank: 0.035966518763745084
Index: 5 -->  PageRank: 0.2220762787194739
Index: 6 -->  PageRank: 0.02393038078656764
Index: 7 -->  PageRank: 0.023929752539666234
Index: 8 -->  PageRank: 0.30997339445515576
Index: 9 -->  PageRank: 0.023929483108555943

 Iteration: 12,   PageRank convergence error: 9.247140850502517E-5
Index: 0 -->  PageRank: 0.023928955415249382
Index: 1 -->  PageRank: 0.06291805057606414
Index: 2 -->  PageRank: 0.41360560948540015
Index: 3 -->  PageRank: 0.040112413667780684
Index: 4 -->  PageRank: 0.03596112250648765
Index: 5 -->  PageRank: 0.22208359281234516
Index: 6 -->  PageRank: 0.023927417584509583
Index: 7 -->  PageRank: 0.02392712126430378
Index: 8 -->  PageRank: 0.3099869991707529
Index: 9 -->  PageRank: 0.023926994183923505

 Iteration: 13,   PageRank convergence error: 4.361519939318978E-5
Index: 0 -->  PageRank: 0.02392674529146026
Index: 1 -->  PageRank: 0.06290998779963312
Index: 2 -->  PageRank: 0.41361886831296935
Index: 3 -->  PageRank: 0.0401085546287744
Index: 4 -->  PageRank: 0.03595857729909722
Index: 5 -->  PageRank: 0.22208704258785952
Index: 6 -->  PageRank: 0.02392601995614613
Index: 7 -->  PageRank: 0.023925880193309792
Index: 8 -->  PageRank: 0.3099934159915834
Index: 9 -->  PageRank: 0.023925820254418695

 Iteration: 14,   PageRank convergence error: 2.0571610919385003E-5
Index: 0 -->  PageRank: 0.023925702861468216
Index: 1 -->  PageRank: 0.06290618489805506
Index: 2 -->  PageRank: 0.41362512199163304
Index: 3 -->  PageRank: 0.04010673446839088
Index: 4 -->  PageRank: 0.03595737682271055
Index: 5 -->  PageRank: 0.22208866971418156
Index: 6 -->  PageRank: 0.023925360748692642
Index: 7 -->  PageRank: 0.023925294827947294
Index: 8 -->  PageRank: 0.3099964425590276
Index: 9 -->  PageRank: 0.023925266557085482

 Iteration: 15,   PageRank convergence error: 9.702837251726604E-6
Index: 0 -->  PageRank: 0.023925211187352163
Index: 1 -->  PageRank: 0.06290439121565648
Index: 2 -->  PageRank: 0.41362807161118614
Index: 3 -->  PageRank: 0.040105875968786425
Index: 4 -->  PageRank: 0.03595681060420656
Index: 5 -->  PageRank: 0.2220894371670553
Index: 6 -->  PageRank: 0.02392504982591433
Index: 7 -->  PageRank: 0.023925018733636498
Index: 8 -->  PageRank: 0.3099978700744141
Index: 9 -->  PageRank: 0.023925005399359284

 Iteration: 16,   PageRank convergence error: 4.5764549316401615E-6
Index: 0 -->  PageRank: 0.023924979283586664
Index: 1 -->  PageRank: 0.0629035452046919
Index: 2 -->  PageRank: 0.41362946283321417
Index: 3 -->  PageRank: 0.04010547104756579
Index: 4 -->  PageRank: 0.035956543540730364
Index: 5 -->  PageRank: 0.22208979914504198
Index: 6 -->  PageRank: 0.02392490317560573
Index: 7 -->  PageRank: 0.02392488851057487
Index: 8 -->  PageRank: 0.309998543378484
Index: 9 -->  PageRank: 0.023924882221309403

 Iteration: 17,   PageRank convergence error: 2.158537667135141E-6
Index: 0 -->  PageRank: 0.023924869903504415
Index: 1 -->  PageRank: 0.06290314617387899
Index: 2 -->  PageRank: 0.4136301190191038
Index: 3 -->  PageRank: 0.04010528006180987
Index: 4 -->  PageRank: 0.0359564175771666
Index: 5 -->  PageRank: 0.2220899698761277
Index: 6 -->  PageRank: 0.02392483400629886
Index: 7 -->  PageRank: 0.023924827089368172
Index: 8 -->  PageRank: 0.30999886095010165
Index: 9 -->  PageRank: 0.02392482412296368

 Iteration: 18,   PageRank convergence error: 1.0180991462833966E-6
Index: 0 -->  PageRank: 0.02392481831312911
Index: 1 -->  PageRank: 0.06290295796640138
Index: 2 -->  PageRank: 0.4136304285167347
Index: 3 -->  PageRank: 0.040105189981178874
Index: 4 -->  PageRank: 0.035956358165001256
Index: 5 -->  PageRank: 0.2220900504034102
Index: 6 -->  PageRank: 0.02392480138179877
Index: 7 -->  PageRank: 0.02392479811934876
Index: 8 -->  PageRank: 0.309999010736412
Index: 9 -->  PageRank: 0.02392479672020992

 Iteration: 19,   PageRank convergence error: 4.80198185760089E-7
Index: 0 -->  PageRank: 0.023924793979934543
Index: 1 -->  PageRank: 0.06290286919617738
Index: 2 -->  PageRank: 0.41363057449485613
Index: 3 -->  PageRank: 0.04010514749361198
Index: 4 -->  PageRank: 0.03595633014256933
Index: 5 -->  PageRank: 0.2220900883850303
Index: 6 -->  PageRank: 0.023924785994077623
Index: 7 -->  PageRank: 0.023924784455305513
Index: 8 -->  PageRank: 0.3099990813848501
Index: 9 -->  PageRank: 0.023924783795385568

 Iteration: 20,   PageRank convergence error: 2.2649100385463417E-7
Index: 0 -->  PageRank: 0.023924782502903134
Index: 1 -->  PageRank: 0.06290282732667903
Index: 2 -->  PageRank: 0.41363064334711813
Index: 3 -->  PageRank: 0.04010512745386181
Index: 4 -->  PageRank: 0.03595631692546664
Index: 5 -->  PageRank: 0.22209010629949877
Index: 6 -->  PageRank: 0.02392477873628176
Index: 7 -->  PageRank: 0.02392477801050217
Index: 8 -->  PageRank: 0.3099991147069994
Index: 9 -->  PageRank: 0.02392477769924333

 Iteration: 21,   PageRank convergence error: 1.0682709012874159E-7
Index: 0 -->  PageRank: 0.023924777089629107
Index: 1 -->  PageRank: 0.06290280757844799
Index: 2 -->  PageRank: 0.41363067582208035
Index: 3 -->  PageRank: 0.04010511800188288
Index: 4 -->  PageRank: 0.03595631069146796
Index: 5 -->  PageRank: 0.22209011474906412
Index: 6 -->  PageRank: 0.023924775313058762
Index: 7 -->  PageRank: 0.023924774970736463
Index: 8 -->  PageRank: 0.3099991304237749
Index: 9 -->  PageRank: 0.023924774823927648

 Iteration: 22,   PageRank convergence error: 5.038622707953522E-8
Index: 0 -->  PageRank: 0.02392477453639608
Index: 1 -->  PageRank: 0.06290279826396744
Index: 2 -->  PageRank: 0.4136306911392702
Index: 3 -->  PageRank: 0.04010511354374817
Index: 4 -->  PageRank: 0.03595630775113069
Index: 5 -->  PageRank: 0.2220901187343989
Index: 6 -->  PageRank: 0.02392477369845622
Index: 7 -->  PageRank: 0.023924773536995965
Index: 8 -->  PageRank: 0.309999137836773
Index: 9 -->  PageRank: 0.023924773467751896

 Iteration: 23,   PageRank convergence error: 2.3765244265561147E-8
Index: 0 -->  PageRank: 0.02392477333213432
Index: 1 -->  PageRank: 0.06290279387068541
Index: 2 -->  PageRank: 0.4136306983637992
Index: 3 -->  PageRank: 0.040105111441017596
Index: 4 -->  PageRank: 0.03595630636428677
Index: 5 -->  PageRank: 0.22209012061412797
Index: 6 -->  PageRank: 0.023924772936910338
Index: 7 -->  PageRank: 0.02392477286075575
Index: 8 -->  PageRank: 0.30999914133319895
Index: 9 -->  PageRank: 0.023924772828095985

 Iteration: 24,   PageRank convergence error: 1.1209151079549784E-8
Index: 0 -->  PageRank: 0.023924772764130395
Index: 1 -->  PageRank: 0.06290279179854336
Index: 2 -->  PageRank: 0.4136307017713315
Index: 3 -->  PageRank: 0.040105110449240526
Index: 4 -->  PageRank: 0.035956305710165865
Index: 5 -->  PageRank: 0.2220901215007238
Index: 6 -->  PageRank: 0.023924772577718453
Index: 7 -->  PageRank: 0.02392477254179927
Index: 8 -->  PageRank: 0.3099991429823285
Index: 9 -->  PageRank: 0.023924772526394914

 Iteration: 25,   PageRank convergence error: 5.286925067876647E-9
Index: 0 -->  PageRank: 0.023924772496224808
Index: 1 -->  PageRank: 0.06290279082119371
Index: 2 -->  PageRank: 0.4136307033785333
Index: 3 -->  PageRank: 0.040105109981457436
Index: 4 -->  PageRank: 0.0359563054016422
Index: 5 -->  PageRank: 0.22209012191889693
Index: 6 -->  PageRank: 0.023924772408301466
Index: 7 -->  PageRank: 0.023924772391359768
Index: 8 -->  PageRank: 0.30999914376015936
Index: 9 -->  PageRank: 0.02392477238409413

______________  Calculation Results  _______________

Page URL: file:/c:/iWeb2/data/ch02/biz-04.html        -->  Rank: 0.413630703378533
Page URL: file:/c:/iWeb2/data/ch02/biz-06.html        -->  Rank: 0.309999143760159
Page URL: file:/c:/iWeb2/data/ch02/biz-05.html        -->  Rank: 0.222090121918897
Page URL: file:/c:/iWeb2/data/ch02/biz-02.html        -->  Rank: 0.062902790821194
Page URL: file:/c:/iWeb2/data/ch02/biz-03.html        -->  Rank: 0.040105109981457
Page URL: file:/c:/iWeb2/data/ch02/biz-01.html        -->  Rank: 0.035956305401642
Page URL: file:/c:/iWeb2/data/ch02/biz-07.html        -->  Rank: 0.023924772496225
Page URL: file:/c:/iWeb2/data/ch02/spam-biz-02.html   -->  Rank: 0.023924772408301
Page URL: file:/c:/iWeb2/data/ch02/spam-biz-01.html   -->  Rank: 0.023924772391360
Page URL: file:/c:/iWeb2/data/ch02/spam-biz-03.html   -->  Rank: 0.023924772384094

____________________________________________________

 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = babis -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-02.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-01.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-03.html
 -  UserName = dmitry -  QueryTerm_1 = google -  QueryTerm_2 = ads -->  file:/c:/iWeb2/data/ch02/biz-02.html

Search results using Lucene index scores:
Query: google ads

Document Title: Google Ads and the best drugs
Document URL: file:/c:/iWeb2/data/ch02/spam-biz-01.html       -->  Relevance Score: 0.788674294948578
_______________________________________________________________________
Document Title: Google Expands into Newspaper Ads
Document URL: file:/c:/iWeb2/data/ch02/biz-01.html            -->  Relevance Score: 0.382011055946350
_______________________________________________________________________
Document Title: Google sells newspaper ads
Document URL: file:/c:/iWeb2/data/ch02/biz-03.html            -->  Relevance Score: 0.316994547843933
_______________________________________________________________________
Document Title: Google's sales pitch to newspapers
Document URL: file:/c:/iWeb2/data/ch02/biz-02.html            -->  Relevance Score: 0.290754139423370
_______________________________________________________________________
Document Title: Economic stimulus plan helps stock prices
Document URL: file:/c:/iWeb2/data/ch02/biz-07.html            -->  Relevance Score: 0.031434230506420
_______________________________________________________________________

dmitry click file:/c:/iWeb2/data/ch02/spam-biz-01.html -> 0.25
P(i,c) = 0.4166666666666667, P(c) = 0.46153846153846156, P(i) = 0.5
dmitry click file:/c:/iWeb2/data/ch02/biz-01.html -> 0.38461538461538464
P(i,c) = 0.5833333333333334, P(c) = 0.46153846153846156, P(i) = 0.5
dmitry click file:/c:/iWeb2/data/ch02/biz-03.html -> 0.5384615384615385
P(i,c) = 0.5, P(c) = 0.07692307692307693, P(i) = 0.5
dmitry click file:/c:/iWeb2/data/ch02/biz-02.html -> 0.07692307692307693
dmitry click file:/c:/iWeb2/data/ch02/biz-07.html -> 0.25

Search results using combined Lucene scores, page rank scores and user clicks:
Query: user=dmitry, query text=google ads

Document URL: file:/c:/iWeb2/data/ch02/biz-03.html            -->  Relevance Score: 0.006845516033356
Document URL: file:/c:/iWeb2/data/ch02/biz-01.html            -->  Relevance Score: 0.005282963920927
Document URL: file:/c:/iWeb2/data/ch02/spam-biz-01.html       -->  Relevance Score: 0.004717213249390
Document URL: file:/c:/iWeb2/data/ch02/biz-02.html            -->  Relevance Score: 0.001406865139426
Document URL: file:/c:/iWeb2/data/ch02/biz-07.html            -->  Relevance Score: 0.000188014203365
_______________________________________________________________________

Search results using Lucene index scores:
Query: google ads

Document Title: Google Ads and the best drugs
Document URL: file:/c:/iWeb2/data/ch02/spam-biz-01.html       -->  Relevance Score: 0.788674294948578
_______________________________________________________________________
Document Title: Google Expands into Newspaper Ads
Document URL: file:/c:/iWeb2/data/ch02/biz-01.html            -->  Relevance Score: 0.382011055946350
_______________________________________________________________________
Document Title: Google sells newspaper ads
Document URL: file:/c:/iWeb2/data/ch02/biz-03.html            -->  Relevance Score: 0.316994547843933
_______________________________________________________________________
Document Title: Google's sales pitch to newspapers
Document URL: file:/c:/iWeb2/data/ch02/biz-02.html            -->  Relevance Score: 0.290754139423370
_______________________________________________________________________
Document Title: Economic stimulus plan helps stock prices
Document URL: file:/c:/iWeb2/data/ch02/biz-07.html            -->  Relevance Score: 0.031434230506420
_______________________________________________________________________

babis click file:/c:/iWeb2/data/ch02/spam-biz-01.html -> 0.25
P(i,c) = 0.5833333333333334, P(c) = 0.46153846153846156, P(i) = 0.5
babis click file:/c:/iWeb2/data/ch02/biz-01.html -> 0.5384615384615385
P(i,c) = 0.4166666666666667, P(c) = 0.46153846153846156, P(i) = 0.5
babis click file:/c:/iWeb2/data/ch02/biz-03.html -> 0.38461538461538464
P(i,c) = 0.5, P(c) = 0.07692307692307693, P(i) = 0.5
babis click file:/c:/iWeb2/data/ch02/biz-02.html -> 0.07692307692307693
babis click file:/c:/iWeb2/data/ch02/biz-07.html -> 0.25

Search results using combined Lucene scores, page rank scores and user clicks:
Query: user=babis, query text=google ads

Document URL: file:/c:/iWeb2/data/ch02/biz-01.html            -->  Relevance Score: 0.007396149489298
Document URL: file:/c:/iWeb2/data/ch02/biz-03.html            -->  Relevance Score: 0.004889654309540
Document URL: file:/c:/iWeb2/data/ch02/spam-biz-01.html       -->  Relevance Score: 0.004717213249390
Document URL: file:/c:/iWeb2/data/ch02/biz-02.html            -->  Relevance Score: 0.001406865139426
Document URL: file:/c:/iWeb2/data/ch02/biz-07.html            -->  Relevance Score: 0.000188014203365
_______________________________________________________________________

可以看出,虽然两个用户搜索的关键词是一摸一样的,但是最终搜索引擎给出的结果不同。

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » 《智能Web算法》2.4 根据用户点击改进搜索结果

评论 3

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    所以您修正過的部分是哪邊呢? 在下才疏學淺,能否明示一二?

    ffmm9年前 (2015-08-04)回复
    • 两份代码对比一下就知道了

      hankcs9年前 (2015-08-04)回复

我的作品

HanLP自然语言处理包《自然语言处理入门》