放牧代码和思想
专注自然语言处理、机器学习算法
    时间有限,只有GitHub上的issue能及时处理,大约每周末一次。另外,不要叫我楼主,谢谢。

《智能Web算法》2.5 Word、PDF等无链接文档的排序

最后的运行结果:

Starting url group: 1, current depth: 0, total known urls: 10, maxDepth: 5, maxDocs: 200, maxDocs per group: 50, pause between docs: 500(ms)
Finished url group: 1, urls processed in this group: 10, current depth: 0, total urls processed: 10
Starting url group: 2, current depth: 0, total known urls: 10, maxDepth: 5, maxDocs: 200, maxDocs per group: 50, pause between docs: 500(ms)
Finished url group: 2, urls processed in this group: 0, current depth: 0, total urls processed: 10
Starting url group: 3, current depth: 1, total known urls: 10, maxDepth: 5, maxDocs: 200, maxDocs per group: 50, pause between docs: 500(ms)
Finished url group: 3, urls processed in this group: 0, current depth: 1, total urls processed: 10
Timer (s): [Crawler processed data] --> 0.155
Starting the indexing ... Indexing completed! 


Search results using Lucene index scores:
Query: nvidia

Document Title: NVIDIA shares plummet into cheap medicine for you!
Document URL: file:/c:/iWeb2/data/ch02/spam-biz-02.doc        -->  Relevance Score: 0.458221405744553
_______________________________________________________________________
Document Title: Nvidia shares up on PortalPlayer buy
Document URL: file:/c:/iWeb2/data/ch02/biz-05.doc             -->  Relevance Score: 0.324011474847794
_______________________________________________________________________
Document Title: NVidia Now a Supplier for MP3 Players
Document URL: file:/c:/iWeb2/data/ch02/biz-04.doc             -->  Relevance Score: 0.194406896829605
_______________________________________________________________________
Document Title: Nov. 6, 2006, 2:38PMChips Snap: Nvidia, Altera Shares Jump
Document URL: file:/c:/iWeb2/data/ch02/biz-06.doc             -->  Relevance Score: 0.185187965631485
_______________________________________________________________________

H Matrix

Index: 0  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-02.doc
Index: 1  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-06.doc
Index: 2  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-04.doc
Index: 3  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-01.doc
Index: 4  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-05.doc
Index: 5  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-03.doc
Index: 6  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-02.doc
Index: 7  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-01.doc
Index: 8  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-03.doc
Index: 9  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-07.doc


 0.0,  0.0,  0.2,  0.0,  0.2,  0.2,  0.0,  0.2,  0.2,  0.0
 0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  1.0
 0.0,  0.0,  0.0,  0.0,  0.6666666666666666,  0.0,  0.3333333333333333,  0.0,  0.0,  0.0
 0.0,  0.0,  0.125,  0.0,  0.0,  0.375,  0.125,  0.25,  0.0,  0.125
 0.0,  0.5,  0.5,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.0,  1.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.25,  0.25,  0.0,  0.25,  0.0,  0.25,  0.0,  0.0
 0.2857142857142857,  0.0,  0.0,  0.14285714285714285,  0.0,  0.2857142857142857,  0.0,  0.0,  0.2857142857142857,  0.0
 0.5,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.5,  0.0,  0.0
 0.0,  0.4,  0.2,  0.2,  0.0,  0.2,  0.0,  0.0,  0.0,  0.0

H Matrix

Index: 0  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-02.doc
Index: 1  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-06.doc
Index: 2  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-04.doc
Index: 3  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-01.doc
Index: 4  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-05.doc
Index: 5  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-03.doc
Index: 6  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-02.doc
Index: 7  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-01.doc
Index: 8  -->  Page ID: file:/c:/iWeb2/data/ch02/spam-biz-03.doc
Index: 9  -->  Page ID: file:/c:/iWeb2/data/ch02/biz-07.doc


 0.0,  0.0,  0.2,  0.0,  0.2,  0.2,  0.0,  0.2,  0.2,  0.0
 0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  1.0
 0.0,  0.0,  0.0,  0.0,  0.6666666666666666,  0.0,  0.3333333333333333,  0.0,  0.0,  0.0
 0.0,  0.0,  0.125,  0.0,  0.0,  0.375,  0.125,  0.25,  0.0,  0.125
 0.0,  0.5,  0.5,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.0,  1.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0
 0.0,  0.0,  0.25,  0.25,  0.0,  0.25,  0.0,  0.25,  0.0,  0.0
 0.2857142857142857,  0.0,  0.0,  0.14285714285714285,  0.0,  0.2857142857142857,  0.0,  0.0,  0.2857142857142857,  0.0
 0.5,  0.0,  0.0,  0.0,  0.0,  0.0,  0.0,  0.5,  0.0,  0.0
 0.0,  0.4,  0.2,  0.2,  0.0,  0.2,  0.0,  0.0,  0.0,  0.0

G Matrix

 0.009999999999999998,  0.009999999999999998,  0.19000000000000003,  0.009999999999999998,  0.19000000000000003,  0.19000000000000003,  0.009999999999999998,  0.19000000000000003,  0.19000000000000003,  0.009999999999999998, total:1.0000000000000002
 0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.91, total:1.0
 0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.61,  0.009999999999999998,  0.31,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.009999999999999998,  0.009999999999999998,  0.1225,  0.009999999999999998,  0.009999999999999998,  0.34750000000000003,  0.1225,  0.23500000000000001,  0.009999999999999998,  0.1225, total:1.0
 0.009999999999999998,  0.46,  0.46,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.91,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.009999999999999998,  0.009999999999999998,  0.23500000000000001,  0.23500000000000001,  0.009999999999999998,  0.23500000000000001,  0.009999999999999998,  0.23500000000000001,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.2671428571428571,  0.009999999999999998,  0.009999999999999998,  0.13857142857142857,  0.009999999999999998,  0.2671428571428571,  0.009999999999999998,  0.009999999999999998,  0.2671428571428571,  0.009999999999999998, total:1.0
 0.46,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.46,  0.009999999999999998,  0.009999999999999998, total:1.0
 0.009999999999999998,  0.37000000000000005,  0.19000000000000003,  0.19000000000000003,  0.009999999999999998,  0.19000000000000003,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998,  0.009999999999999998, total:1.0000000000000002


 Before Iteration,   PageRank convergence error: 1.0
Index: 0 -->  PageRank: 0.1
Index: 1 -->  PageRank: 0.1
Index: 2 -->  PageRank: 0.1
Index: 3 -->  PageRank: 0.1
Index: 4 -->  PageRank: 0.1
Index: 5 -->  PageRank: 0.1
Index: 6 -->  PageRank: 0.1
Index: 7 -->  PageRank: 0.1
Index: 8 -->  PageRank: 0.1
Index: 9 -->  PageRank: 0.1

 Iteration: 0,   PageRank convergence error: 0.2560877018019484
Index: 0 -->  PageRank: 0.08071428571428571
Index: 1 -->  PageRank: 0.09080714285714286
Index: 2 -->  PageRank: 0.12099378571428573
Index: 3 -->  PageRank: 0.153282295
Index: 4 -->  PageRank: 0.09758281795000003
Index: 5 -->  PageRank: 0.1429094349777143
Index: 6 -->  PageRank: 0.06440529152392001
Index: 7 -->  PageRank: 0.11901522893382693
Index: 8 -->  PageRank: 0.05582959026683868
Index: 9 -->  PageRank: 0.10922608548830871

 Iteration: 1,   PageRank convergence error: 0.09772787748330553
Index: 0 -->  PageRank: 0.06607489121589613
Index: 1 -->  PageRank: 0.09343492449257049
Index: 2 -->  PageRank: 0.11742943612027251
Index: 3 -->  PageRank: 0.18826423542619167
Index: 4 -->  PageRank: 0.09289286145498021
Index: 5 -->  PageRank: 0.15068328166653927
Index: 6 -->  PageRank: 0.06698111558742177
Index: 7 -->  PageRank: 0.10504531652353022
Index: 8 -->  PageRank: 0.04936375062162313
Index: 9 -->  PageRank: 0.11566511751473335

 Iteration: 2,   PageRank convergence error: 0.02411245576480424
Index: 0 -->  PageRank: 0.059683689906304335
Index: 1 -->  PageRank: 0.09383566725318679
Index: 2 -->  PageRank: 0.12001349520389218
Index: 3 -->  PageRank: 0.19543553738145947
Index: 4 -->  PageRank: 0.09324715963660679
Index: 5 -->  PageRank: 0.15010422434248857
Index: 6 -->  PageRank: 0.06848429725629432
Index: 7 -->  PageRank: 0.102847497312761
Index: 8 -->  PageRank: 0.047676367856423964
Index: 9 -->  PageRank: 0.11690852901992381

 Iteration: 3,   PageRank convergence error: 0.00684908105586067
Index: 0 -->  PageRank: 0.05838322949607988
Index: 1 -->  PageRank: 0.0945176523312368
Index: 2 -->  PageRank: 0.12138538310580581
Index: 3 -->  PageRank: 0.1952594524463809
Index: 4 -->  PageRank: 0.09382834910081789
Index: 5 -->  PageRank: 0.14980199774787828
Index: 6 -->  PageRank: 0.06887323088869561
Index: 7 -->  PageRank: 0.10188801748813742
Index: 8 -->  PageRank: 0.04719397932962923
Index: 9 -->  PageRank: 0.11751297370787683

 Iteration: 4,   PageRank convergence error: 0.0028644552034685147
Index: 0 -->  PageRank: 0.057923509280279596
Index: 1 -->  PageRank: 0.0950092730844711
Index: 2 -->  PageRank: 0.1217512510452103
Index: 3 -->  PageRank: 0.19506091849441914
Index: 4 -->  PageRank: 0.09396541729925066
Index: 5 -->  PageRank: 0.14959768548887065
Index: 6 -->  PageRank: 0.06895749120525366
Index: 7 -->  PageRank: 0.10155626971544386
Index: 8 -->  PageRank: 0.047025988712357226
Index: 9 -->  PageRank: 0.1179363068869805

 Iteration: 5,   PageRank convergence error: 0.0011113252553098946
Index: 0 -->  PageRank: 0.05776400538808596
Index: 1 -->  PageRank: 0.0952277543371792
Index: 2 -->  PageRank: 0.12185871373170952
Index: 3 -->  PageRank: 0.19492862789111756
Index: 4 -->  PageRank: 0.09400093181544368
Index: 5 -->  PageRank: 0.14953291075107047
Index: 6 -->  PageRank: 0.06897497476160999
Index: 7 -->  PageRank: 0.10142559132718991
Index: 8 -->  PageRank: 0.046965145367160316
Index: 9 -->  PageRank: 0.11812059916378746

 Iteration: 6,   PageRank convergence error: 3.8064128670357855E-4
Index: 0 -->  PageRank: 0.05770317430184309
Index: 1 -->  PageRank: 0.09531121925039426
Index: 2 -->  PageRank: 0.12188575738348939
Index: 3 -->  PageRank: 0.19488961933757723
Index: 4 -->  PageRank: 0.09400612503902103
Index: 5 -->  PageRank: 0.1495119125797169
Index: 6 -->  PageRank: 0.06897875057564215
Index: 7 -->  PageRank: 0.10137924896328647
Index: 8 -->  PageRank: 0.04694303662736746
Index: 9 -->  PageRank: 0.11819247393305353

 Iteration: 7,   PageRank convergence error: 1.2612234384033055E-4
Index: 0 -->  PageRank: 0.05768132939564579
Index: 1 -->  PageRank: 0.0953398416143107
Index: 2 -->  PageRank: 0.12189342287621337
Index: 3 -->  PageRank: 0.194878217985341
Index: 4 -->  PageRank: 0.09400673661284023
Index: 5 -->  PageRank: 0.14950590149378867
Index: 6 -->  PageRank: 0.06897981598698977
Index: 7 -->  PageRank: 0.10136306367219439
Index: 8 -->  PageRank: 0.0469352654946151
Index: 9 -->  PageRank: 0.11821741766688043

 Iteration: 8,   PageRank convergence error: 4.081495408634478E-5
Index: 0 -->  PageRank: 0.0576736674019864
Index: 1 -->  PageRank: 0.09534923534390666
Index: 2 -->  PageRank: 0.12189571235394527
Index: 3 -->  PageRank: 0.19487534936235656
Index: 4 -->  PageRank: 0.09400670919861974
Index: 5 -->  PageRank: 0.14950409350043833
Index: 6 -->  PageRank: 0.06898019380926801
Index: 7 -->  PageRank: 0.101357633896592
Index: 8 -->  PageRank: 0.046932604486053006
Index: 9 -->  PageRank: 0.11822571478298154

 Iteration: 9,   PageRank convergence error: 1.3263735461947757E-5
Index: 0 -->  PageRank: 0.05767107273349469
Index: 1 -->  PageRank: 0.0953522596559288
Index: 2 -->  PageRank: 0.1218964747404918
Index: 3 -->  PageRank: 0.1948745732667834
Index: 4 -->  PageRank: 0.09400669123703062
Index: 5 -->  PageRank: 0.1495035385320904
Index: 6 -->  PageRank: 0.0689803394860678
Index: 7 -->  PageRank: 0.10135582950831956
Index: 8 -->  PageRank: 0.04693171166417506
Index: 9 -->  PageRank: 0.1182284052389227

 Iteration: 10,   PageRank convergence error: 4.330283491359166E-6
Index: 0 -->  PageRank: 0.05767020679736542
Index: 1 -->  PageRank: 0.09535323724394772
Index: 2 -->  PageRank: 0.12189673717722598
Index: 3 -->  PageRank: 0.19487435050169877
Index: 4 -->  PageRank: 0.0940066900037298
Index: 5 -->  PageRank: 0.1495033578946095
Index: 6 -->  PageRank: 0.06898039423976951
Index: 7 -->  PageRank: 0.10135523424193256
Index: 8 -->  PageRank: 0.046931414992913624
Index: 9 -->  PageRank: 0.1182292782343152

 Iteration: 11,   PageRank convergence error: 1.4328141206484957E-6
Index: 0 -->  PageRank: 0.0576699202794403
Index: 1 -->  PageRank: 0.09535355681412772
Index: 2 -->  PageRank: 0.12189682871334129
Index: 3 -->  PageRank: 0.19487427841010924
Index: 4 -->  PageRank: 0.09400669241654691
Index: 5 -->  PageRank: 0.14950329748156116
Index: 6 -->  PageRank: 0.06898041389338025
Index: 7 -->  PageRank: 0.10135503732017222
Index: 8 -->  PageRank: 0.04693131671818833
Index: 9 -->  PageRank: 0.11822956365666405

 Iteration: 12,   PageRank convergence error: 4.780095241296856E-7
Index: 0 -->  PageRank: 0.057669825462550055
Index: 1 -->  PageRank: 0.09535366261271158
Index: 2 -->  PageRank: 0.12189686024290475
Index: 3 -->  PageRank: 0.19487425374092798
Index: 4 -->  PageRank: 0.09400669396445792
Index: 5 -->  PageRank: 0.14950327693829746
Index: 6 -->  PageRank: 0.06898042066422837
Index: 7 -->  PageRank: 0.10135497196081497
Index: 8 -->  PageRank: 0.046931284118514605
Index: 9 -->  PageRank: 0.11822965803091556

 Iteration: 13,   PageRank convergence error: 1.6014816504178464E-7
Index: 0 -->  PageRank: 0.05766979400633294
Index: 1 -->  PageRank: 0.09535369793793673
Index: 2 -->  PageRank: 0.12189687096206991
Index: 3 -->  PageRank: 0.1948742451005479
Index: 4 -->  PageRank: 0.09400669463522306
Index: 5 -->  PageRank: 0.149503269956778
Index: 6 -->  PageRank: 0.06898042293616626
Index: 7 -->  PageRank: 0.10135495017918521
Index: 8 -->  PageRank: 0.04693127327442425
Index: 9 -->  PageRank: 0.1182296894881505

 Iteration: 14,   PageRank convergence error: 5.369999576954054E-8
Index: 0 -->  PageRank: 0.05766978353290668
Index: 1 -->  PageRank: 0.09535370978161845
Index: 2 -->  PageRank: 0.12189687456256043
Index: 3 -->  PageRank: 0.1948742421014042
Index: 4 -->  PageRank: 0.09400669487794362
Index: 5 -->  PageRank: 0.14950326759521065
Index: 6 -->  PageRank: 0.06898042368847178
Index: 7 -->  PageRank: 0.10135494290295495
Index: 8 -->  PageRank: 0.04693126965759664
Index: 9 -->  PageRank: 0.11822970002175276

 Iteration: 15,   PageRank convergence error: 1.7993401470184356E-8
Index: 0 -->  PageRank: 0.057669780036759676
Index: 1 -->  PageRank: 0.09535371375516835
Index: 2 -->  PageRank: 0.12189687576391922
Index: 3 -->  PageRank: 0.19487424107533155
Index: 4 -->  PageRank: 0.09400669495871937
Index: 5 -->  PageRank: 0.1495032668015386
Index: 6 -->  PageRank: 0.0689804239367727
Index: 7 -->  PageRank: 0.10135494046936384
Index: 8 -->  PageRank: 0.04693126844922238
Index: 9 -->  PageRank: 0.1182297035533118

 Iteration: 16,   PageRank convergence error: 6.021253710908336E-9
Index: 0 -->  PageRank: 0.05766977886798756
Index: 1 -->  PageRank: 0.09535371508692933
Index: 2 -->  PageRank: 0.12189687616363723
Index: 3 -->  PageRank: 0.1948742407293011
Index: 4 -->  PageRank: 0.09400669498458793
Index: 5 -->  PageRank: 0.14950326653600982
Index: 6 -->  PageRank: 0.06898042401890878
Index: 7 -->  PageRank: 0.10135493965532767
Index: 8 -->  PageRank: 0.046931268045202826
Index: 9 -->  PageRank: 0.11822970473669481

______________  Calculation Results  _______________

Page URL: file:/c:/iWeb2/data/ch02/biz-01.doc         -->  Rank: 0.194874240729301
Page URL: file:/c:/iWeb2/data/ch02/biz-03.doc         -->  Rank: 0.149503266536010
Page URL: file:/c:/iWeb2/data/ch02/biz-04.doc         -->  Rank: 0.121896876163637
Page URL: file:/c:/iWeb2/data/ch02/biz-07.doc         -->  Rank: 0.118229704736695
Page URL: file:/c:/iWeb2/data/ch02/spam-biz-01.doc    -->  Rank: 0.101354939655328
Page URL: file:/c:/iWeb2/data/ch02/biz-06.doc         -->  Rank: 0.095353715086929
Page URL: file:/c:/iWeb2/data/ch02/biz-05.doc         -->  Rank: 0.094006694984588
Page URL: file:/c:/iWeb2/data/ch02/biz-02.doc         -->  Rank: 0.068980424018909
Page URL: file:/c:/iWeb2/data/ch02/spam-biz-02.doc    -->  Rank: 0.057669778867988
Page URL: file:/c:/iWeb2/data/ch02/spam-biz-03.doc    -->  Rank: 0.046931268045203

____________________________________________________


Search results using Lucene index scores:
Query: nvidia

Document Title: NVIDIA shares plummet into cheap medicine for you!
Document URL: file:/c:/iWeb2/data/ch02/spam-biz-02.doc        -->  Relevance Score: 0.458221405744553
_______________________________________________________________________
Document Title: Nvidia shares up on PortalPlayer buy
Document URL: file:/c:/iWeb2/data/ch02/biz-05.doc             -->  Relevance Score: 0.324011474847794
_______________________________________________________________________
Document Title: NVidia Now a Supplier for MP3 Players
Document URL: file:/c:/iWeb2/data/ch02/biz-04.doc             -->  Relevance Score: 0.194406896829605
_______________________________________________________________________
Document Title: Nov. 6, 2006, 2:38PMChips Snap: Nvidia, Altera Shares Jump
Document URL: file:/c:/iWeb2/data/ch02/biz-06.doc             -->  Relevance Score: 0.185187965631485
_______________________________________________________________________


Search results using combined Lucene scores and page rank scores:
Query: nvidia

Document URL: file:/c:/iWeb2/data/ch02/biz-05.doc             -->  Relevance Score: 0.038583648894456
Document URL: file:/c:/iWeb2/data/ch02/spam-biz-02.doc        -->  Relevance Score: 0.035150283397485
Document URL: file:/c:/iWeb2/data/ch02/biz-04.doc             -->  Relevance Score: 0.029248593491925
Document URL: file:/c:/iWeb2/data/ch02/biz-06.doc             -->  Relevance Score: 0.022336576869772
_______________________________________________________________________

知识共享许可协议 知识共享署名-非商业性使用-相同方式共享码农场 » 《智能Web算法》2.5 Word、PDF等无链接文档的排序

评论 欢迎留言

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

我的作品

HanLP自然语言处理包《自然语言处理入门》