在公司第一次自己搭建真实项目,不详细记录其中的过程,只记录其中的问题。
之前实现了对网页数据的爬取和存储,然后准备将这些取得的数据进行分析。但是因为需要进行分词以及关键字提取,用到了BosonNLP,无奈免费使用的部分还是有一些限制,再者分析并不是我学习的重点,那就先将分析放下。因为单线程爬虫的效率比较低,因此使用多线程实现Java爬虫。
比较闲,所以让冯董立了个项目。项目在gitlab上,项目地址:java的数据采集项目。
进行多表查询的时候会需要使用到join,常用的为inner join、right join和left join。我没有去画图解释,也懒得盗图,那干脆就在这里贴一篇参考吧。
order by子句用于对查询的结果集进行排序,在order by后面可以接多个需要排序的字段。
having子句一般是和group by组合使用的,在后面接一个聚合函数,对group by的分组结果进行筛选。当然,having也可以单独使用,但不推荐。