Python爬虫必学数据库:MongoDB
一、环境安装
第一步:需要在MongoDB的官网(https://www.mongodb.com/try/download/community)下载免费的MongoDB安装包。
第二步:安装并启动MongoDB服务。
第三步:需要使用pip命令安装MongoDB驱动程序来访问MongoDB数据库,
pip install pymongo
第四步:在操作MongoDB数据库的Python代码中,需要导入pymongo。
import pymongo
二、创建数据库和集合
1、创建数据库
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"]
2、创建集合
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"]
3、删除集合
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] mycol.drop()
三、增删改查操作
插入一个文档
insert_one()方法返回InsertOneResult对象,该对象拥有属性inserted_id,用于保存插入文档的id。如果没有指定_id字段,MongoDB将为每个文档分配一个唯一的ID。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] mydict = { "_id": 1, "name": "小磊", "introduce": "人生苦短,Python是岸!" } x = mycol.insert_one(mydict) print(x.inserted_id)
插入多个文档
insert_many()方法返回InsertManyResult对象,该对象拥有属性inserted_ids,用于保存被插入文档的id。如果没有指定_id字段,MongoDB将为每个文档分配一个唯一的ID。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] mylist = [ { "_id": 1, "name": "小马", "introduce": "人生苦短,Python是岸!" }, { "_id": 2, "name": "小磊", "introduce": "人生苦短,Python是岸!" }, { "_id": 3, "name": "小王", "introduce": "人生苦短,Python是岸!" }, { "_id": 4, "name": "小李", "introduce": "人生苦短,Python是岸!" }, { "_id": 5, "name": "小磊", "introduce": "人生苦短,Python是岸!" }, { "_id": 6, "name": "小磊", "introduce": "人生苦短,Python是岸!" }, ] x = mycol.insert_many(mylist) print(x.inserted_ids)
删除文档(Delete)
删除一个文档
delete_one()方法的参数是query对象。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] myquery = { "platform": "bilibili" } mycol.delete_one(myquery)
删除多个文档
delete_many()方法的参数是query对象。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] myquery = { "platform": "微信公众号"} x = mycol.delete_many(myquery) print(x.deleted_count, " documents deleted.")
删除所有文档
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] x = mycol.delete_many({}) print(x.deleted_count, " documents deleted.")
修改文档(Update)
修改一个文档
update_one()方法的第一个参数是query对象,第二个参数是定义文档新值的对象
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] myquery = { "platform": "bilibili"} newvalues = { "$set": { "introduce": "欢迎关注微信公众号:愤怒的it男" } } mycol.update_one(myquery, newvalues)
修改多个文档
update_many()方法的第一个参数是query对象,第二个参数是定义文档新值的对象。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] myquery = { "platform": {"$ne":"bilibili"}} newvalues = { "$set": { "introduce": "欢迎关注微信公众号:愤怒的it男" } } mycol.update_many(myquery, newvalues)
4、查询文档(Find)
查找一个文档
find_one()方法的第一个参数是query对象,第二个参数是描述包含在结果中字段的对象。
第二个参数不允许同时指定0和1值(除非其中一个字段是_id字段)。如果指定值为0的字段,则所有其他字段的值为1,反之亦然。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] myquery = { "platform": "微信公众号"} x = mycol.find_one(myquery,{ "_id": 0, "platform": 1, "name": 1 }) print(x)
查找多个文档
find()方法的第一个参数是query对象,第二个参数是描述包含在结果中字段的对象。
第二个参数不允许同时指定0和1值(除非其中一个字段是_id字段)。如果指定值为0的字段,则所有其他字段的值为1,反之亦然。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] myquery = { "platform": {"$ne":"bilibili"}} for x in mycol.find(myquery,{ "_id": 0, "platform": 1, "name": 1 }): print(x)
四、其他高级操作
1、排序文档(Sort)
sort()方法的第一个参数是字段名称,第二个参数是方向(默认升序)。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] mydoc = mycol.find().sort("_id", -1) for x in mydoc: print(x)
2、限定文档(Limit)
limit()方法接受一个参数,定义的数字表示返回的文档数。
import pymongo myclient = pymongo.MongoClient("mongodb://localhost:27017/") mydb = myclient["mydatabase"] mycol = mydb["customers"] myresult = mycol.find().limit(4) for x in myresult: print(x)