python源码学习（八）——string对象的intern机制

今天我们来看看python中一个非常重要的机制，intern机制，首先我们来举个例子，如下：
a1=”HelloWorld”
a2=”HelloWorld”
a3=”HelloWorld”
a4=”HelloWorld”
a5=”HelloWorld”
a6=”HelloWorld”
a7=”HelloWorld”
a8=”HelloWorld”
a9=”HelloWorld”
如果我们这样写的话，python会不会创建9个对象呢？在内存中会不会开辟10个”HelloWorld”的内存空间呢？想一下，如果是这样的话，我们写10000个对象，比如a1=”HelloWorld”…..a1000=”HelloWorld”，
那他岂不是开辟了1000个”HelloWorld”所占的内存空间了呢？呵呵，如果真这样，内存不就爆了吗？所以我们的python中有这样一个机制——intern机制，让他只占用一个”HelloWorld”所占的内存空间。
Intern机制的目的在于，在Python运行系统中，不论用户创建了多少像上面的a，只有一个”Python“对象，其他的都是指向这个对象，大家共用这个对象。也就是说，当a1创建的时候，Python会对a1进行Intern机制处理，然后当a2创建的时候，a2指向一个PyStringObject temp,通过intern机制发现已经有a2与a1的对象存储的字符串其实一样，那么就会把a2指向a1指向的那个对象，这样用来创建a2的那个临时对象temp会因为a2指向其他对象而进行de_allocate而销毁，这样就不会浪费内存了。
上面代码中的size==0括号的内容其实也就是对nullstring的一种intern机制处理，令所有创建的Null string都指向同一个对象。

下面是intern机制的代码：

[code lang=”C”]
static PyObject *interned;
void PyString_InternInPlace(PyObject **p)
{
register PyStringObject *s = (PyStringObject *)(*p);
PyObject *t;
if (s == NULL || !PyString_Check(s))
Py_FatalError("PyString_InternInPlace: strings only please!");
/* If it’s a string subclass, we don’t really know what putting
it in the interned dict might do. */
if (!PyString_CheckExact(s))
return;
if (PyString_CHECK_INTERNED(s))
return;
if (interned == NULL) {
interned = PyDict_New();
if (interned == NULL) {
PyErr_Clear(); /* Don’t leave an exception */
return;
}
}
t = PyDict_GetItem(interned, (PyObject *)s);
if (t) {
Py_INCREF(t);
Py_DECREF(*p);
*p = t;
return;
}

if (PyDict_SetItem(interned, (PyObject *)s, (PyObject *)s) < 0) {
PyErr_Clear();
return;
}
/* The two references in interned are not counted by refcnt.
The string deallocator will take care of this */
Py_REFCNT(s) -= 2;
PyString_CHECK_INTERNED(s) = SSTATE_INTERNED_MORTAL;
}
[/code]

其中重要的我已经粗体字表明了，interned的定义是一个PyObject,但从下面的代码可以看出，在interned=nul的时候，interned = PyDict_New();所以它实际上是一个PyDictObject，我们可以暂时理解为c++里面的map对象。对一个PyStringObject对象进行intern机制处理的时候，会通过PyDict_GetItem去从Interned对象中查找有没有一样的已经创建的对象，有的话就直接拿来用，没有的话就说明这种对象是第一次创建，用PyDict_SetItem函数把相应的信息存到interned里面，下次再创建一样的就能从中找到了。
之前在讲PyIntObject的时候有提到过对象池，那么对于PyStringObject，又怎么可能没有呢？对于int，是比较小的整数会一直存在于内存中，那么对于string,为会长度为1的字符创建对象池。
static PyStringObject *characters[UCHAR_MAX + 1];
下面补全上面部分省略的代码：

[code lang=”C”]
if (size == 1 && str != NULL) {
PyObject *t = (PyObject *)op;
PyString_InternInPlace(&t);
op = (PyStringObject *)t;
characters[*str & UCHAR_MAX] = op;
Py_INCREF(op);
}
[/code]

这样，每当创建长度为1的字符串的时候，都会把它存到characters里面，这样之后创建长度为1的字符时，如果检测到已经在characters里面了，就直接返回这个缓冲的对象(如下面代码所示)，不用进行malloc,这也就是该缓冲池的作用

[code lang=”C”]
if (size == 1 && str != NULL &&
(op = characters[*str & UCHAR_MAX]) != NULL)
{
#ifdef COUNT_ALLOCS
one_strings++;
#endif
Py_INCREF(op);
return (PyObject *)op;
}
[/code]

OK,今天先讲到这里吧。

发表评论 取消回复

发表评论取消回复