分类: tech

  • 一种常用的重构方式

    重构是一个程序员很好的编程习惯。有时候难免写出一些不好看的代码,空闲时候你就可以用重构这种方式来提升代码质量。

    比如类似这种模式:

    if (! pDev->m_IsInited)  pDev->Init();

    这段代码从性能上来说没有什么问题,意思也很明显,如果“已经初始化”标记为false,则调用Init()这个初始化函数做一些动作。

    但是代码实际上可以改进的更好,最大的问题是对于pDev的使用者来说,没有必要知道m_IsInited这个变量。我们可以推出第二版:

    if (! pDev->IsInited() )  pDev->Init();

    这时候类变量被函数调用替换,好处是你可以在IsInited()函数里面做更多的操作,或者把m_IsInited改个名字而不需要去修改每行类似上面的代码。

    当然还有一种更简单的方案:

    pDev->Init();

    而IsInited()判断则放在Init()里面,这时候pDev的使用者更省事,我只要调用就好了,有没有初始化过,那是pDev自己的责任,跟使用者无关。

    需要注意的是,Init()此类函数也许会有输入参数,那时候就需要比较复杂代码来保存状态以免出错。另外这个方式主要用于防止Init反复重入,如果某个函数需要反复调用且每次调用结果可能不同,那就不能使用类似手段了。

    这属于非常非常基本但也是很常用的一种重构方式,在这里记录一下。

  • C语言指针及数组

    C语言的指针与数组是一个比较高阶的话题,有些书就是照本宣科,读者看完会认为自己明白了。真要是碰到一些模棱两可的问题,就发现自己了解的还不够深入,那时候就棘手了。我在前面提到的《C语言趣味题目》http://sunxiunan.com/?p=1647就是一个例子,如果你对里面的题目都完成的非常完美,那指针与数组的话题其实也没必要看了,你一定已经是一个C语言方面的高手。

    C语言的指针,是C语言里最为灵活最有力量也最容易产生问题的强力武器。数组相对来讲花样少一些,但也有些比较容易出问题的知识点。

    如果你想系统深入了解指针,我推荐你完整系统的阅读这几本书《C Programming language》也就是(K&R圣书),第二本是《C专家编程》,里面关于数组与指针的阐述尽管已经过去十多年依然是熠熠生辉,没有其它书籍能赶上,另外还可以看看《C与指针》这本书,其实也是一本C语言系统教材,把指针单独提出了,也体现了指针的强大威力,还有一本是《C陷阱与缺陷》,也是非常值得一读。

    如果看完这些书,可以看看几个专门阐述C指针或者包含相关内容的文档,比如:

    http://home.netcom.com/~tjensen/ptr/pointers.htm A TUTORIAL ON POINTERS AND ARRAYS IN C

    http://publications.gbdirect.co.uk/c_book/ 这本书在线免费阅读

    http://boredzo.org/pointers/ Everything you need to know about pointers in C

    http://www.cs.cf.ac.uk/Dave/C/node10.html Common Pointer Pitfalls 这是从wiki的pointer页面上发现的

    http://www.knosof.co.uk/cbook/cbook.html New C Standard, 云风在他的blog推荐过。

    http://learn.akae.cn/media/index.html Linux C编程一站式学习

    ———————————

    C语言中的指针是什么,数组是什么,该如何定义初始化,我在这里不多讲,任何一本C语言的教材或者我前面推荐的K&R都有很详细的解释。

    关于指针与数组最经常提到的问题就是在定义为functionA(int * p),然后可以直接把int numArray[5]这样的数组直接作为参数传入,或者声明declaration与定义definition不匹配,如extern定义为char* 但是实际上是char[]。

    其实我们只要记住指针与数组的几个不同点,到时候类似问题就很容易搞掂了。在《C专家编程》里面列出一些,我这里简述一下:

    第一点也是最关键一点,指针访问是间接的,也就是指针存放的是一个地址的值,存放的是被指内容的地址,其实类似一个中转站或者114的功能,如果想取得指针所指向的内容,必须做提领(deference)操作,实际上类似于两个步骤(先取得指针的内容也就是p存放的地址值,然后取得存放地址里面内容)。而数组里存放的就是数组的值,不是什么间接引用的地址,比如我们要取arr[5]的值,只要从arr开始数5个位置,里面就是a[5]的内容。

    另外一点不同是,假如我们有个数组int array[5],数组的地址&array与数组名字array本身代表的地址是不一样的。&array实际上是一个int (*p1)[5]类型的指针,p1每一步递增递减都是sizeof(array),也就是5个int长度。而array相当于&array[0],也就是第一个元素(element)的地址,类型是int *p2,p2每一步递增都是sizeof(int)。这个区别在指向二维数组或者多维数组指针里非常需要注意。

    再有一点不同是,一般指针类型(除了int *const p这种)都是没有名字的,可以随意的指来指去的,另外指针可以有加减计算,加上减去一定的值。而数组相当于,定义以后就不可以修改数组地址了,这也是前面一条我都会说有一个p1或者p2指针,而不是数组array本身。尽管数组array有类似指针的行为,也是某种地址,但是它不可以进行加减操作,我们可以认为数组array本身是一个常量。

    还有一点不同是,指针可以初始化为NULL,另外可以声明为void指针,还可以声明非常复杂的函数指针、指针的指针、字符串指针等等,但是数组没法定义为函数数组。

    什么情况下指针与数组的概念可交换?《C专家编程》总结的以及相当全面,我在这里简单列两条,深入的内容请看书。1)使用a[i]这种形式对数组访问,编译器改写为*(a + i)形式,这也是为何i[a]这样写也编译运行通过的原因。2)作为函数参数时,数组会被修改为指向数组第一个元素的指针。

    关于指针还有很多高阶内容,比如复杂的指针声明该如何解读?int const * p1与int * const p2的不同之处?sizeof *ptr 与 sizeof ptr结果?这里就不一一讲述了,毕竟这篇文字是给我自己做一个知识备份。如果大家有指针相关问题,欢迎留言,我会尽量解答。

  • MFC是否过时?如何学习MFC?

    过时与否?简单回答就是:没有过时。

    是否需要学习MFC?简单答之:depends on。

    学习MFC最好的书籍?是这本:http://www.china-pub.com/45715 《VC++技术内幕》,另外深入一点可以看《深入浅出MFC》(侯捷)。

    ——————————————–

    为何没有过时?很简单,微软一直在更新MFC,如果知道MFC的真正含义,你是不会说出过时两个字的,Microsoft Foundation Class,这是微软C++界面库的基础。有人会提WTL或者ATL,OK,他们被用的不多。至于QT什么的,那不是微软的东西,再好微软也不会用的。

    MFC没有更新吗?当然不是,如果你安装了VS2008或者2010就会不经意发现,那些wizard提示方式下,你可以建立出更多更酷的界面模式,那些都是QT、WTL么?当然不是,那都是MFC的功劳!!!

    MFC一直在与时俱进,为了建立微软的和谐帝国而努力更新更新。

    要不要学MFC?这个问题值得思考,一般来说,如果你问我这个问题,我会问你两个额外的问题来确定你知道你想问什么。第一个额外问题是:你的工作或者学习需要你在Windows下搞开发么?第二个额外问题是:你所谓的学习,是指仅仅会用会从toolbox拖拽?还是懂得Internal的机理,知道它的优劣?

    如果你只是想在Windows下搞界面相关的开发,依此谋生或者做点软件之类,那么学完我推荐那本《内幕》已经差不多足够了。再多看看一些MSDN的相关版本更新文章就足够你在公司里厮混下去。

    如果你想了解的更多,其实微软也给你这个机会,MFC实际上是“路一直都在”,CString也好CDialog也好,其实它们的代码微软早就给你了,就在VisualStudio的MFC目录下,完完整整的哦。可是有多少人会去读会去看呢?想了解哪个类的实现或者函数的实现,只要“go to declaration”就可以了。

    还有问题?欢迎留言,只要不是白痴问题,我都会尽量回答。

  • C语言趣味题目

    http://stevenkobes.com/ctest.html

    在这个网站上发现一套很有趣的C语言测试题,如果你招聘C语言相关开发人员,或者正在学习C语言,很值得做一做。

    如果没有做,下面内容暂时不要看,最好自己先完成一遍。

    —————————————–

    image

    ——————————————–

    OK,假设你做的答案没有完全正确,那你可以继续看下去了,否则,后面内容对你来说就是小菜一碟,不值得看。

    ——————————————–

    第一题:

    #include <setjmp.h>
    static jmp_buf buf;
    int main(void)
    {
    volatile int b = 3;
    if (setjmp(buf) != 0)
    {
    printf(“%d\n”, b);
    exit(0);
    }
    b = 5;
    longjmp(buf, 1);
    }

    输出结果为A)3      B)5     C)0      D)都不是

    答案为B,也就是输出5。

    关键点在于理解setjmp以及longjmp,(http://en.wikipedia.org/wiki/Setjmp.h )第一次运行到setjmp,会设置jmp_buf,然后返回0。当调用longjmp时,会把longjmp里面的非0值作为setjmp的返回值返回(如果longjmp的value参数为0,setjmp恢复后返回1,也就是当恢复到setjmp存储点的时候,setjmp一定不会返回0)。

    setjmp-longjmp组合的用处类似于游戏中的存盘读盘功能,经常被用于类似C++的异常恢复操作。

    第二题:

    struct node
    {
    int a;      int b;      int c;
    };
    struct node s = { 3, 5, 6 };
    struct node *pt = &s;
    printf(“%d\n”, *(int*)pt);
    返回结果为3,这个算是比较简单,pt为指向结构s的指针,然后将pt转换为int指针,进行dereference,取出一个int值,那就是结构中第一个数。

    我们将题目改动一下,如下代码

    struct node
    {
    char a;   char b;  short c;   int d;
    };
    struct node s = { 3, 5, 6, 99 };
    struct node *pt = &s;

    printf(“%X\n”, *(int*)pt);
    需要注意的是一般32位C编译器都认为char是8bit,short是16bit,int为32bit,所以node在内存中应该正好是对齐的,也就是abc这几个成员之间没有空隙。最终结果应该为60503,如果不是,欢迎你告诉我你具体的编译环境以及硬件配置。

    第三题:

    int foo(int x, int n){
    int val = 1;
    if (n > 0)
    {
    if (n % 2 == 1) val *= x;
    val *= foo(x * x, n / 2);
    }
    return val;
    }

    这道题其实最简单的办法就是在纸上做一个推演计算,一步一步跑一下,就能得到答案了,这里面没有任何复杂的C语言概念。

    第四题:

    int a[5] = { 1, 2, 3, 4, 5 };
    int *ptr = (int*)(&a + 1);
    printf(“%d %d\n”, *(a + 1), *(ptr – 1));
    这道题考的其实是指向数组的指针,&a是一个隐式的指向int [5]数组的指针,它和int* ptr是不一样的,如果真要定义这个指针,应该是int (*ptoa)[5]。所以ptoa每一次加一操作都相当于跨越int a[5]的内存步长(也就是5个int长度),也就是说&a + 1其实就是指向了a[5]这个位置,实际上内存里面这个位置是非法的,但是对ptr的强制转换导致了后面ptr-1的内存步长改为了1个int长度,所以ptr-1实际指向了a[4]。至于*(a+1)没什么好说的,值就是2。

    第五题:

    void foo(int[][3]);
    int main(void)
    {
    int a[3][3] = { {1, 2, 3}, {4, 5, 6}, {7, 8, 9} };
    foo(a);
    printf(“%d\n”, a[2][1]);
    return 0;
    }

    void foo(int b[][3])
    {
    ++b;
    b[1][1] = 9;
    }

    其实和前一题有异曲同工之妙,++b的步长实际上是3个int,也就是++b运算以后,b指向{4,5,6}这个数组的开始,而b[1]就是{7,8,9}, b[1][1]实际上就是8这个值也就是main函数中的a[2][1].

    第六题:

    int a, b, c, d;
    a = 3;
    b = 5;
    c = a, b;
    d = (a, b);

    printf(“c=%d  “, c);
    printf(“d=%d\n”, d);

    这个其实有两个C语言知识点,一个是等号操作符优先级高于逗号操作符,另一个是逗号操作符相当于运算逗号前半部后半部的表达式,然后返回后半部表达式的值。所以c等于a(先计算等号),而d等于b(逗号表达式返回b)。

    第七题:

    int a[][3] = {1, 2, 3, 4, 5, 6};
    int (*ptr)[3] = a;

    printf(“%d %d “, (*ptr)[1], (*ptr)[2]);

    ++ptr;
    printf(“%d %d\n”, (*ptr)[1], (*ptr)[2]);

    依然是2维数组相关题目,ptr为指向int [3]数组的指针,首先指向a[0],所以(*ptr)[1], (*ptr)[2]就是a[0][1], a[0][2].然后++ptr,相当于ptr指向了a[1],这时得到的是a[1][1],a[1][2],所以结果就是2,3, 5, 6。

    第八题:

    int *f1(void)
    {
    int x = 10;   return &x;
    }
    int *f2(void)
    {
    int *ptr;   *ptr = 10;   return ptr;
    }
    int *f3(void)
    {
    int *ptr;   ptr = malloc(sizeof *ptr);   return ptr;
    }

    这里考的是返回一个指针的问题,一般来说返回指针的函数,里面一定有malloc之类的内存申请操作,传入指针类型,则是对指针指向的内容做修改。如果想修改指针本身,那就要传入指针的指针。

    第九题:

    int i = 3;   int j;
    j = sizeof(++i + ++i);
    printf(“i=%d j=%d\n”, i, j);
    这道题考的内容其实就是sizeof,我在这篇文章里提到过http://sunxiunan.com/?p=1637 sizeof如果计算表达式,那么表达式是不会做计算的,也就是不管加加减减,sizeof就是针对i计算大小。在32位机器上,这个j应该为4。

    我将代码扩展了一下,看看大家能不能想到结果:

    short m;    int n;     double dn;
    int j = sizeof ( m + n);
    int k = sizeof ( n + n);
    int l = sizeof ( m);
    int l2 = sizeof (m * m);
    int l3 = sizeof (m + dn);
    int l4 = sizeof (m + m);

    第十题:

    void f1(int*, int);
    void (*p[2])(int*, int);
    int main(void)
    {
    int a = 3;
    int b = 5;
    p[0] = f1;
    p[1] = f1;
    p[0](&a, b);
    printf(“%d %d “, a, b);
    p[1](&a, b);
    printf(“%d %d\n”, a, b);
    return 0;
    }

    void f1(int *p, int q)
    {
    int tmp = *p;   *p = q;   q = tmp;
    }

    函数指针的数组p勉强算是一个知识点,另外一个知识点就是第八题提到的,对于int q这样的参数,是不会修改其内容的。而*p则可修改p指向的内容。

    第十一题:

    void e(int);
    int main(void)
    {
    int a = 3;
    e(a);

    putchar(‘\n’);
    return 0;
    }

    void e(int n)
    {
    if (n > 0)
    {
    e(–n);
    printf(“%d “, n);
    e(–n);
    }
    }

    这道题自己debug一下就完全明白了,主要知识点就是递归调用,另外前置后置自减操作的返回值问题。

    第十二题:

    typedef int (*test)(float*, float*);
    test tmp;

    也是经常出现的一类题,对复杂的指针定义做解析,实际上K&R里面(5.12)也有介绍该如何解读。不熟悉的朋友可以试着练习练习标准库中的bsearch,qsort以及signal函数。

    第十三题:

    char p;
    char buf[10] = {1, 2, 3, 4, 5, 6, 9, 8};
    p = (buf + 1)[5];
    printf(“%d\n”, p);

    这道题我在http://sunxiunan.com/?p=1637 也提到过相关知识点,也就是p实际指向*(buf + 1 + 5),写的更诡异一些就是p=5[buf +1];也是同样结果。

    第十四题:

    类似十三题,也是把数组弄得有些诡异,(p += sizeof(int))[-1];相当于*(p + sizeof(int) + (-1))。

    第十五题:

    int ripple(int n, …)
    {
    int i, j, k;
    va_list p;
    k = 0;
    j = 1;
    va_start(p, n);
    for (; j < n; ++j)
    {
    i = va_arg(p, int);
    for (; i; i &= i – 1)
    ++k;
    }
    return k;
    }

    int main(void)
    {
    printf(“%d\n”, ripple(3, 5, 7));
    return 0;
    }

    这道题也是两个知识点,一个是可变参数函数定义以及如何实现,va_arg会把5,7依次取出来。另一个知识点是i &= i-1,实际上是计算了i二进制形式中1的个数,每次计算都会消减掉最低有效位上的1。比如7二进制表示为111。i &= i –1的计算结果依次为110,100, 000 (也就是0)。在hacker’s Delights这本书里介绍了很多类似技巧。

    第十六题:

    int counter(int i)
    {
    static int count = 0;
    count = count + i;
    return count;
    }

    int main(void)
    {
    int i, j;
    for (i = 0; i <= 5; i++)  j = counter(i);
    printf(“%d\n”, j);
    return 0;
    }

    只要了解静态局部变量的真正内涵,这道题就是小菜一碟碟碟碟碟碟。。。。。。

  • C语言strlen实现之不科学测试

    代码放在这里:

    http://gist.github.com/419473 

    ————————————-

    其中strlenBSD为delphij实现的FreeBSD使用的strlen标准库函数。http://www.freebsd.org/cgi/cvsweb.cgi/src/lib/libc/string/strlen.c?rev=1.10

    strlenVC来自VS2010的CRT src,我建立了一个内嵌汇编函数,其实是有问题的,因为MSDN说的很清楚,内嵌汇编这种方式是没法做优化的。

    strlenDiet这个函数来自DietlibC,使用的是0.32版本。

    strlenStandard是最一般常见的实现方式,比如wiki上、《c标准库》上都是类似写法。

    logger是我自己写的一个高精度计时函数,里面用的QueryPerformanceFrequency这个函数,每段strlen计算都是单独start()以及stop(),然后计算运行时间。

    还有一个重要的问题就是project setting。

    首先我们使用release版本,在VC2010 project property page里面

    image

    最后一个问题就是测试字符串,我们使用了windowsUpdate.txt这个文本文件,大概1.2M左右。

    当字符串个数为80000时,运行两次,我们得到测试结果如下(时间单位都是us):

    Result strlen 0.000000 ##

    Result strlenBSD 0.102586 ##

    Result strlenVC 3012.946893 ##

    Result strlenDiet 2802.122562 ##

    Result strlenStandard 3485.999846 ##

    —– second time ——–

    Result strlen 0.000000 ##

    Result strlenBSD 0.000000 ##

    Result strlenVC 3015.086831 ##

    Result strlenDiet 2806.302525 ##

    Result strlenStandard 3676.002553 ##

    可以看到这时候使用CRT标准库的strlen最快,而strlenBSD也是非常非常快乐,而标准实现是最慢的。

     

    去掉优化看看。

    image

    Result strlen 4161.887115 ##

    Result strlenBSD 3968.818857 ##

    Result strlenVC 3078.673800 ##

    Result strlenDiet 3819.303217 ##

    Result strlenStandard 5035.940199 ##

    —————– second ————

    Result strlen 3165.460250 ##

    Result strlenBSD 4013.348883 ##

    Result strlenVC 3764.022041 ##

    Result strlenDiet 5623.339493 ##

    Result strlenStandard 6379.640180 ##

    这个结果就比较有意思了,除了标准实现方式的版本最慢,其他差别不是很大,相比来说VC++内嵌汇编的实现比较快一些。

    第二个测试文本来自ironruby的changelog.txt,大概5000行左右,我们依然试图读取80000个字符串(也就是只改变了代码中fopen的源文件)。

    全优化版本两次测试结果如下:

    Result strlen 0.000000 ##

    Result strlenBSD 0.433735 ##

    Result strlenVC 1011.775006 ##

    Result strlenDiet 826.736862 ##

    Result strlenStandard 1050.510424 ##

    —————————-

    Result strlen 0.000000 ##

    Result strlenBSD 0.165407 ##

    Result strlenVC 1030.929523 ##

    Result strlenDiet 836.285049 ##

    Result strlenStandard 1057.499975 ##

     

    无优化设置版本两次测试结果如下:

    Result strlen 1166.623783 ##

    Result strlenBSD 1438.473774 ##

    Result strlenVC 1265.279138 ##

    Result strlenDiet 1456.994396 ##

    Result strlenStandard 1546.674976 ##

    —————————-

    Result strlen 1166.989685 ##

    Result strlenBSD 1480.218605 ##

    Result strlenVC 1033.686648 ##

    Result strlenDiet 1239.002409 ##

    Result strlenStandard 1450.543506 ##

     

    得到什么结论呢?除了我比较无聊,好像没有什么科学性的结论。如果硬要想,可以说两个:一个是内嵌汇编未必很快,因为编译器没法做优化。另外是,如果你想写一个优化版本strlen,delphij实现的FreeBSD版本是非常好的例子,而dietlibc的实现几乎没有什么改进,反而因为代码复杂容易引入bug。

    有几个问题其实可以好好研究的,比如为何delphij的版本会如此快?VC++以及GCC优化选项哪个比较有用?该如何写一个类似CRT这样的strlen(也就是汇编代码编译为so或者lib然后连接进来)。只是这些话题有些超出我水平,就不乱说了。

    updated:

    新测试代码在这里,增加了一个没对齐情况的测试(p+1),另外测试字符串个数增加到300000,对testbyte,增加一个版本,直接写testbyte在代码里。

    http://gist.github.com/419585

    测试结果如下:

    ———–对齐———————–
          Result strlenVC 84904.335012 ##

    Result strlenDiet 82614.256452 ##

    Result strlenStandard 99900.620863 ##

    Result strlen 0.000000 ##

    Result strlenBSD 0.002673 ##

    Result strlenBSD2 0.032413 ##

    ————未对齐————————

    Result strlenVC 87593.624963 ##

    Result strlenDiet 83682.625534 ##

    Result strlenStandard 99746.446413 ##

    Result strlen 0.002339 ##

    Result strlenBSD 0.002673 ##

    Result strlenBSD2 0.015037 ##

    可以看到对齐没对齐差别不是很大,至于0.000000,那是因为太快了,计时器没法计算出差别。